音频算法实习生(A43877)
深圳
硕士及以上
电子信息类·计算机类
使用简历深度优化功能,快速提升简历质量
职位介绍
职位描述: 工作职责(语音前端或语音后端其中一个方向即可): 1. 拾音增强算法研发与落地:主导 3A 算法(AEC 回声消除、AGC 自动增益控制、ANS 噪声抑制)与 Beamforming(波束成形)算法设计,针对复杂场景(如嘈杂环境、多说话人干扰)优化算法性能,完成从算法原型(Python 仿真)到工程化(C实现)的转化,适配端侧设备或云侧服务; 2. 语音识别与翻译技术落地:负责语音识别(ASR)、语音翻译(ST)算法的选型、优化与定制,包括数据构建(标注规则制定、数据集清洗与扩充)、模型训练(如 Transformer、Conformer 架构调优)、推理加速(量化、剪枝),支撑实时语音交互场景(如智能助手、跨境会议翻译),确保识别准确率与翻译流畅度达标; 3. 说话人识别算法开发:设计说话人分离、说话人验证 / 识别算法(如基于声纹特征的模型),解决多说话人场景下的身份区分问题,完成算法从仿真验证到落地部署(端侧轻量化 / 云侧高并发)的全流程,适配安防监控、个性化语音服务等场景; 4. 快速 demo 输出与迭代:针对产品需求快速搭建算法 demo 原型,验证技术可行性,根据测试反馈迭代算法,输出可复用的技术方案与工程化模板; 5. 跨团队协作与技术支撑:与硬件团队(麦克风阵列选型、声学结构设计)、嵌入式团队(端侧算法移植与算力适配)、产品团队(需求拆解与性能指标定义)协作,输出算法技术文档(数据规范、训练手册、部署指南),解决落地过程中的算法兼容性、性能瓶颈问题。 职位要求: 任职要求 1. 学历与工作经验 - 硕士及以上学历,声学工程、电子信息工程、信号与信息处理、计算机科学与技术等相关专业; 2 核心技术能力 - 拾音增强基础:熟悉3A 算法原理与实现细节,熟悉 Beamforming 阵列设计(如线性阵列、环形阵列)与信号处理流程(如 DOA 波达方向估计、自适应滤波),有实际麦克风阵列算法落地经验者优先; - 语音技术栈:熟悉 ASR、ST、说话人识别的核心技术框架,掌握语音信号预处理、模型训练(端到端 ASR/ST 调优)、推理优化(TensorRT/ONNX Runtime 部署); - 数据与工程能力:具备数据全流程处理能力(数据采集方案设计、标注工具开发、数据集清洗与增强),熟练使用 Python进行算法原型开发,掌握 C用于算法工程化落地,能完成端侧(ARM/MCU)或云侧部署; - 快速 demo 能力:有快速验证技术可行性的实战经验,能在短周期内(1-2 周)搭建算法 demo(如基于开源框架快速适配场景需求、验证算法性能),并输出清晰的 demo 测试报告; - 场景适配经验:有智能硬件(耳机、音箱、车载)、远程会议、安防监控等音频相关产品算法落地经验者优先,能解决实际场景中的极端问题(如低信噪比、远距离拾音、多语种混合识别)。 3. 软技能要求 - 具备强烈的落地意识,关注算法从 “理论性能” 到 “实际产品体验” 的转化,能主动推进跨团队协作; - 良好的问题排查能力,能快速定位算法落地中的数据问题、模型问题、工程兼容性问题; - 清晰的技术沟通能力,能将复杂算法逻辑转化为易懂的技术文档,适配不同协作角色的信息需求。

