返回简章2026-06-04 更新

语音算法

北京

硕士及以上

计算机类·电子信息类

使用简历深度优化功能，快速提升简历质量

职位介绍

职位描述负责会议场景下的长语音识别（ASR）、声纹识别与说话人分离、语音情绪识别的算法研发与调优，确保在多方会议、噪音干扰下的高准确率。针对不同说话人构建个性化声纹库，并结合大模型探索语音模态（Audio）与文本模态（Text）的对齐，深入挖掘语音背后的语气与情绪信号。负责算法在智能硬件端侧（Linux/Android）的移植与推理加速，解决资源受限下的性能问题。负责语音合成（TTS）的技术选型与初步搭建。根据业务需求，评估并集成业界优秀的 TTS 方案（开源模型或 API），为产品未来的语音交互功能做好技术储备（如音色克隆、拟人化语音输出等）。职位要求 985/211 高校计算机、电子信息、信号处理等相关专业硕士及以上学历。深入理解主流 ASR 框架（Wenet, Whisper, Conformer 等）。精通声纹识别与分离技术，有处理 Overlap（重叠语音）和复杂声学环境的实战经验。熟悉语音情绪识别相关特征提取与模型训练。熟悉语音合成基本原理（如 VITS, FastSpeech, Tacotron 等），有开源 TTS 模型部署、微调或音色克隆（Voice Cloning）相关经验者优先。熟练掌握 C++ / Python，熟悉 PyTorch/TensorFlow，具备端侧模型部署经验（TensorRT, ONNX, TFLite）。加分项有全链路语音交互系统（ASR + NLP + TTS）搭建经验。有智能音箱、会议助手、AI 硬件产品的完整落地经验。了解大模型（LLM）在语音交互中的应用（如 GPT-4o 语音模式、Speech-to-Speech 架构）。在 ICASSP, Interspeech 等顶级会议发表过相关论文。

职位来源

北京衔远有限公司

民营企业 · 人工智能软件 · 成立4年

在招职位