logologo
寻找工作
返回简章2026-06-04 更新

语音算法

北京
硕士及以上
计算机类·电子信息类
使用简历深度优化功能,快速提升简历质量
职位介绍
职位描述 负责会议场景下的长语音识别(ASR)、声纹识别与说话人分离、语音情绪识别的算法研发与调优,确保在多方会议、噪音干扰下的高准确率。 针对不同说话人构建个性化声纹库,并结合大模型探索语音模态(Audio)与文本模态(Text)的对齐,深入挖掘语音背后的语气与情绪信号。 负责算法在智能硬件端侧(Linux/Android)的移植与推理加速,解决资源受限下的性能问题。 负责语音合成(TTS)的技术选型与初步搭建。 根据业务需求,评估并集成业界优秀的 TTS 方案(开源模型或 API),为产品未来的语音交互功能做好技术储备(如音色克隆、拟人化语音输出等)。 职位要求 985/211 高校计算机、电子信息、信号处理等相关专业硕士及以上学历。 深入理解主流 ASR 框架(Wenet, Whisper, Conformer 等)。 精通声纹识别与分离技术,有处理 Overlap(重叠语音)和复杂声学环境的实战经验。 熟悉语音情绪识别相关特征提取与模型训练。 熟悉语音合成基本原理(如 VITS, FastSpeech, Tacotron 等),有开源 TTS 模型部署、微调或音色克隆(Voice Cloning)相关经验者优先。 熟练掌握 C++ / Python,熟悉 PyTorch/TensorFlow,具备端侧模型部署经验(TensorRT, ONNX, TFLite)。 加分项 有全链路语音交互系统(ASR + NLP + TTS)搭建经验。 有智能音箱、会议助手、AI 硬件产品的完整落地经验。 了解大模型(LLM)在语音交互中的应用(如 GPT-4o 语音模式、Speech-to-Speech 架构)。 在 ICASSP, Interspeech 等顶级会议发表过相关论文。