返回简章2025-10-22 更新

端到端语音交互实习生

深圳

本科及以上

不限专业

使用简历深度优化功能，快速提升简历质量

职位介绍

职位描述我们正在构建实时端到端语音交互系统，整合语音识别（ASR）、语音合成（TTS）和语音对话的全流程全双工大模型能力。作为实习生，你将参与以下工作： 1.模型开发：参与基于开源语音大模型的端到端语音全双工大模型架构设计与优化，包括但不限于语音识别、音频理解、声音事件检测、语音端到端对话等开发融合语音-文本多模态对齐的联合训练策略探索低时延下的语音编码，生成，解码问题 2.数据建设：构建多语言、多场景的高质量含多轮对话语音-文本对齐数据集（中英文为主）设计数据增强策略解决口音、噪声、重叠语音等问题 3.评估体系：建立端到端语音交互的全链路评估指标，提升模型的性能和稳定性完成相关项目的开发和落地，实现在机器人上技术成果转化职位要求学术背景：计算机科学、电子工程、应用数学、机器学习等相关专业硕士/博士在读数学基础扎实率论、数值优化、信号处理基础技能：熟悉Python、C++等编程语言，掌握PyTorch/TensorFlow至少一种深度学习框架具备扎实的数学和算法基础，熟悉深度学习和机器学习的基本理论和方法理解大模型技术：Transformer架构、预训练与微调策略、prompt等良好的沟通能力，较强的分析和解决问题的能力良好的英语阅读和写作能力，能阅读撰写整理相关技术文档和论文优先条件：在多模态大模型、语音大模型、ASR/TTS/语音增强等方向有实战经验在流式（streaming）方向有开源项目或论文经验对Qwen-omni、VITA-Audio等开源大模型熟悉者优先

职位来源

智元创新(上海)科技有限公司

民营企业 · 人工智能解决方案 · 成立3年

在招职位