logologo
寻找工作
返回简章2025-10-22 更新

端到端语音交互实习生

深圳
本科及以上
不限专业
使用简历深度优化功能,快速提升简历质量
职位介绍
职位描述 我们正在构建实时端到端语音交互系统,整合语音识别(ASR)、语音合成(TTS)和语音对话的全流程全双工大模型能力。 作为实习生,你将参与以下工作: 1.模型开发: 参与基于开源语音大模型的端到端语音全双工大模型架构设计与优化,包括但不限于语音识别、音频理解、声音事件检测、语音端到端对话等 开发融合语音-文本多模态对齐的联合训练策略 探索低时延下的语音编码,生成,解码问题 2.数据建设: 构建多语言、多场景的高质量含多轮对话语音-文本对齐数据集(中英文为主) 设计数据增强策略解决口音、噪声、重叠语音等问题 3.评估体系: 建立端到端语音交互的全链路评估指标,提升模型的性能和稳定性 完成相关项目的开发和落地,实现在机器人上技术成果转化 职位要求 学术背景: 计算机科学、电子工程、应用数学、机器学习等相关专业硕士/博士在读 数学基础扎实率论、数值优化、信号处理 基础技能: 熟悉Python、C++等编程语言,掌握PyTorch/TensorFlow至少一种深度学习框架 具备扎实的数学和算法基础,熟悉深度学习和机器学习的基本理论和方法 理解大模型技术:Transformer架构、预训练与微调策略、prompt等 良好的沟通能力,较强的分析和解决问题的能力 良好的英语阅读和写作能力,能阅读撰写整理相关技术文档和论文 优先条件: 在多模态大模型、语音大模型、ASR/TTS/语音增强等方向有实战经验 在流式(streaming)方向有开源项目或论文经验 对Qwen-omni、VITA-Audio等开源大模型熟悉者优先