公司简介:
全球致力于链接消费者与商品的人工智能公司。衔远科技自研A大模型,数百亿级参数规模与独特训川练上大模型在具备通用能力的基础上,更擅长理解人与商品。让每一件商品都应需而生,让每一个消费者都得偿所愿。在招职位如下:
语音算法
工作城市:北京
薪资:13k-24k
学历要求:硕士,博士
岗位性质:实习
岗位描述:
薪资:13k-24k
学历要求:硕士,博士
岗位性质:实习
岗位描述:
职位描述
负责会议场景下的长语音识别(ASR)、声纹识别与说话人分离、语音情绪识别的算法研发与调优,确保在多方会议、噪音干扰下的高准确率。
针对不同说话人构建个性化声纹库,并结合大模型探索语音模态(Audio)与文本模态(Text)的对齐,深入挖掘语音背后的语气与情绪信号。
负责算法在智能硬件端侧(Linux/Android)的移植与推理加速,解决资源受限下的性能问题。
负责语音合成(TTS)的技术选型与初步搭建。 根据业务需求,评估并集成业界优秀的 TTS 方案(开源模型或 API),为产品未来的语音交互功能做好技术储备(如音色克隆、拟人化语音输出等)。
职位要求
985/211 高校计算机、电子信息、信号处理等相关专业硕士及以上学历。
深入理解主流 ASR 框架(Wenet, Whisper, Conformer 等)。
精通声纹识别与分离技术,有处理 Overlap(重叠语音)和复杂声学环境的实战经验。
熟悉语音情绪识别相关特征提取与模型训练。
熟悉语音合成基本原理(如 VITS, FastSpeech, Tacotron 等),有开源 TTS 模型部署、微调或音色克隆(Voice Cloning)相关经验者优先。
熟练掌握 C++ / Python,熟悉 PyTorch/TensorFlow,具备端侧模型部署经验(TensorRT, ONNX, TFLite)。
加分项
有全链路语音交互系统(ASR + NLP + TTS)搭建经验。
有智能音箱、会议助手、AI 硬件产品的完整落地经验。
了解大模型(LLM)在语音交互中的应用(如 GPT-4o 语音模式、Speech-to-Speech 架构)。
在 ICASSP, Interspeech 等顶级会议发表过相关论文。
负责会议场景下的长语音识别(ASR)、声纹识别与说话人分离、语音情绪识别的算法研发与调优,确保在多方会议、噪音干扰下的高准确率。
针对不同说话人构建个性化声纹库,并结合大模型探索语音模态(Audio)与文本模态(Text)的对齐,深入挖掘语音背后的语气与情绪信号。
负责算法在智能硬件端侧(Linux/Android)的移植与推理加速,解决资源受限下的性能问题。
负责语音合成(TTS)的技术选型与初步搭建。 根据业务需求,评估并集成业界优秀的 TTS 方案(开源模型或 API),为产品未来的语音交互功能做好技术储备(如音色克隆、拟人化语音输出等)。
职位要求
985/211 高校计算机、电子信息、信号处理等相关专业硕士及以上学历。
深入理解主流 ASR 框架(Wenet, Whisper, Conformer 等)。
精通声纹识别与分离技术,有处理 Overlap(重叠语音)和复杂声学环境的实战经验。
熟悉语音情绪识别相关特征提取与模型训练。
熟悉语音合成基本原理(如 VITS, FastSpeech, Tacotron 等),有开源 TTS 模型部署、微调或音色克隆(Voice Cloning)相关经验者优先。
熟练掌握 C++ / Python,熟悉 PyTorch/TensorFlow,具备端侧模型部署经验(TensorRT, ONNX, TFLite)。
加分项
有全链路语音交互系统(ASR + NLP + TTS)搭建经验。
有智能音箱、会议助手、AI 硬件产品的完整落地经验。
了解大模型(LLM)在语音交互中的应用(如 GPT-4o 语音模式、Speech-to-Speech 架构)。
在 ICASSP, Interspeech 等顶级会议发表过相关论文。

