多模态交互大模型研究员(深圳)
深圳
本科及以上
不限专业
使用简历深度优化功能,快速提升简历质量
职位介绍
职位描述 - 设计、构建、训练和优化面向机器人交互场景的端到端多模态大模型架构。 -
探索和实现模型对多模态输入(语音、文本、图像/视频、深度信息、传感器数据、环境上下文等) 的深度融合与理解。 -
研发模型生成多模态输出(语言语音、情绪、表情、移动、行为动作等) 的能力,确保输出的一致性与自然性。 -
重点攻克人机交互闭环中的关键问题:上下文记忆与理解、意图识别与澄清、个性化交互、情感感知与表达、长时程对话一致性、任务导向交互等。 职位要求 -
本科及以上学历,计算机、人工智能、电子、数学等相关专业; - 出色的问题分析和解决能力,自主探索新解决方案的能力强; - 关注生成式 AI
和多模态交互技术,对推动人形机器人智能化有热情; - 熟悉 VLM / VLA / VLP / MLM等多模态任务建模、具备跨模态模型设计与训练经验; -
理解多模态对齐(如 cross-attention、token-level alignment)、条件生成、多模态融合机制。 加分项: -
有端到端多模态大模型研究经验,或实际落地应用项目经验者; - 在 CVPR、NeurIPS、ICLR、ACL 等会议发表多模态相关工作者优先。 -
具有优秀的代码能力和竞赛精神,ACM/ICPC、RoboMaster等比赛获奖者。

