返回简章2025-10-22 更新

多模态交互大模型研究员（深圳）

深圳

本科及以上

不限专业

使用简历深度优化功能，快速提升简历质量

职位介绍

职位描述 - 设计、构建、训练和优化面向机器人交互场景的端到端多模态大模型架构。 - 探索和实现模型对多模态输入（语音、文本、图像/视频、深度信息、传感器数据、环境上下文等）的深度融合与理解。 - 研发模型生成多模态输出（语言语音、情绪、表情、移动、行为动作等）的能力，确保输出的一致性与自然性。 - 重点攻克人机交互闭环中的关键问题：上下文记忆与理解、意图识别与澄清、个性化交互、情感感知与表达、长时程对话一致性、任务导向交互等。职位要求 - 本科及以上学历，计算机、人工智能、电子、数学等相关专业； - 出色的问题分析和解决能力，自主探索新解决方案的能力强; - 关注生成式 AI 和多模态交互技术，对推动人形机器人智能化有热情; - 熟悉 VLM / VLA / VLP / MLM等多模态任务建模、具备跨模态模型设计与训练经验； - 理解多模态对齐（如 cross-attention、token-level alignment）、条件生成、多模态融合机制。加分项： - 有端到端多模态大模型研究经验，或实际落地应用项目经验者； - 在 CVPR、NeurIPS、ICLR、ACL 等会议发表多模态相关工作者优先。 - 具有优秀的代码能力和竞赛精神，ACM/ICPC、RoboMaster等比赛获奖者。

职位来源

智元创新(上海)科技有限公司

民营企业 · 人工智能解决方案 · 成立3年

在招职位