【北斗】多模态理解后训练+Agent算法研究员
北京
硕士及以上
电子信息类·自动化类
使用简历深度优化功能,快速提升简历质量
职位介绍
岗位职责
我们正在构建具备物理世界感知、理解、仿真能力与支撑数字世界高质量呈现的本地生活视觉技术引擎,让每一次连接更智能,让物理世界的烟火气更美好。
团队介绍:
作为美团官方的视觉AI基础模型团队,负责数字世界和物理世界等本地生活全场景多模态技术的前沿探索和应用,在AIGC生成、虚拟人交互、多模态理解等领域持续沉淀行业领先的技术成果。
研究方向包括但不限于:
1、基于多模态预训练和后训练相关技术创新,提升多模态大模型在OCR、文档图表解析、Visual Grounding、细粒度感知、视觉问答等核心视觉理解任务上的能力上限;
2、索多模态强化学习方案创新设计,实现视觉感知、多模态理解等场景下的高性能可信输出和幻觉抑制;
3、增强模型的视觉推理能力(Visual CoT、PRM等)、工具调用与Agent能力、长上下文视觉理解能力和GUI能力,提升模型在视觉感知、理解、规划决策的长程复杂任务上的综合表现。
任职要求
1、具备视觉多模态大模型的预训练或后训练研究经历;
2、熟悉PyTorch,有充分的动手实践经验。
加分项:
1、社区影响力:在多模态大模型领域有影响力的开源项目中做出过核心贡献
2、学术影响力:发表过高水平论文(如ICLR、CVPR、ICCV等),有相关竞赛经历并取得名次
岗位吸引力:
1、依托本地生活领域海量的物理世界数字化和线上多模态信息重构任务,提升模型的视觉多模态理解能力上限。
2、立足美团本地生活应用场景,布局前沿的多模态决策智能路线,驱动长程复杂视觉任务中的表现优化和标杆级视觉Agent应用。
工作城市
北京市、上海市、深圳市

