logologo
寻找工作
返回简章2026-05-22 更新

【26届校招】Research Scientist(VLM 预训练 / 后训练)

上海·深圳·北京
硕士及以上
电子信息类·计算机类
使用简历深度优化功能,快速提升简历质量
职位介绍
招聘部门:研发 【岗位职责】 1. 研究和打造新一代多模态视觉语言模型(VLM),重点突破视频理解与跨模态对齐能力,让模型真正“看得懂、听得清、说得明白”。 2. 设计适用于长时序、复杂动态场景的视频-文本预训练和后训练方案,支撑机器人、虚拟人、交互智能体等多种应用。 3. 构建高效、稳定的大规模视频预训练管线,实现从海量视频数据采集、清洗、建模到训练落地的全链路打通。 4. 深入优化分布式训练与推理性能,探索 Transformer 架构创新、视频表征学习和多任务联合训练。 【任职要求】 1. 计算机科学、人工智能、电子工程等相关专业硕士及以上学历; 2. 在以下至少一个领域具备扎实经验:视频表征(如 TimeSformer、VideoMAE、InternVideo)、多模态预训练、视频-文本对齐、Transformer 架构优化; 3. 熟悉主流深度学习框架(如 PyTorch / JAX),有大规模预训练实操经验; 4. 理解分布式训练与性能优化(如 FSDP、ZeRO、流水并行),能够分析并优化 I/O 与通信瓶颈; 5. 有视频数据治理与高吞吐数据管线经验者优先(如 WebDataset、Parquet、CLIP gate、重复数据检测); 6. 具备良好的工程实现能力与论文复现能力;有顶会论文或 SOTA 开源项目经验者优先。 加分项 1. 有多模态对齐(图文 / 视听)、时序指令微调、视频理解评测(如 MMMU、MVBench、VideoQA 等)经验; 2. 参与或主导过开源 VLM / Vid-LLM 项目或大型工业级视频大模型训练; 3. 熟悉推理服务化与生产部署(Serving、负载均衡、SLA); 4. 有科研创新经历(论文 / 专利 / 开源贡献),或具备推动从研究到产品落地的经验; 5. (可选)参与或主导前沿研究,在 CVPR、ICLR、NeurIPS 等顶会发表成果,推动视频大模型技术的学术与产业共进; 6. 对长时序视频理解、多模态交互和 VLM 架构创新有强烈兴趣与探索精神。