返回简章2026-05-22 更新

【26届校招】Research Scientist（VLM 预训练 / 后训练）

上海·深圳·北京

硕士及以上

电子信息类·计算机类

使用简历深度优化功能，快速提升简历质量

职位介绍

招聘部门：研发【岗位职责】 1. 研究和打造新一代多模态视觉语言模型（VLM），重点突破视频理解与跨模态对齐能力，让模型真正“看得懂、听得清、说得明白”。 2. 设计适用于长时序、复杂动态场景的视频-文本预训练和后训练方案，支撑机器人、虚拟人、交互智能体等多种应用。 3. 构建高效、稳定的大规模视频预训练管线，实现从海量视频数据采集、清洗、建模到训练落地的全链路打通。 4. 深入优化分布式训练与推理性能，探索 Transformer 架构创新、视频表征学习和多任务联合训练。【任职要求】 1. 计算机科学、人工智能、电子工程等相关专业硕士及以上学历； 2. 在以下至少一个领域具备扎实经验：视频表征（如 TimeSformer、VideoMAE、InternVideo）、多模态预训练、视频-文本对齐、Transformer 架构优化； 3. 熟悉主流深度学习框架（如 PyTorch / JAX），有大规模预训练实操经验； 4. 理解分布式训练与性能优化（如 FSDP、ZeRO、流水并行），能够分析并优化 I/O 与通信瓶颈； 5. 有视频数据治理与高吞吐数据管线经验者优先（如 WebDataset、Parquet、CLIP gate、重复数据检测）； 6. 具备良好的工程实现能力与论文复现能力；有顶会论文或 SOTA 开源项目经验者优先。加分项 1. 有多模态对齐（图文 / 视听）、时序指令微调、视频理解评测（如 MMMU、MVBench、VideoQA 等）经验； 2. 参与或主导过开源 VLM / Vid-LLM 项目或大型工业级视频大模型训练； 3. 熟悉推理服务化与生产部署（Serving、负载均衡、SLA）； 4. 有科研创新经历（论文 / 专利 / 开源贡献），或具备推动从研究到产品落地的经验； 5. （可选）参与或主导前沿研究，在 CVPR、ICLR、NeurIPS 等顶会发表成果，推动视频大模型技术的学术与产业共进； 6. 对长时序视频理解、多模态交互和 VLM 架构创新有强烈兴趣与探索精神。

职位来源

上海小鹏汽车科技有限公司

暂无公司数据

433

在招职位