强化学习算法实习生
上海
自动化类·计算机类
使用简历深度优化功能,快速提升简历质量
职位介绍
招聘部门:算法
【岗位职责】
1、研发面向自动驾驶的强化学习算法,解决奖励设计、环境交互、安全约束与样本效率等核心挑战;
2、设计奖励模型与仿真环境,构建从虚拟训练到真实迁移(Sim-to-Real)的可靠路径;
3、探索离线强化学习、模仿学习与RL的融合方案,提升算法在复杂交通场景中的泛化能力;
4、参与真实车端/机端的算法部署与闭环验证,推动RL在物理世界的落地;
5、与数据,仿真,infra团队协同,构建高效的RL开发框架,提升模型迭代效率。
【任职要求】
1、27届-28届毕业同学,计算机/自动化/机器人等相关专业,硕博优先;
2、对物理AI有强烈兴趣,愿意深入解决RL落地的真实难题;
3、扎实的强化学习基础,熟悉PPO、GRPO、SAC等算法,有MuJoCo、Isaac Gym、CARLA等仿真平台经验;
4、有基于Autoregression、diffusion、flow matching 生成式模型算法经验者优先;
5、熟悉大模型微调(LoRA, DPO, SFT),有VLA/VLM模型训练实际经验者优先;
6、熟练掌握Python/C++,具备算法工程化与调试能力;
7、有自动驾驶公司、机器人公司等RL算法实习或全职经验优先。

