logologo
寻找工作
返回简章2026-05-22 更新

强化学习算法实习生

上海
自动化类·计算机类
使用简历深度优化功能,快速提升简历质量
职位介绍
招聘部门:算法 【岗位职责】 1、研发面向自动驾驶的强化学习算法,解决奖励设计、环境交互、安全约束与样本效率等核心挑战; 2、设计奖励模型与仿真环境,构建从虚拟训练到真实迁移(Sim-to-Real)的可靠路径; 3、探索离线强化学习、模仿学习与RL的融合方案,提升算法在复杂交通场景中的泛化能力; 4、参与真实车端/机端的算法部署与闭环验证,推动RL在物理世界的落地; 5、与数据,仿真,infra团队协同,构建高效的RL开发框架,提升模型迭代效率。 【任职要求】 1、27届-28届毕业同学,计算机/自动化/机器人等相关专业,硕博优先; 2、对物理AI有强烈兴趣,愿意深入解决RL落地的真实难题; 3、扎实的强化学习基础,熟悉PPO、GRPO、SAC等算法,有MuJoCo、Isaac Gym、CARLA等仿真平台经验; 4、有基于Autoregression、diffusion、flow matching 生成式模型算法经验者优先; 5、熟悉大模型微调(LoRA, DPO, SFT),有VLA/VLM模型训练实际经验者优先; 6、熟练掌握Python/C++,具备算法工程化与调试能力; 7、有自动驾驶公司、机器人公司等RL算法实习或全职经验优先。