返回简章2026-05-22 更新

强化学习算法实习生

上海

自动化类·计算机类

使用简历深度优化功能，快速提升简历质量

职位介绍

招聘部门：算法【岗位职责】 1、研发面向自动驾驶的强化学习算法，解决奖励设计、环境交互、安全约束与样本效率等核心挑战； 2、设计奖励模型与仿真环境，构建从虚拟训练到真实迁移（Sim-to-Real）的可靠路径； 3、探索离线强化学习、模仿学习与RL的融合方案，提升算法在复杂交通场景中的泛化能力； 4、参与真实车端/机端的算法部署与闭环验证，推动RL在物理世界的落地； 5、与数据，仿真，infra团队协同，构建高效的RL开发框架，提升模型迭代效率。【任职要求】 1、27届-28届毕业同学，计算机/自动化/机器人等相关专业，硕博优先； 2、对物理AI有强烈兴趣，愿意深入解决RL落地的真实难题； 3、扎实的强化学习基础，熟悉PPO、GRPO、SAC等算法，有MuJoCo、Isaac Gym、CARLA等仿真平台经验； 4、有基于Autoregression、diffusion、flow matching 生成式模型算法经验者优先； 5、熟悉大模型微调（LoRA, DPO, SFT），有VLA/VLM模型训练实际经验者优先； 6、熟练掌握Python/C++，具备算法工程化与调试能力； 7、有自动驾驶公司、机器人公司等RL算法实习或全职经验优先。

职位来源

广州鹏冉汽车科技有限公司

暂无公司数据

433

在招职位