logologo
寻找工作
返回简章2026-02-08 更新

【理想+】强化学习算法研究-北京(A177957)

北京
硕士及以上
计算机类·数学类
使用简历深度优化功能,快速提升简历质量
职位介绍
职位描述: 1. 负责面向自动驾驶与具身智能的强化学习算法研究与开发,包括Model-based/Free RL、Online/Offline RL等; 2. 构建大规模分布式强化学习训练系统,推动RL算法在真实场景的规模化应用; 3. 研究数据合成与评测技术,建立数据引擎与评测基准,实现real→sim→real快速迭代闭环; 4. 探索模仿学习、逆强化学习、Scalable Oversight等技术,提升策略学习效率与泛化能力; 5. 与世界模型团队协作,利用学习式仿真环境进行策略训练与验证,推动sim2real迁移; 6. 参与前沿研究,发表顶会论文,推动强化学习在自动驾驶与具身智能领域的技术进步。 职位要求: 1. 硕士及以上学历,机器学习、强化学习、计算机科学、自动化等相关专业; 2. 扎实的强化学习理论基础,熟悉主流RL算法(PPO、SAC、TD3、IQL等)及其应用; 3. 熟练掌握Python、C++编程语言,熟悉PyTorch等深度学习框架,有分布式训练经验; 4. 对大规模强化学习、策略优化、模仿学习等有深入理解和实践经验; 5. 具有优秀的分析和解决问题能力,自驱性强,能够独立推进研究项目。 【具备以下条件优先】 1. 在NeurIPS/ICLR/ICML/ICRA/CoRL/RSS等顶级会议发表论文者优先; 2. 有自动驾驶、机器人、游戏AI等领域的强化学习应用经验者优先; 3. 有仿真平台(CARLA、NVIDIA Isaac、MuJoCo等)开发或使用经验者优先; 4. 有Model-based RL、World Model、Offline RL、Sim2real等研究经验者优先; 5. 有大规模分布式训练系统开发经验,熟悉Ray、Kubernetes等工具者优先; 6. 维护过重量级开源项目或在RL相关竞赛中获奖者优先; 7. 有实车/实机调试经验,了解传感器栈、控制闭环者优先。