返回简章2026-05-22 更新

Embodied Agent RL算法实习生

北京·上海

自动化类·计算机类

使用简历深度优化功能，快速提升简历质量

职位介绍

招聘部门：算法【岗位职责】 1、研发面向自动驾驶与机器人场景的 embodied agent 决策算法，探索 RLHF / RLAIF、offline RL、online RL、imitation learning 与 world model 的联合优化，提升 Agent 在真实环境中的长程规划与任务执行能力； 2、设计奖励函数、verifier、safety shield 与仿真环境，系统解决稀疏奖励、安全约束、信用分配、泛化性与 sim2real 迁移等核心问题； 3、构建高层 planner 与低层 policy 的分层优化框架，结合 VLM/VLA、状态估计、工具调用与环境反馈，实现 perception-planning-action 的闭环决策； 4、建立 agent 训练与评测体系，围绕任务完成率、规划深度、规则遵循、异常恢复、样本效率、实时性与安全性开展系统评估和迭代； 5、参与真实车端/机端的算法部署、灰度验证与数据回流，推动从仿真到现实、从 demo 到闭环系统的持续优化。【任职要求】 1、27届-28届毕业，计算机、自动化、机器人、控制、人工智能等相关专业，硕博优先； 2、具备扎实的强化学习基础，熟悉 PPO、SAC、DQN 等经典算法，理解 offline RL、model-based RL、hierarchical RL、safe RL 或 preference learning 之一； 3、有 MuJoCo、Isaac Gym、CARLA、MetaDrive 或其他仿真平台经验，能够独立搭建训练、评测与回放分析流程； 4、具备多模态大模型与 RL 结合的研究或项目经验，理解 VLM/VLA 如何参与状态表征、决策规划与动作生成； 5、熟练掌握 Python / C++，有 ROS、自动驾驶中间件、机器人控制栈或部署优化经验者优先； 6、熟悉 Agent Native 相关能力者优先，包括： *tool use / environment interaction； *world model + policy 联合优化； *verifier / critic / self-reflection 机制； *长时任务中的 memory、trajectory management 与 error recovery； 7、具备评测与工程意识，能够从算法指标走到系统指标，理解 task success、safety、latency、cost、stability 之间的 trade-off；有以下经历加分： *真实机器人/车端验证经验； *sim2real 迁移、domain randomization、safety constraint 经验； *多 agent 协同或 planner-policy 分层系统经验； *端侧部署、推理加速、实时系统优化经验。

职位来源

上海小鹏汽车科技有限公司

暂无公司数据

433

在招职位