logologo
寻找工作
返回简章2026-05-22 更新

Embodied Agent RL算法实习生

北京·上海
自动化类·计算机类
使用简历深度优化功能,快速提升简历质量
职位介绍
招聘部门:算法 【岗位职责】 1、研发面向自动驾驶与机器人场景的 embodied agent 决策算法,探索 RLHF / RLAIF、offline RL、online RL、imitation learning 与 world model 的联合优化,提升 Agent 在真实环境中的长程规划与任务执行能力; 2、设计奖励函数、verifier、safety shield 与仿真环境,系统解决稀疏奖励、安全约束、信用分配、泛化性与 sim2real 迁移等核心问题; 3、构建高层 planner 与低层 policy 的分层优化框架,结合 VLM/VLA、状态估计、工具调用与环境反馈,实现 perception-planning-action 的闭环决策; 4、建立 agent 训练与评测体系,围绕任务完成率、规划深度、规则遵循、异常恢复、样本效率、实时性与安全性开展系统评估和迭代; 5、参与真实车端/机端的算法部署、灰度验证与数据回流,推动从仿真到现实、从 demo 到闭环系统的持续优化。 【任职要求】 1、27届-28届毕业,计算机、自动化、机器人、控制、人工智能等相关专业,硕博优先; 2、具备扎实的强化学习基础,熟悉 PPO、SAC、DQN 等经典算法,理解 offline RL、model-based RL、hierarchical RL、safe RL 或 preference learning 之一; 3、有 MuJoCo、Isaac Gym、CARLA、MetaDrive 或其他仿真平台经验,能够独立搭建训练、评测与回放分析流程; 4、具备多模态大模型与 RL 结合的研究或项目经验,理解 VLM/VLA 如何参与状态表征、决策规划与动作生成; 5、熟练掌握 Python / C++,有 ROS、自动驾驶中间件、机器人控制栈或部署优化经验者优先; 6、熟悉 Agent Native 相关能力者优先,包括: *tool use / environment interaction; *world model + policy 联合优化; *verifier / critic / self-reflection 机制; *长时任务中的 memory、trajectory management 与 error recovery; 7、具备评测与工程意识,能够从算法指标走到系统指标,理解 task success、safety、latency、cost、stability 之间的 trade-off; 有以下经历加分: *真实机器人/车端验证经验; *sim2real 迁移、domain randomization、safety constraint 经验; *多 agent 协同或 planner-policy 分层系统经验; *端侧部署、推理加速、实时系统优化经验。