Embodied Agent RL算法实习生
北京·上海
自动化类·计算机类
使用简历深度优化功能,快速提升简历质量
职位介绍
招聘部门:算法
【岗位职责】
1、研发面向自动驾驶与机器人场景的 embodied agent 决策算法,探索 RLHF / RLAIF、offline RL、online RL、imitation learning 与 world model 的联合优化,提升 Agent 在真实环境中的长程规划与任务执行能力;
2、设计奖励函数、verifier、safety shield 与仿真环境,系统解决稀疏奖励、安全约束、信用分配、泛化性与 sim2real 迁移等核心问题;
3、构建高层 planner 与低层 policy 的分层优化框架,结合 VLM/VLA、状态估计、工具调用与环境反馈,实现 perception-planning-action 的闭环决策;
4、建立 agent 训练与评测体系,围绕任务完成率、规划深度、规则遵循、异常恢复、样本效率、实时性与安全性开展系统评估和迭代;
5、参与真实车端/机端的算法部署、灰度验证与数据回流,推动从仿真到现实、从 demo 到闭环系统的持续优化。
【任职要求】
1、27届-28届毕业,计算机、自动化、机器人、控制、人工智能等相关专业,硕博优先;
2、具备扎实的强化学习基础,熟悉 PPO、SAC、DQN 等经典算法,理解 offline RL、model-based RL、hierarchical RL、safe RL 或 preference learning 之一;
3、有 MuJoCo、Isaac Gym、CARLA、MetaDrive 或其他仿真平台经验,能够独立搭建训练、评测与回放分析流程;
4、具备多模态大模型与 RL 结合的研究或项目经验,理解 VLM/VLA 如何参与状态表征、决策规划与动作生成;
5、熟练掌握 Python / C++,有 ROS、自动驾驶中间件、机器人控制栈或部署优化经验者优先;
6、熟悉 Agent Native 相关能力者优先,包括:
*tool use / environment interaction;
*world model + policy 联合优化;
*verifier / critic / self-reflection 机制;
*长时任务中的 memory、trajectory management 与 error recovery;
7、具备评测与工程意识,能够从算法指标走到系统指标,理解 task success、safety、latency、cost、stability 之间的 trade-off;
有以下经历加分:
*真实机器人/车端验证经验;
*sim2real 迁移、domain randomization、safety constraint 经验;
*多 agent 协同或 planner-policy 分层系统经验;
*端侧部署、推理加速、实时系统优化经验。

