logologo
寻找工作
返回简章2026-05-22 更新

大模型 Infra 研发实习生(Agentic RL 方向)

深圳
自动化类·计算机类
使用简历深度优化功能,快速提升简历质量
职位介绍
招聘部门:互联网 / 电子 / 网游 【岗位职责】 我们正在构建面向 "Agentic RL 与具身智能" 的评测与训练基础设施。支撑长程、有状态、依赖外部环境(工具、代码执行器、仿真器、机器人)的智能体任务。你将作为 infra 工程师参与平台核心模块建设: 1、设计并实现统一的任务/环境抽象层,支持异构环境的接入; 2、构建大规模并发的rollout 与评测调度系统,提升吞吐、资源利用率与稳定性; 3、搭建智能体轨迹数据管道:采集、存储、检索、回放、版本管理,以及失败案例的可视化诊断系统; 4、集成实验管理、监控告警、链路追踪等能力,保障平台在大规模任务下的可观测性与可恢复性。 【任职要求】 1、Python 工程能力扎实,代码风格规范,有中型以上工程或开源项目经验; 2、熟悉 Linux 开发环境与常用工具链(Git / Shell / Docker / Make 等); 3、了解分布式系统、并发与异步编程基本原理; 4、对大模型、Agent、RL 训练流程有基本理解; 5、能从复杂工程链路中定位瓶颈,主动设计可扩展、可观测的系统; 6、每周到岗至少 4 天,可连续实习 3 个月以上。 【加分项】 1、熟悉 Ray、Kubernetes、Slurm 等分布式调度/编排系统; 2、熟悉 vLLM、SGLang 等推理服务框架,理解其性能特性; 3、做过自动化评测平台、benchmark 系统、judge service、训练数据闭环等系统; 4、有 OpenAI Gym/Gymnasium、ManiSkill、Isaac Sim、MuJoCo、Habitat、WebArena、SWE-bench 等环境或 benchmark 的工程接入经验; 5、了解 RLHF / RLAIF / PPO / GRPO 等 Agentic RL 训练流程; 6、有高质量开源贡献或技术博客。