返回简章2026-05-22 更新

大模型 Infra 研发实习生（Agentic RL 方向）

深圳

自动化类·计算机类

使用简历深度优化功能，快速提升简历质量

职位介绍

招聘部门：互联网 / 电子 / 网游【岗位职责】我们正在构建面向 "Agentic RL 与具身智能" 的评测与训练基础设施。支撑长程、有状态、依赖外部环境（工具、代码执行器、仿真器、机器人）的智能体任务。你将作为 infra 工程师参与平台核心模块建设： 1、设计并实现统一的任务/环境抽象层，支持异构环境的接入； 2、构建大规模并发的rollout 与评测调度系统，提升吞吐、资源利用率与稳定性； 3、搭建智能体轨迹数据管道：采集、存储、检索、回放、版本管理，以及失败案例的可视化诊断系统； 4、集成实验管理、监控告警、链路追踪等能力，保障平台在大规模任务下的可观测性与可恢复性。【任职要求】 1、Python 工程能力扎实，代码风格规范，有中型以上工程或开源项目经验； 2、熟悉 Linux 开发环境与常用工具链（Git / Shell / Docker / Make 等）； 3、了解分布式系统、并发与异步编程基本原理； 4、对大模型、Agent、RL 训练流程有基本理解； 5、能从复杂工程链路中定位瓶颈，主动设计可扩展、可观测的系统； 6、每周到岗至少 4 天，可连续实习 3 个月以上。【加分项】 1、熟悉 Ray、Kubernetes、Slurm 等分布式调度/编排系统； 2、熟悉 vLLM、SGLang 等推理服务框架，理解其性能特性； 3、做过自动化评测平台、benchmark 系统、judge service、训练数据闭环等系统； 4、有 OpenAI Gym/Gymnasium、ManiSkill、Isaac Sim、MuJoCo、Habitat、WebArena、SWE-bench 等环境或 benchmark 的工程接入经验； 5、了解 RLHF / RLAIF / PPO / GRPO 等 Agentic RL 训练流程； 6、有高质量开源贡献或技术博客。

职位来源

上海小鹏汽车科技有限公司

暂无公司数据

433

在招职位