LLMPost-Training框架工程师 verl/OpenRLHF
上海
本科及以上
计算机类·数学类
使用简历深度优化功能,快速提升简历质量
职位介绍
我们不是招调参实习生,也不是招算法研究员。
我们在招 能在基础设施之上构建 RL 框架的 System Builder。
如果你参与过 verl、OpenRLHF 等 LLM RL 开源项目,或者自己实现过后训练代码——这个岗位就是为你设计的。
工作范围
- 维护与迭代内部 RL 框架,通过 algorithm-system co-design 实现高效、正确的 agentic joint RL 流程;
- 设计框架抽象接口与执行层,提供用户友好的 RL 训练服务;开发 Agent 辅助的实验迭代、结果分析、性能监控与数据可视化能力,提升算法团队的迭代效率。
我们在找:
- 统招211硕士及以上学历(特别优秀的本科同学也可以!),有相关行业经验或优秀的相关开源项目。
- 扎实的工程能力,熟练使用 AI vibe coding + human review 快速开发高质量代码;具备框架开发思维,擅长设计清晰抽象的 API 和模块化系统,注重接口设计、可维护性和可扩展性;
- 对强化学习有基本了解,熟悉 on-policy / off-policy / policy gradient / temporal difference 等核心概念;
- 可连续实习 4-6 个月,每周出勤4-5天。
加分项:
- 有开源项目经验,习惯阅读他人代码、参与协作开发;
- 熟练使用 OpenClaw、Hermes 等现代化 Agent 工具提升开发效率;
- 有 LLM RL 开发经验,熟悉 verl、slime、OpenRLHF 等主流框架,或同类工程实践。
不适合的人
- 想做 CUDA kernel、通信优化、底层训推引擎加速(这是 Infra 团队的方向),而非在现有引擎之上构建 RL 框架;
- 只想做纯算法研究,不愿做框架开发与工程抽象;
- 排斥使用 AI 辅助编程。
为什么这个岗位有趣?
infra 团队负责让引擎跑起来,你负责让 RL 算法能优雅、高效、正确地调用它。你的框架设计直接决定算法团队能做多大规模的实验、多快地迭代——这是连接底层能力与上层创新的关键层。

