返回简章2026-05-13 更新

LLMPost-Training框架工程师 verl/OpenRLHF

上海

本科及以上

计算机类·数学类

使用简历深度优化功能，快速提升简历质量

职位介绍

我们不是招调参实习生，也不是招算法研究员。我们在招能在基础设施之上构建 RL 框架的 System Builder。如果你参与过 verl、OpenRLHF 等 LLM RL 开源项目，或者自己实现过后训练代码——这个岗位就是为你设计的。工作范围 - 维护与迭代内部 RL 框架，通过 algorithm-system co-design 实现高效、正确的 agentic joint RL 流程； - 设计框架抽象接口与执行层，提供用户友好的 RL 训练服务；开发 Agent 辅助的实验迭代、结果分析、性能监控与数据可视化能力，提升算法团队的迭代效率。我们在找： - 统招211硕士及以上学历（特别优秀的本科同学也可以！），有相关行业经验或优秀的相关开源项目。 - 扎实的工程能力，熟练使用 AI vibe coding + human review 快速开发高质量代码；具备框架开发思维，擅长设计清晰抽象的 API 和模块化系统，注重接口设计、可维护性和可扩展性； - 对强化学习有基本了解，熟悉 on-policy / off-policy / policy gradient / temporal difference 等核心概念； - 可连续实习 4-6 个月，每周出勤4-5天。加分项： - 有开源项目经验，习惯阅读他人代码、参与协作开发； - 熟练使用 OpenClaw、Hermes 等现代化 Agent 工具提升开发效率； - 有 LLM RL 开发经验，熟悉 verl、slime、OpenRLHF 等主流框架，或同类工程实践。不适合的人 - 想做 CUDA kernel、通信优化、底层训推引擎加速（这是 Infra 团队的方向），而非在现有引擎之上构建 RL 框架； - 只想做纯算法研究，不愿做框架开发与工程抽象； - 排斥使用 AI 辅助编程。为什么这个岗位有趣？ infra 团队负责让引擎跑起来，你负责让 RL 算法能优雅、高效、正确地调用它。你的框架设计直接决定算法团队能做多大规模的实验、多快地迭代——这是连接底层能力与上层创新的关键层。

职位来源

北京月之暗面科技有限公司

民营企业 · 人工智能软件 · 成立3年

在招职位