北京月之暗面科技有限公司_2026校园招聘最新信息

公司简介：

北京月之暗面科技有限公司成立于2023-04-17，法定代表人为杨植麟，注册资本为100万元，统一社会信用代码为91110108MACG2KBH8F，企业注册地址位于北京市海淀区知春路76号（写字楼）1号楼13层1-11，所属行业为科学研究和技术服务业，经营范围包含：一般项目：软件开发；软件销售；人工智能基础软件开发；人工智能应用软件开发；技术服务、技术开发、技术咨询、技术交流、技术转让、技术推广；计算机系统服务；计算机软硬件及辅助设备零售；计算机软硬件及辅助设备批发；信息技术咨询服务。（除依法须经批准的项目外，凭营业执照依法自主开展经营活动）许可项目：网络文化经营；第二类增值电信业务；药品互联网信息服务。（依法须经批准的项目，经相关部门批准后方可开展经营活动，具体经营项目以相关部门批准文件或许可证件为准）（不得从事国家和本市产业政策禁止和限制类项目的经营活动。）。企业当前经营状态为存续。

在招职位如下：

LLMPost-Training框架工程师 verl/OpenRLHF

工作城市：上海
薪资：15k-30k
学历要求：本科,硕士,博士
岗位性质：实习
岗位描述：

我们不是招调参实习生，也不是招算法研究员。
我们在招能在基础设施之上构建 RL 框架的 System Builder。
如果你参与过 verl、OpenRLHF 等 LLM RL 开源项目，或者自己实现过后训练代码——这个岗位就是为你设计的。

工作范围
- 维护与迭代内部 RL 框架，通过 algorithm-system co-design 实现高效、正确的 agentic joint RL 流程；
- 设计框架抽象接口与执行层，提供用户友好的 RL 训练服务；开发 Agent 辅助的实验迭代、结果分析、性能监控与数据可视化能力，提升算法团队的迭代效率。

我们在找：
- 统招211硕士及以上学历（特别优秀的本科同学也可以！），有相关行业经验或优秀的相关开源项目。
- 扎实的工程能力，熟练使用 AI vibe coding + human review 快速开发高质量代码；具备框架开发思维，擅长设计清晰抽象的 API 和模块化系统，注重接口设计、可维护性和可扩展性；
- 对强化学习有基本了解，熟悉 on-policy / off-policy / policy gradient / temporal difference 等核心概念；
- 可连续实习 4-6 个月，每周出勤4-5天。

加分项：
- 有开源项目经验，习惯阅读他人代码、参与协作开发；
- 熟练使用 OpenClaw、Hermes 等现代化 Agent 工具提升开发效率；
- 有 LLM RL 开发经验，熟悉 verl、slime、OpenRLHF 等主流框架，或同类工程实践。

不适合的人
- 想做 CUDA kernel、通信优化、底层训推引擎加速（这是 Infra 团队的方向），而非在现有引擎之上构建 RL 框架；
- 只想做纯算法研究，不愿做框架开发与工程抽象；
- 排斥使用 AI 辅助编程。

为什么这个岗位有趣？
infra 团队负责让引擎跑起来，你负责让 RL 算法能优雅、高效、正确地调用它。你的框架设计直接决定算法团队能做多大规模的实验、多快地迭代——这是连接底层能力与上层创新的关键层。

鼠鼠求职首页