公司简介:
北京月之暗面科技有限公司成立于2023-04-17,法定代表人为杨植麟,注册资本为100万元,统一社会信用代码为91110108MACG2KBH8F,企业注册地址位于北京市海淀区知春路76号(写字楼)1号楼13层1-11,所属行业为科学研究和技术服务业,经营范围包含:一般项目:软件开发;软件销售;人工智能基础软件开发;人工智能应用软件开发;技术服务、技术开发、技术咨询、技术交流、技术转让、技术推广;计算机系统服务;计算机软硬件及辅助设备零售;计算机软硬件及辅助设备批发;信息技术咨询服务。(除依法须经批准的项目外,凭营业执照依法自主开展经营活动)许可项目:网络文化经营;第二类增值电信业务;药品互联网信息服务。(依法须经批准的项目,经相关部门批准后方可开展经营活动,具体经营项目以相关部门批准文件或许可证件为准)(不得从事国家和本市产业政策禁止和限制类项目的经营活动。)。企业当前经营状态为存续。在招职位如下:
LLMPost-Training框架工程师 verl/OpenRLHF
工作城市:上海
薪资:15k-30k
学历要求:本科,硕士,博士
岗位性质:实习
岗位描述:
薪资:15k-30k
学历要求:本科,硕士,博士
岗位性质:实习
岗位描述:
我们不是招调参实习生,也不是招算法研究员。
我们在招 能在基础设施之上构建 RL 框架的 System Builder。
如果你参与过 verl、OpenRLHF 等 LLM RL 开源项目,或者自己实现过后训练代码——这个岗位就是为你设计的。
工作范围
- 维护与迭代内部 RL 框架,通过 algorithm-system co-design 实现高效、正确的 agentic joint RL 流程;
- 设计框架抽象接口与执行层,提供用户友好的 RL 训练服务;开发 Agent 辅助的实验迭代、结果分析、性能监控与数据可视化能力,提升算法团队的迭代效率。
我们在找:
- 统招211硕士及以上学历(特别优秀的本科同学也可以!),有相关行业经验或优秀的相关开源项目。
- 扎实的工程能力,熟练使用 AI vibe coding + human review 快速开发高质量代码;具备框架开发思维,擅长设计清晰抽象的 API 和模块化系统,注重接口设计、可维护性和可扩展性;
- 对强化学习有基本了解,熟悉 on-policy / off-policy / policy gradient / temporal difference 等核心概念;
- 可连续实习 4-6 个月,每周出勤4-5天。
加分项:
- 有开源项目经验,习惯阅读他人代码、参与协作开发;
- 熟练使用 OpenClaw、Hermes 等现代化 Agent 工具提升开发效率;
- 有 LLM RL 开发经验,熟悉 verl、slime、OpenRLHF 等主流框架,或同类工程实践。
不适合的人
- 想做 CUDA kernel、通信优化、底层训推引擎加速(这是 Infra 团队的方向),而非在现有引擎之上构建 RL 框架;
- 只想做纯算法研究,不愿做框架开发与工程抽象;
- 排斥使用 AI 辅助编程。
为什么这个岗位有趣?
infra 团队负责让引擎跑起来,你负责让 RL 算法能优雅、高效、正确地调用它。你的框架设计直接决定算法团队能做多大规模的实验、多快地迭代——这是连接底层能力与上层创新的关键层。
我们在招 能在基础设施之上构建 RL 框架的 System Builder。
如果你参与过 verl、OpenRLHF 等 LLM RL 开源项目,或者自己实现过后训练代码——这个岗位就是为你设计的。
工作范围
- 维护与迭代内部 RL 框架,通过 algorithm-system co-design 实现高效、正确的 agentic joint RL 流程;
- 设计框架抽象接口与执行层,提供用户友好的 RL 训练服务;开发 Agent 辅助的实验迭代、结果分析、性能监控与数据可视化能力,提升算法团队的迭代效率。
我们在找:
- 统招211硕士及以上学历(特别优秀的本科同学也可以!),有相关行业经验或优秀的相关开源项目。
- 扎实的工程能力,熟练使用 AI vibe coding + human review 快速开发高质量代码;具备框架开发思维,擅长设计清晰抽象的 API 和模块化系统,注重接口设计、可维护性和可扩展性;
- 对强化学习有基本了解,熟悉 on-policy / off-policy / policy gradient / temporal difference 等核心概念;
- 可连续实习 4-6 个月,每周出勤4-5天。
加分项:
- 有开源项目经验,习惯阅读他人代码、参与协作开发;
- 熟练使用 OpenClaw、Hermes 等现代化 Agent 工具提升开发效率;
- 有 LLM RL 开发经验,熟悉 verl、slime、OpenRLHF 等主流框架,或同类工程实践。
不适合的人
- 想做 CUDA kernel、通信优化、底层训推引擎加速(这是 Infra 团队的方向),而非在现有引擎之上构建 RL 框架;
- 只想做纯算法研究,不愿做框架开发与工程抽象;
- 排斥使用 AI 辅助编程。
为什么这个岗位有趣?
infra 团队负责让引擎跑起来,你负责让 RL 算法能优雅、高效、正确地调用它。你的框架设计直接决定算法团队能做多大规模的实验、多快地迭代——这是连接底层能力与上层创新的关键层。

