返回简章2026-06-28 更新

【27届快Star】基础大模型强化学习工程师

北京

硕士及以上

计算机类·统计学类

使用简历深度优化功能，快速提升简历质量

职位介绍

职位描述从事快手多模态视频理解大模型的 Agentic RL 后训练基础设施建设，聚焦推理-训练协同系统优化，将 RL 训练的系统吞吐与样本效率做到业界领先水准，包括但不限于以下方向： 1、负责强化学习任务性能优化，提升模型训练效率； 2、负责构建Agent、Function Call、Sandbox以及其他环境交互场景下的强化学习下的分布式训练奖励评估系统； 3、负责构建Agent框架与平台，支持复杂交互下的强化学习模型训练； 4、负责强化学习环境下的可观测性、可解释性的系统建设； 5、负责强化学习任务性能优化，提升模型迭代效率。任职要求 1、熟练掌握Linux环境下的Python/C++等1至2种以上语言； 2、熟悉Ray架构和生态，有Ray应用或者Ray Core开发经验； 3、掌握分布式系统原理，参与过分布式系统的设计、开发和维护； 4、有优秀的逻辑分析能力，能够对业务逻辑进行合理的抽象和拆分； 5、有强烈的工作责任心，较好的学习能力、沟通能力和自驱力，能够快速的响应和行动。

职位来源

北京达佳互联信息技术有限公司

民营企业 · 商业服务 · 成立11年

在招职位