logologo
寻找工作
返回简章2026-06-28 更新

【快Star】基础大模型强化学习工程师

北京
硕士及以上
计算机类·数学类
使用简历深度优化功能,快速提升简历质量
职位介绍
职位描述 从事快手多模态视频理解大模型的 Agentic RL 后训练基础设施建设,聚焦推理-训练协同系统优化,将 RL 训练的系统吞吐与样本效率做到业界领先水准,包括但不限于以下方向: 1、负责强化学习任务性能优化,提升模型训练效率; 2、负责构建Agent、Function Call、Sandbox以及其他环境交互场景下的强化学习下的分布式训练奖励评估系统; 3、负责构建Agent框架与平台,支持复杂交互下的强化学习模型训练; 4、负责强化学习环境下的可观测性、可解释性的系统建设; 5、负责强化学习任务性能优化,提升模型迭代效率。 任职要求 1、熟练掌握Linux环境下的Python/C++等1至2种以上语言; 2、熟悉Ray架构和生态,有Ray应用或者Ray Core开发经验; 3、掌握分布式系统原理,参与过分布式系统的设计、开发和维护; 4、有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分; 5、有强烈的工作责任心,较好的学习能力、沟通能力和自驱力,能够快速的响应和行动。