【27届快Star】基础大模型强化学习工程师
北京
硕士及以上
计算机类·统计学类
使用简历深度优化功能,快速提升简历质量
职位介绍
职位描述
从事快手多模态视频理解大模型的 Agentic RL 后训练基础设施建设,聚焦推理-训练协同系统优化,将 RL 训练的系统吞吐与样本效率做到业界领先水准,包括但不限于以下方向:
1、负责强化学习任务性能优化,提升模型训练效率;
2、负责构建Agent、Function Call、Sandbox以及其他环境交互场景下的强化学习下的分布式训练奖励评估系统;
3、负责构建Agent框架与平台,支持复杂交互下的强化学习模型训练;
4、负责强化学习环境下的可观测性、可解释性的系统建设;
5、负责强化学习任务性能优化,提升模型迭代效率。
任职要求
1、熟练掌握Linux环境下的Python/C++等1至2种以上语言;
2、熟悉Ray架构和生态,有Ray应用或者Ray Core开发经验;
3、掌握分布式系统原理,参与过分布式系统的设计、开发和维护;
4、有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分;
5、有强烈的工作责任心,较好的学习能力、沟通能力和自驱力,能够快速的响应和行动。

