大模型强化学习工程师
北京
本科及以上
不限专业
使用简历深度优化功能,快速提升简历质量
职位介绍
从事大模型对齐及 Agentic 场景的大规模强化学习算法研发工作,包括但不限于: 1. 负责大模型强化学习整体方案设计与实现,如 RLHF、RLAIF、过程奖励(Process Reward)、在线/离线 RL 等,提升模型在推理质量、安全合规与用户体验上的综合表现。 2. 负责奖励模型(Reward Model)与价值模型(Value Model)的建模与训练,设计多维度打分体系(任务完成度、思维质量、工具使用效果等),支撑大模型与智能体的高质量优化。 3. 构建和维护强化学习数据与仿真环境(含对话环境、工具调用环境、数据分析/编程等任务环境),设计探索策略与训练流水线,实现自动化迭代优化。 4. 探索 Agent 场景下的强化学习新范式,如工具调用优化、任务拆解与编排、长程决策、信息检索与行动策略协同等,提升智能体在真实业务场景中的决策与执行能力。 5. 与算法、平台及业务团队协同,搭建可观测、可评估、可复现的 RL 训练与评测体系,持续跟踪前沿学术与工业实践,将最佳实践沉淀为平台化能力与标准流程。

