返回简章2026-02-25 更新

大模型强化学习工程师

北京

本科及以上

不限专业

使用简历深度优化功能，快速提升简历质量

职位介绍

从事大模型对齐及 Agentic 场景的大规模强化学习算法研发工作，包括但不限于： 1. 负责大模型强化学习整体方案设计与实现，如 RLHF、RLAIF、过程奖励（Process Reward）、在线/离线 RL 等，提升模型在推理质量、安全合规与用户体验上的综合表现。 2. 负责奖励模型（Reward Model）与价值模型（Value Model）的建模与训练，设计多维度打分体系（任务完成度、思维质量、工具使用效果等），支撑大模型与智能体的高质量优化。 3. 构建和维护强化学习数据与仿真环境（含对话环境、工具调用环境、数据分析/编程等任务环境），设计探索策略与训练流水线，实现自动化迭代优化。 4. 探索 Agent 场景下的强化学习新范式，如工具调用优化、任务拆解与编排、长程决策、信息检索与行动策略协同等，提升智能体在真实业务场景中的决策与执行能力。 5. 与算法、平台及业务团队协同，搭建可观测、可评估、可复现的 RL 训练与评测体系，持续跟踪前沿学术与工业实践，将最佳实践沉淀为平台化能力与标准流程。

职位来源

华为技术有限公司

民营企业 · 计算机设备 · 成立38年

564

在招职位