返回简章2026-05-26 更新

后训练与强化学习

深圳

本科及以上

不限专业

使用简历深度优化功能，快速提升简历质量

职位介绍

岗位职责：1、围绕语言、多模态、Agent能力，探索后训练SFT数据配比、SFT策略、SFT&RL协同策略、RL训练算法； 2、参与研究面向Agentic（Planning、Tool-use、Skills-use等），Reasoning（STEM、Logic、TIR等）、Coding（Bug-fix、Feature-implementation等）、General（Instruction Following、Hallucination Control、Context Learning、Content Understand and Generation）等高优场景的针对性Reward System 构建、环境模拟、强化学习训练策略 3、参与研究强化学习算法、提升强化学习训练稳定性，包括但不限于探索重要性采样策略、细粒度Reward设计、Credit Assignment策略、Off-policy Masking等提升RL训推一致性策略 4、参与探索Model Merge（模型融合）、On-policy KD（在线蒸馏）、Multi-task RL（多任务强化学习）等专项能力融合策略任职要求：1、计算机科学、人工智能、数据科学、软件工程、统计数学等相关专业； 2、具备软件工程和算法实现能力，熟悉模型架构、深度学习框架; 3、具备较强的学习力、自驱力、团队协同和责任意识； 4、具备语言/语音/多模态/空间智能相关模型后训练SFT或RL验证的相关方法者优先； 5、在领域顶级会议（如NeurlPS, ICML, AAAI, VLDB等）发表论文，或有相关实习经验/高水平竞赛（如ACM, ICPC等）获奖经历者优先。

职位来源

华为技术有限公司

民营企业 · 计算机设备 · 成立38年

450

在招职位