logologo
寻找工作
返回简章2026-05-26 更新

后训练与强化学习

深圳
本科及以上
不限专业
使用简历深度优化功能,快速提升简历质量
职位介绍
岗位职责:1、围绕语言、多模态、Agent能力,探索后训练SFT数据配比、SFT策略、SFT&RL协同策略、RL训练算法; 2、参与研究面向Agentic(Planning、Tool-use、Skills-use等),Reasoning(STEM、Logic、TIR等)、Coding(Bug-fix、Feature-implementation等)、General(Instruction Following、Hallucination Control、Context Learning、Content Understand and Generation)等高优场景的针对性Reward System 构建、环境模拟、强化学习训练策略 3、参与研究强化学习算法、提升强化学习训练稳定性,包括但不限于探索重要性采样策略、细粒度Reward设计、Credit Assignment策略、Off-policy Masking等提升RL训推一致性策略 4、参与探索Model Merge(模型融合)、On-policy KD(在线蒸馏)、Multi-task RL(多任务强化学习)等专项能力融合策略 任职要求:1、计算机科学、人工智能、数据科学、软件工程、统计数学等相关专业; 2、具备软件工程和算法实现能力,熟悉模型架构、深度学习框架; 3、具备较强的学习力、自驱力、团队协同和责任意识; 4、具备语言/语音/多模态/空间智能相关模型后训练SFT或RL验证的相关方法者优先; 5、在领域顶级会议(如NeurlPS, ICML, AAAI, VLDB等)发表论文,或有相关实习经验/高水平竞赛(如ACM, ICPC等)获奖经历者优先。