返回简章2026-04-09 更新

RLHF 强化学习研究员（3D生成）

上海

硕士及以上

计算机类·电子信息类

使用简历深度优化功能，快速提升简历质量

职位介绍

工作职责： 1.面向三维生成大模型，利用强化学习算法进行偏好对齐，提升模型生成质量； 2.探索3D领域的RL scaling问题，提升模型reasoning能力；任职要求： 1. 硕士/博士及以上学历（或在读），计算机/数学等相关专业优先； 2. 熟悉LLM、RL、Diffusion领域的技术, 熟悉DPO,PPO,GRPO等RLHF算法； 3. 对大模型RL技术有极大热情，熟悉任意一种RLHF框架（包括不限于openRLHF、Trlx、Verl等），熟悉ray/vllm等分布式及推理加速框架； 4. 具备卓越的实验分析与问题解决能力，有创新思维，能够良好沟通、与团队成员高效协作；加分项： 1.有AI Alignment相关研究或大模型应用项目经历的优先； 2.有 ICML、ICLR、NeurIPS、ACL、CVPR、AAAI 等顶级学术会议发表过有影响力研究成果的优先；

职位来源

上海米哈游网络科技股份有限公司

民营企业 · 软件开发 · 成立14年

在招职位