RLHF 强化学习研究员(3D生成)
上海
硕士及以上
计算机类·电子信息类
使用简历深度优化功能,快速提升简历质量
职位介绍
工作职责:
1.面向三维生成大模型,利用强化学习算法进行偏好对齐,提升模型生成质量;
2.探索3D领域的RL scaling问题,提升模型reasoning能力;
任职要求:
1. 硕士/博士及以上学历(或在读),计算机/数学等相关专业优先;
2. 熟悉LLM、RL、Diffusion领域的技术, 熟悉DPO,PPO,GRPO等RLHF算法;
3. 对大模型RL技术有极大热情,熟悉任意一种RLHF框架(包括不限于openRLHF、Trlx、Verl等),熟悉ray/vllm等分布式及推理加速框架;
4. 具备卓越的实验分析与问题解决能力,有创新思维,能够良好沟通、与团队成员高效协作;
加分项:
1.有AI Alignment相关研究或大模型应用项目经历的优先;
2.有 ICML、ICLR、NeurIPS、ACL、CVPR、AAAI 等顶级学术会议发表过有影响力研究成果的优先;

