返回简章2025-07-31 更新

【26届】Agent RL算法研究员

北京·上海

本科及以上

自动化类·计算机类

使用简历深度优化功能，快速提升简历质量

职位介绍

【岗位描述】

我们在构建基于多模态统一的DeepResearch智能体，专精整合搜索、浏览器、terminal、图片分析创作等工具的调用，深度思考智能体，实现长短期规划与分析；

1、利用强化学习方法改进智能体的规划、反思、利用工具的能力；

2、探索基于人机协同的高质量数据挖掘、合成，以加强智能体的规划和利用工具能力；

3、构建多模态智能体，提升多模态大模型 RLHF 中的训练效果；

4、构建智能体自动化评测。

【任职要求】

1、预计毕业时间介于2025年9月至2026年8月的国内外优秀本科生或研究生；

2、具备扎实的机器学习基础和强悍的编码能力，能熟练使用 PyTorch，熟悉Megatron等大规模训练框架；

3、了解 Alignment 领域的常用方法，包括但不限于 SFT、DPO、PPO、Self-Rewarding 和 Self-Critic 等；

4、在 NLP/CV/RL 等至少一个 AI 领域中有过深入的研究经历，或通过机器学习算法解决过复杂问题。特别欢迎跨界研究者；

5、具备卓越的实验分析与问题解决能力，有创新思维，能够良好沟通、与团队成员高效协作。

【加分项】

1、有 ICML、ICLR、NeurIPS、ACL、CVPR 等顶级学术会议发表过有影响力研究成果的优先；

2、在 ACM/ICPC、NOI/IOI、Kaggle 等编程/AI 比赛获奖者优先；

3、主导、参与过 AI 相关的有大影响力的开源/闭源项目的优先。

职位来源

上海阶跃星辰智能科技有限公司

民营企业 · 系统集成服务 · 成立3年

在招职位