logologo
寻找工作
返回简章2025-07-31 更新

【26届】Agent RL算法研究员

北京·上海
本科及以上
自动化类·计算机类
使用简历深度优化功能,快速提升简历质量
职位介绍
【岗位描述】

我们在构建基于多模态统一的DeepResearch智能体,专精整合搜索、浏览器、terminal、图片分析创作等工具的调用,深度思考智能体,实现长短期规划与分析;

1、利用强化学习方法改进智能体的规划、反思、利用工具的能力;

2、探索基于人机协同的高质量数据挖掘、合成,以加强智能体的规划和利用工具能力;

3、构建多模态智能体,提升多模态大模型 RLHF 中的训练效果;

4、构建智能体自动化评测。



【任职要求】

1、预计毕业时间介于2025年9月至2026年8月的国内外优秀本科生或研究生;

2、具备扎实的机器学习基础和强悍的编码能力,能熟练使用 PyTorch,熟悉Megatron等大规模训练框架;

3、了解 Alignment 领域的常用方法,包括但不限于 SFT、DPO、PPO、Self-Rewarding 和 Self-Critic 等 ;

4、在 NLP/CV/RL 等至少一个 AI 领域中有过深入的研究经历,或通过机器学习算法解决过复杂问题。特别欢迎跨界研究者;

5、具备卓越的实验分析与问题解决能力,有创新思维,能够良好沟通、与团队成员高效协作。



【加分项】

1、有 ICML、ICLR、NeurIPS、ACL、CVPR 等顶级学术会议发表过有影响力研究成果的优先;

2、在 ACM/ICPC、NOI/IOI、Kaggle 等编程/AI 比赛获奖者优先;

3、主导、参与过 AI 相关的有大影响力的开源/闭源项目的优先。