【北斗-27应届】Agent算法研究员
北京
本科及以上
计算机类·电子信息类
使用简历深度优化功能,快速提升简历质量
职位介绍
【我们的愿景】
打造全球领先的本地生活智能平台,让每一次搜索和推荐都精准理解用户需求,从被动匹配走向主动认知推理。我们致力于成为大模型在搜索与推荐场景落地的标杆团队,推动行业从传统深度模型向生成式智能的范式跃迁,用AI能力重新定义下一代生活服务入口。
【你将参与】
方向一:个性化自进化与主动探索算法机制
1、探索与利用权衡:负责设计前沿的主动探索训练目标与触发机制,引入不确定性感知等机制,使Agent能够根据当前交互状态,上下文历史自主判断自适应进化方向;
2、高价值信息捕获:在极低用户打扰的约束下,设计高效的主动追问与澄清策略,精准,主动地获取用户深层高价值偏好信息。
方向二:多轮交互奖励建模与 RL策略优化
1、长期价值奖励建模:负责构建面向长期交互与用户留存的奖励模型体系,将用户显式反馈(追问,点击)与隐式行为(停留,改写)转化为高置信度的显式/隐式奖励信号;
2、强化学习策略对齐:运用先进的强化学习算法(如PPO, GRPO, 在线/交互式RL),优化模型在多轮对话与AI搜索场景下的样本效率与收敛性。基于严谨的理论框架(如收敛性保证,遗憾界分析),指导算法的原则性设计,确保策略在复杂,长尾多场景迁移时的可解释性与可靠性。
方向三:Agent闭环体系建设与全链路落地
1、可插拔个性化内化模块:研发高容量,强泛化性的个性化信息内化与记忆模块,动态攻克信息更新频率与偏好识别精度之间的权衡难题。
【我们希望你】
1、2027届本科及以上学历,计算机,人工智能等相关专业;
2、在大模型后训练等方面有深入实践,具备较强的动手能力;
3、扎实的深度学习和计算机理论基础,精通主流深度学习框架(如Tensorflow, Pytorch);
4、具备强悍的工程思维和代码能力,熟练使用 Python/C++等编程语言。
【加分项】
1、在ICLR/ICML/NIPS/ACL/CVPR等国际顶会有论文发表经历优先;
2、优秀的分析,解决问题能力,对AGI的未来趋势与挑战有浓厚兴趣;
3、对解决挑战性问题充满激情,较强的责任心,主动性和韧性,能良好的沟通协作。
【为什么选择我们】
1、拥有业界一流的团队,成员大多来自国内外名校,团队内有多位北斗、博士,可全方位支持前沿技术研究;
2、核心业务支撑,参与前沿的大型模型技术研究和落地,探索大模型技术在实际业务场景中的应用;
3、当前美团核心的GPU落地场景之一,和团队一起探索学习异构计算领域的前沿技术,个人成长快;
4、创新型团队扁平化管理,研究成果直接连接数亿用户的实际生活。

