返回简章2026-06-18 更新

【北斗-27应届】Agent算法研究员

北京

本科及以上

计算机类·电子信息类

使用简历深度优化功能，快速提升简历质量

职位介绍

【我们的愿景】打造全球领先的本地生活智能平台，让每一次搜索和推荐都精准理解用户需求，从被动匹配走向主动认知推理。我们致力于成为大模型在搜索与推荐场景落地的标杆团队，推动行业从传统深度模型向生成式智能的范式跃迁，用AI能力重新定义下一代生活服务入口。【你将参与】方向一：个性化自进化与主动探索算法机制 1、探索与利用权衡：负责设计前沿的主动探索训练目标与触发机制，引入不确定性感知等机制，使Agent能够根据当前交互状态，上下文历史自主判断自适应进化方向； 2、高价值信息捕获：在极低用户打扰的约束下，设计高效的主动追问与澄清策略，精准，主动地获取用户深层高价值偏好信息。方向二：多轮交互奖励建模与 RL策略优化 1、长期价值奖励建模：负责构建面向长期交互与用户留存的奖励模型体系，将用户显式反馈（追问，点击）与隐式行为（停留，改写）转化为高置信度的显式/隐式奖励信号； 2、强化学习策略对齐：运用先进的强化学习算法（如PPO, GRPO, 在线/交互式RL)，优化模型在多轮对话与AI搜索场景下的样本效率与收敛性。基于严谨的理论框架（如收敛性保证，遗憾界分析），指导算法的原则性设计，确保策略在复杂，长尾多场景迁移时的可解释性与可靠性。方向三：Agent闭环体系建设与全链路落地 1、可插拔个性化内化模块：研发高容量，强泛化性的个性化信息内化与记忆模块，动态攻克信息更新频率与偏好识别精度之间的权衡难题。【我们希望你】 1、2027届本科及以上学历，计算机，人工智能等相关专业； 2、在大模型后训练等方面有深入实践，具备较强的动手能力； 3、扎实的深度学习和计算机理论基础，精通主流深度学习框架（如Tensorflow, Pytorch）； 4、具备强悍的工程思维和代码能力，熟练使用 Python/C++等编程语言。【加分项】 1、在ICLR/ICML/NIPS/ACL/CVPR等国际顶会有论文发表经历优先； 2、优秀的分析，解决问题能力，对AGI的未来趋势与挑战有浓厚兴趣； 3、对解决挑战性问题充满激情，较强的责任心，主动性和韧性，能良好的沟通协作。【为什么选择我们】 1、拥有业界一流的团队，成员大多来自国内外名校，团队内有多位北斗、博士，可全方位支持前沿技术研究； 2、核心业务支撑，参与前沿的大型模型技术研究和落地，探索大模型技术在实际业务场景中的应用； 3、当前美团核心的GPU落地场景之一，和团队一起探索学习异构计算领域的前沿技术，个人成长快； 4、创新型团队扁平化管理，研究成果直接连接数亿用户的实际生活。

职位来源

北京三快在线科技有限公司

民营企业 · 互联网平台 · 成立15年

在招职位