logologo
寻找工作
返回简章2026-05-26 更新

数据智多星-数据评测算法方向

北京
硕士及以上
计算机类·电子信息类
使用简历深度优化功能,快速提升简历质量
职位介绍
我们团队专注于大模型的高质量数据合成算法与通用评测算法研究,希望在AI下半场通过评测驱动的方式引领大模型技术方向。我们的研究方向覆盖: 1. 多智能体协作式数据合成算法 2. 高质量训练数据筛选算法 3. RL算法创新 4. 通用Reward model训练方法 5. Agent Harness工程 & Agent环境scaling算法 【职位描述】 1、裁判/奖励模型(Reward Model)研发:结合最前沿的训练技术(如 SFT、RLHF、DPO/PPO 等),构建 SOTA 级别的奖励模型,为业务侧强化学习(RL)提供核心动能。 2、评测体系与 Benchmark 构建:运用多智能体(Multi-Agent)技术构建权威评测基准,或研发自动化的评测合成方案,精准量化 SOTA 模型的能力边界与缺陷,驱动“数据-评测”闭环飞轮。 3、数据合成技术创新:探索创新的数据合成算法,生产高难度、高多样性的训练与评测语料;同时利用算法构建智能体(Agent)训练与评测所需的复杂仿真环境。 4、前沿强化学习(RL)算法探索:跟踪并研究 RL 领域的最新进展,挑战通用强化学习算法的性能极限,推动技术从理论突破向实际场景转化。 【职位要求】 1、学历要求: 高校在读博士生(特别优秀的硕士生可放宽限制),计算机、人工智能、软件工程、认知科学、脑科学或其他AI相关专业。 2、技术背景: 对大语言模型(LLM)、智能体(Agent)、强化学习或相关底层架构有深入理解,具备扎实的编程能力与工程实现能力。 3、研究能力: 具备独立提出问题、设计实验并解决复杂问题的能力。有顶级会议(如ACL, ICLR, NeurIPS, ICML, colm等)论文发表经验者优先。获得过ACM、NOI金牌或同等水平竞赛奖项优先。 4、实习时间: 为了保证研究的完整性与成果落地,实习期要求不少于3个月(建议3-6个月),能够沉下心推进完整的闭环研究。 【你将获得】 • 真实的业务落地与影响力: 你的研究成果将直接交付评测集、训练数据,沉淀数据生产方法(合成流水线、标注规范等),在真实业务中产生巨大价值。 • 顶会论文发表支持: 在保障业务落地的基础上,团队大力支持将研究成果转化为CCF-A类会议或同等级顶会论文。若实习生为主要的实验和论文完成人,默认以第一作者身份发表。 • 资深专家1v1指导: 采用导师负责制,为你指定专属资深导师,定期回顾目标与成果,并在专业探索与个人成长上提供全方位护航。