返回简章2026-06-25 更新

大模型评测工程师

北京

本科及以上

计算机类·数学类

使用简历深度优化功能，快速提升简历质量

职位介绍

岗位职责： 1.围绕既定的大模型发展方向，结合业务场景和行业公开趋势，主动发掘值得推进的细分能力方向，自主定义评测维度、能力需求和迭代重点。 2.深入分析模型在真实任务中的表现，持续挖掘失败模式、典型弱点和问题根因，形成可复用的分析方法和判断框架。 3.结合模型问题与优化目标，定义高质量评测集、训练数据集和验证集的建设标准，明确什么是好数据、什么样的数据真正有助于能力提升。 4.围绕重点问题设计并推动小规模验证，包括数据方案验证、小模型微调验证和对照实验，判断优化方向是否有效。 5.输出阶段性分析结论、验证结果和策略建议，形成结构化报告，推动评测、数据和优化闭环持续迭代。任职要求： 1.有机器学习、大模型、数据分析或相关方向经验，对模型评测、数据构建和实验验证有基本理解。 2.具备较强的问题分析能力，能够从模型结果中发现问题，挖掘失败模式，并对问题进行初步归因。 3.具备一定数据判断能力，对高质量数据有基本感觉，愿意参与数据标准定义和数据集建设。 4.有主动性和自驱力，能够在相对开放的问题空间中自主发现值得推进的问题和方向。 5.具备基本实验意识，能够通过小规模实验、微调或对照验证支持判断。 6.能清晰输出分析结论和验证结果，有较好的书面表达和汇报能力。 7.熟悉 Python 或常用数据处理工具者优先。加分项 1.有 LLM、多模态、SFT、模型评测、数据策略或错误分析相关经验。 2.有 agent 方向经验加分，包括任务拆解、工具调用、轨迹分析、失败归因、长链路评测等。 3.有真实业务场景下评测集、验证集或高质量数据建设经验。岗位说明：我们更看重候选人是否具备主动性、问题意识和分析判断能力，能够围绕模型弱点、失败模式、数据标准和验证闭环持续推进

职位来源

杭州曼孚科技有限公司

民营企业 · 基础软件开发 · 成立7年

在招职位