大模型评测工程师
北京
本科及以上
计算机类·数学类
使用简历深度优化功能,快速提升简历质量
职位介绍
岗位职责:
1.围绕既定的大模型发展方向,结合业务场景和行业公开趋势,主动发掘值得推进的细分能力方向,自主定义评测维度、能力需求和迭代重点。
2.深入分析模型在真实任务中的表现,持续挖掘失败模式、典型弱点和问题根因,形成可复用的分析方法和判断框架。
3.结合模型问题与优化目标,定义高质量评测集、训练数据集和验证集的建设标准,明确什么是好数据、什么样的数据真正有助于能力提升。
4.围绕重点问题设计并推动小规模验证,包括数据方案验证、小模型微调验证和对照实验,判断优化方向是否有效。
5.输出阶段性分析结论、验证结果和策略建议,形成结构化报告,推动评测、数据和优化闭环持续迭代。
任职要求:
1.有机器学习、大模型、数据分析或相关方向经验,对模型评测、数据构建和实验验证有基本理解。
2.具备较强的问题分析能力,能够从模型结果中发现问题,挖掘失败模式,并对问题进行初步归因。
3.具备一定数据判断能力,对高质量数据有基本感觉,愿意参与数据标准定义和数据集建设。
4.有主动性和自驱力,能够在相对开放的问题空间中自主发现值得推进的问题和方向。
5.具备基本实验意识,能够通过小规模实验、微调或对照验证支持判断。
6.能清晰输出分析结论和验证结果,有较好的书面表达和汇报能力。
7.熟悉 Python 或常用数据处理工具者优先。
加分项
1.有 LLM、多模态、SFT、模型评测、数据策略或错误分析相关经验。
2.有 agent 方向经验加分,包括任务拆解、工具调用、轨迹分析、失败归因、长链路评测等。
3.有真实业务场景下评测集、验证集或高质量数据建设经验。
岗位说明:
我们更看重候选人是否具备主动性、问题意识和分析判断能力,能够围绕模型弱点、失败模式、数据标准和验证闭环持续推进

