logologo
寻找工作
返回简章2026-05-30 更新

大模型eval工程师

北京
本科及以上
计算机类·统计学类
使用简历深度优化功能,快速提升简历质量
职位介绍
岗位职责: 1.围绕既定的大模型发展方向,结合业务场景和行业公开趋势,主动发掘值得推进的细分能力方向,自主定义评测维度、能力需求和迭代重点。 2.深入分析模型在真实任务中的表现,持续挖掘失败模式、典型弱点和问题根因,形成可复用的分析方法和判断框架。 3.结合模型问题与优化目标,定义高质量评测集、训练数据集和验证集的建设标准,明确什么是好数据、什么样的数据真正有助于能力提升。 4.围绕重点问题设计并推动小规模验证,包括数据方案验证、小模型微调验证和对照实验,判断优化方向是否有效。 5.输出阶段性分析结论、验证结果和策略建议,形成结构化报告,推动评测、数据和优化闭环持续迭代。 任职要求: 1.有机器学习、大模型、数据分析或相关方向经验,对模型评测、数据构建和实验验证有基本理解。 2.具备较强的问题分析能力,能够从模型结果中发现问题,挖掘失败模式,并对问题进行初步归因。 3.具备一定数据判断能力,对高质量数据有基本感觉,愿意参与数据标准定义和数据集建设。 4.有主动性和自驱力,能够在相对开放的问题空间中自主发现值得推进的问题和方向。 5.具备基本实验意识,能够通过小规模实验、微调或对照验证支持判断。 6.能清晰输出分析结论和验证结果,有较好的书面表达和汇报能力。 7.熟悉 Python 或常用数据处理工具者优先。 加分项 1.有 LLM、多模态、SFT、模型评测、数据策略或错误分析相关经验。 2.有 agent 方向经验加分,包括任务拆解、工具调用、轨迹分析、失败归因、长链路评测等。 3.有真实业务场景下评测集、验证集或高质量数据建设经验。 岗位说明: 我们更看重候选人是否具备主动性、问题意识和分析判断能力,能够围绕模型弱点、失败模式、数据标准和验证闭环持续推进