大语言模型数据管理(代码方向)-Seed
北京
本科及以上
计算机类
使用简历深度优化功能,快速提升简历质量
职位介绍
团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、GenMedia、AI for Science、机器人等,在中国、新加坡、美国等地设有实验室和岗位。
Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过50个应用场景。
1、模型训练与评估项目管理:主导并管理多个大模型训练与评估项目,协同算法与产品团队制定整体方案与数据策略,撰写数据规则与标注规范,统筹内外部数据资源,推进项目按计划高质量交付;
2、数据流程设计与工程化落地:参与模型训练数据生产流程的设计与优化,包括 SFT/RL数据标注规则制定、模型效果评估体系搭建、PE设计、Workflow构建等;推动平台工具能力迭代,持续优化数据生产效率与质量标准,实现规模化与自动化交付;
3、前沿技术调研与方法创新:持续跟踪大模型及代码方向前沿研究进展,调研相关论文与行业实践,探索自动化数据抓取、数据合成、模型自评估、Agent驱动数据生产等方法,构建更高效的数据生产范式;
4、AI驱动的工程实践与效率提升:在数据生产与模型评估流程中引入AI辅助开发范式,运用大模型与Agent能力进行需求拆解、代码生成、调试优化与自动化流程搭建,持续提升研发与数据工程效率;
5、数据分析与问题闭环:基于模型效果与数据表现进行定量分析,识别关键问题,沉淀可执行优化策略,形成模型改进的结构化反馈机制,推动算法能力持续提升。

