logologo
寻找工作
返回简章2026-02-03 更新

代码大模型数据标注

无锡
本科及以上
计算机类·电子信息类
使用简历深度优化功能,快速提升简历质量
职位介绍
SWEbench是给一个真实世界的、拥有数万行代码的开源项目(如 Django, scikit-learn),一个真实的 GitHub Issue(Bug 描述),要求 AI 自动浏览代码库、定位错误、编写补丁代码(Patch)并修复它,同时通过测试。 对于AI的模型训练来说,SWE-bench 是衡量模型是否具备复杂逻辑推理、长上下文理解、多文件调试能力。在这个项目中清洗出的数据,本质上是 "问题 -> 环境 -> 解决方案" 的完美闭环数据。模型通过学习这些数据,能学会如何配置环境、如何运行测试、如何定位 Bug。 具体的工作内容是,质检标注的内容,保证交付的内容符合SWEbench数据集的内容 需要核心技能: Linux & shell脚本会 Docker容器技术 git 操作 python基础命令 参与这个项目可以对依赖管理、环境隔离、自动化构建的理解达到极高水平。需要阅读大量优秀的开源项目(Star > 500)的源码和 PR。这相当于阅读了成千上万个优秀工程师的代码,能极大提升你自己的代码品味和规范意识。将深刻理解什么样的代码是高质量代码、如何构建用于训练 LLM 的高质量数据集。获得极强的故障排查能力 实习待遇: 1, 全球最大的人工智能数据服务公司,写字楼办公环境、配电脑; 2, 周一至周五 9:00-18:00,午休 1 小时,周末双休、法定休假 3, 实习待遇4000-4200左右/月;架构组成:3000底薪+300补贴+500技能补贴+绩效,绩效参考500左右/月,可申请园区公寓,费用自理(4 人间,450元左右/月床位费); 2, 专职团队管理,系统化培训,涵盖专业技能、前沿技术、成长经历、职业素养等; 3, 完善的个人成长空间,实习期间支持内部晋升,支持毕业转正;