返回简章2026-02-03 更新

代码大模型数据标注

无锡

本科及以上

计算机类·电子信息类

使用简历深度优化功能，快速提升简历质量

职位介绍

SWEbench是给一个真实世界的、拥有数万行代码的开源项目（如 Django, scikit-learn），一个真实的 GitHub Issue（Bug 描述），要求 AI 自动浏览代码库、定位错误、编写补丁代码（Patch）并修复它，同时通过测试。对于AI的模型训练来说，SWE-bench 是衡量模型是否具备复杂逻辑推理、长上下文理解、多文件调试能力。在这个项目中清洗出的数据，本质上是 "问题 -> 环境 -> 解决方案" 的完美闭环数据。模型通过学习这些数据，能学会如何配置环境、如何运行测试、如何定位 Bug。具体的工作内容是，质检标注的内容，保证交付的内容符合SWEbench数据集的内容需要核心技能： Linux & shell脚本会 Docker容器技术 git 操作 python基础命令参与这个项目可以对依赖管理、环境隔离、自动化构建的理解达到极高水平。需要阅读大量优秀的开源项目（Star > 500）的源码和 PR。这相当于阅读了成千上万个优秀工程师的代码，能极大提升你自己的代码品味和规范意识。将深刻理解什么样的代码是高质量代码、如何构建用于训练 LLM 的高质量数据集。获得极强的故障排查能力实习待遇： 1，全球最大的人工智能数据服务公司，写字楼办公环境、配电脑； 2，周一至周五 9：00-18：00，午休 1 小时，周末双休、法定休假 3，实习待遇4000-4200左右/月；架构组成：3000底薪+300补贴+500技能补贴+绩效，绩效参考500左右/月，可申请园区公寓，费用自理（4 人间，450元左右/月床位费）； 2，专职团队管理，系统化培训，涵盖专业技能、前沿技术、成长经历、职业素养等； 3，完善的个人成长空间，实习期间支持内部晋升，支持毕业转正；

职位来源

澳鹏数据科技(淮南)有限公司

民营企业 · 大数据服务 · 成立2年

在招职位