logologo
寻找工作
返回简章2026-04-18 更新

大数据开发(base北京)

上海
本科及以上
计算机类·电子信息类
使用简历深度优化功能,快速提升简历质量
职位介绍
ByteIntern:面向2027届毕业生(2026年9月-2027年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:AI 数据与安全团队为 Seed 基座模型及 AI 原生应用提供跨模态数据服务,覆盖数据生产全流程,包含模型评估标准的制定、数据规模化生产、数据飞轮搭建,不断提升数据质量,支持模型快速迭代。 团队由产品经理、数据工程、数据运营等跨职能人才组成,并通过与 Seed 研究员、行业专家、全球顶尖数据供应商紧密合作,从真实场景中收集反馈并分析模型表现数据,解决 AI 前沿突破过程中的复杂数据问题,推动模型性能与用户体验的双重提升。我们既是帮助模型技术迭代的一线贡献者,也是模型和 AI 产品的一手用户。 1、围绕Seed大模型数据全生命周期,参与/负责大模型数据管理平台的数据基建的整体架构设计与建设,包括数据接入、处理、检索、跟踪、质量评估、权限合规等基础能力; 2、构建Seed大模型海量数据的资产目录、标签体系、元信息管理及血缘分析能力,提升高质量数据挖掘效率与可用性,赋能算法预训练、SFT/RLHF等核心场景; 3、协同基础架构/云平台团队,搭建稳定高效的底层数据基础设施(数据湖、对象存储、向量存储、分布式计算、元数据管理系统等); 4、主导技术选型与架构优化,基于Spark/Flink/Ray、湖仓一体、向量数据库等技术栈,构建高吞吐、高容错、可扩展的处理存储能力,支撑日PB级数据处理。 职位要求 1、2027届本科及以上学历,计算机、通信等相关专业优先; 2、具备大数据开发相关技能,熟悉Java/Scala语言,包括JVM、类加载、并发等;有较好的SQL基础; 3、熟悉Flink、Spark、Kafka、ClickHouse、Doris、Hudi、Icebreg、Paimon中的部分大数据引擎,掌握原理及性能调优优先; 4、善于沟通,对数据敏感,责任心强、积极主动; 5、每周实习4天以上,连续实习3个月以上。