返回简章2026-05-26 更新

AI数据工程师

杭州

硕士及以上

计算机类·数学类

使用简历深度优化功能，快速提升简历质量

职位介绍

阿里云-AIPlatform-数据工程岗位使命以“数据驱动”和“评测驱动”为核心，构建从数据寻源、清洗、合成到评测的全链路闭环。你将直接参与万亿级数据规模的处理引擎研发，打造高质量数据集，推动基础模型能力的持续进化，助力 AGI 时代的到来。你将负责（任选其一或多方向深入）方向 A：全模态数据工程与架构 ● 引擎研发：参与研发支持文本、图像、音频、视频的全模态数据处理引擎，挑战万亿级数据规模。 ● Pipeline 构建：设计高性能、可复用的数据算子，搭建覆盖全生命周期的自动化生产流水线。 ● 性能攻坚：解决海量数据在清洗、脱敏及增强过程中的计算瓶颈，利用智能筛选算法交付高质训练集。方向 B：大模型数据理解与资产建设 ● 语义体系构建：设计多模态语义标签标准与特征映射体系，构建质量度量模型，实现对复杂数据（3D/视频/音频）的自动化精炼。 ● 价值挖掘：深度解析 EB 级全模态数据，通过智能挖掘将原始数据转化为具有高稀缺性的核心 AI 资产。方向 C：领域数据策略与评测迭代 ● 闭环建设：设计面向细分领域的“评测 - 数据 - 训练”闭环体系，涵盖评测集设计、数据合成及标注策略。 ● 能力突破：实践“评测驱动开发（EDD）”，针对模型短板设计专项数据策略，持续推动基础模型在特定领域的 SOTA 表现。我们寻找这样的你 1. 学历背景 ● 计算机、软件工程、数学、统计、人工智能等相关专业硕士/博士应届毕业生。 ● 加分项：有顶会论文（ICLR, NeurIPS, CVPR 等）、高影响力开源项目贡献或知名竞赛获奖经历。 2. 核心技术能力（满足以下任意一项即可，不必全能） ● 大数据工程向：精通 Spark/Flink/Ray 等分布式计算框架，深入理解流批一体原理，有大规模数据处理优化经验。 ● 大模型算法向：深刻理解 Transformer、RLHF、RAG、CoT 等技术原理，熟悉预训练/SFT 阶段的数据需求，具备数据合成或清洗算法设计能力。 ● 工程编码向：熟练掌握 Python/C++/Java 中至少一门语言，具备良好的代码规范和系统设计思维，能快速上手新工具链。 3. 综合素质 ● 极客精神：对 AI 前沿技术充满好奇，乐于探索未知领域。 ● 快速学习：能适应 AI 技术的快速迭代，迅速掌握新范式与新工具。 ● 闭环思维：做事有始有终，对交付质量负责，具备良好的沟通协作能力。为什么选择我们？ ● 顶级舞台：顶级的成长空间和资源，国内顶级的企业级AI平台。 ● 极客氛围：非监督式管理，鼓励技术创新。这里既有肆意发挥的极客精神，也有稳如磐石的工程文化。 ● 健康平衡：坚持 1095 工作制，拒绝无效加班，非工作时间零打扰，真正实现 Work-Life Balance。 ● 全面成长：资深导师一对一指导，提供从技术深度到行业视野的全方位培养。

职位来源

阿里巴巴(中国)有限公司

民营企业 · 商业服务 · 成立19年

在招职位