AI数据工程师
杭州
硕士及以上
计算机类·数学类
使用简历深度优化功能,快速提升简历质量
职位介绍
阿里云-AIPlatform-数据工程
岗位使命
以“数据驱动”和“评测驱动”为核心,构建从数据寻源、清洗、合成到评测的全链路闭环。你将直接参与万亿级数据规模的处理引擎研发,打造高质量数据集,推动基础模型能力的持续进化,助力 AGI 时代的到来。
你将负责(任选其一或多方向深入)
方向 A:全模态数据工程与架构
● 引擎研发:参与研发支持文本、图像、音频、视频的全模态数据处理引擎,挑战万亿级数据规模。
● Pipeline 构建:设计高性能、可复用的数据算子,搭建覆盖全生命周期的自动化生产流水线。
● 性能攻坚:解决海量数据在清洗、脱敏及增强过程中的计算瓶颈,利用智能筛选算法交付高质训练集。
方向 B:大模型数据理解与资产建设
● 语义体系构建:设计多模态语义标签标准与特征映射体系,构建质量度量模型,实现对复杂数据(3D/视频/音频)的自动化精炼。
● 价值挖掘:深度解析 EB 级全模态数据,通过智能挖掘将原始数据转化为具有高稀缺性的核心 AI 资产。
方向 C:领域数据策略与评测迭代
● 闭环建设:设计面向细分领域的“评测 - 数据 - 训练”闭环体系,涵盖评测集设计、数据合成及标注策略。
● 能力突破:实践“评测驱动开发(EDD)”,针对模型短板设计专项数据策略,持续推动基础模型在特定领域的 SOTA 表现。
我们寻找这样的你
1. 学历背景
● 计算机、软件工程、数学、统计、人工智能等相关专业硕士/博士应届毕业生。
● 加分项:有顶会论文(ICLR, NeurIPS, CVPR 等)、高影响力开源项目贡献或知名竞赛获奖经历。
2. 核心技术能力(满足以下任意一项即可,不必全能)
● 大数据工程向:精通 Spark/Flink/Ray 等分布式计算框架,深入理解流批一体原理,有大规模数据处理优化经验。
● 大模型算法向:深刻理解 Transformer、RLHF、RAG、CoT 等技术原理,熟悉预训练/SFT 阶段的数据需求,具备数据合成或清洗算法设计能力。
● 工程编码向:熟练掌握 Python/C++/Java 中至少一门语言,具备良好的代码规范和系统设计思维,能快速上手新工具链。
3. 综合素质
● 极客精神:对 AI 前沿技术充满好奇,乐于探索未知领域。
● 快速学习:能适应 AI 技术的快速迭代,迅速掌握新范式与新工具。
● 闭环思维:做事有始有终,对交付质量负责,具备良好的沟通协作能力。
为什么选择我们?
● 顶级舞台:顶级的成长空间和资源,国内顶级的企业级AI平台。
● 极客氛围:非监督式管理,鼓励技术创新。这里既有肆意发挥的极客精神,也有稳如磐石的工程文化。
● 健康平衡:坚持 1095 工作制,拒绝无效加班,非工作时间零打扰,真正实现 Work-Life Balance。
● 全面成长:资深导师一对一指导,提供从技术深度到行业视野的全方位培养。

