阿里云(北京)科技有限公司_2026校园招聘最新信息

公司简介：

阿里云（北京）科技有限公司成立于2006-01-16，法定代表人为张翅，注册资本为4617.06万元，统一社会信用代码为911****5783951338G，企业注册地址位于北京市朝阳区望京东园四区9号楼12层1201号，所属行业为软件和信息技术服务业，经营范围包含：一般项目：软件开发；技术服务、技术开发、技术咨询、技术交流、技术转让、技术推广；信息系统集成服务；计算机软硬件及辅助设备批发；计算机软硬件及辅助设备零售；电子产品销售；版权代理；企业管理咨询；碳减排、碳转化、碳捕捉、碳封存技术研发；节能管理服务。（除依法须经批准的项目外，凭营业执照依法自主开展经营活动）许可项目：代理记账。（依法须经批准的项目，经相关部门批准后方可开展经营活动，具体经营项目以相关部门批准文件或许可证件为准）（不得从事国家和本市产业政策禁止和限制类项目的经营活动。）。企业当前经营状态为存续。

在招职位如下：

AI Infra工程师-容器方向

工作城市：北京
薪资：12k-24k
学历要求：本科,硕士,博士
岗位性质：实习
岗位描述：

## 岗位职责

你将成为大模型技术落地的“算力内核设计者”。你将深入 Kubernetes 生态，参与构建支撑超大规模 AI 集群的容器化基础设施，通过对调度、存储、网络等核心组件的深度定制与优化，打破大模型训练与推理的工程瓶颈。你的代码将直接优化 Agent 的冷启动速度，提升 GPU 集群的吞吐量与资源利用率，为 AI 时代的算力底座注入极致性能。

具体的职责包括以下相关方向的一项或多项：

1. AI 容器调度与编排优化：
- 深度优化 Kubernetes 调度器，实现面向 GPU 拓扑感知的算力分配，解决大规模分布式训练任务的资源碎裂问题。
- 设计并实现面向 AI Agent 的弹性调度策略，通过多级缓存、预加载等手段，实现分钟级到秒级的 Agent 快速拉起与自动伸缩。

2. AI 高性能存储与网络底座：
- 针对 AI 大规模 checkpoint 与数据读取场景，优化容器存储挂载性能，通过存储卸载与并行化技术，解决分布式训练中的 I/O 阻塞问题。
- 优化容器网络性能（如 RDMA/RoCE 深度集成），通过内核态路径优化，降低推理请求的网络传输延迟。

3. AI 工程平台架构设计与效率提升：
- 负责大型 AI 项目工程平台的架构设计与规划，通过构建标准化的云原生技术底座，确保复杂计算场景下的系统高可用性与可扩展性。
- 针对大规模 AI 任务执行过程中的痛点进行架构级优化，通过降低系统开销与资源冗余，显著提升系统运行效率。
- 定义面向 AI 场景的资源管控标准与作业管理规范，解决大规模并行任务下的资源争抢与隔离难题，确保高负载生产环境的稳定性。

4. AI 基础设施极致加速：
- 研发面向 AI 推理与 Agent 运行的轻量化容器运行时，实现计算资源的极致弹性与高密部署。
- 构建 AI 场景下的监控与调优平台，深度剖析容器化环境下的性能瓶颈，实现从底层硬件到应用层的全链路性能优化。
- 负责容器镜像基础服务设计与研发，针对 AI 业务特征及需求，深度优化产品架构及技术实现，为 AI 业务大规模使用等场景提供高效极致的产品能力。
- 设计研发基于AI的智能应用弹性及资源弹性产品能力，推动对AI应用场景的端到端弹性伸缩优化。
- 设计研发自主智能运维Agent，通过自动故障感知根因定位与自愈决策闭环，提升运维效率。

## 岗位要求

1. 毕业起止时间要求
2026-11-01 - 2027-10-31

2. 基础条件：
- 计算机、软件工程等相关专业优先。
- 热衷于数据结构和算法，在 ACM/ICPC 等竞赛中成绩优异者优先；有 K8s 或容器相关开源社区贡献（Kubernetes/KubeFlow/Volcano/OpenKruise等）或高性能存储/网络开发经验者加分。

3. 专业能力：
- 系统工程与编程能力：具备扎实的 Linux 系统底层基础（熟悉网络栈、文件系统、进程管理等），熟练掌握 Go 语言（核心）、Java、Python 或 C++，具备复杂的分布式系统调试能力。
- 容器与编排生态：对 Kubernetes 架构有深入理解，熟悉容器 Runtime（Docker/containerd/CRI）原理，有 K8s 自定义 Controller/Scheduler 开发经验者优先。
- AI 系统领域专业知识：
- 理解 AI 推理/训练的资源特征（如显存、带宽、通信模式）。
- 熟悉容器化环境下 AI /Agent任务的架构及部署链路，了解如何通过容器技术优化模型加载、Checkpoint 保存、Memory管理等环节。
- 对大规模分布式工程架构有一定理解，关注系统的高可用性、可观测性及研发效能的提升。

4. 能力特质：
- 极致的性能追求：乐于挑战“毫秒级”的延迟瓶颈，具备良好的性能分析工具（如 ebpf, perf, flamegraph 等）使用与系统调优能力。
- 工程化思维：具备良好的系统抽象与架构设计能力，能够将复杂的 AI 场景痛点转化为高可用、高可靠的系统工程方案。
- 跨域协同：具备良好的技术视野，能够与模型算法工程师高效沟通，理解算力对业务的支撑逻辑，从底层视角拆解并解决 AI 工程挑战。
- 极客精神：对 AI 大模型技术充满热情，渴望在分布式系统与大规模算力平台的交汇处实现技术突破。

5. 工作地点：

北京/杭州

构建AI Agent下一代调度与计算引擎-阿里星

工作城市：北京
薪资：12k-24k
学历要求：硕士,博士
岗位性质：实习
岗位描述：

## 岗位职责

1、构建既能实现极致性能（百毫秒唤醒）又能做到极致成本效益（资源利用率提升XX%）的 Agent 基础设施底座；
2、主导设计和实现融合了Agent Sandbox、容器与虚拟化的统一调度系统。

## 岗位要求

0、毕业起止时间要求：2026-11-01 - 2027-10-31
1、计算机科学或相关专业背景，具备深厚的操作系统、分布式系统理论基础；
2、精通Go/C++/Rust中至少一种，具备大型、复杂底层系统或分布式调度系统的设计与开发经验；
3、熟悉Kubernetes架构，特别是其调度器（kube-scheduler）和资源管理机制；有二次开发或重度使用经验者优先；
4、深入理解Linux内核机制（如cgroups、namespaces、内存管理、内核调度）或虚拟化技术（KVM, QEMU）；
5、对解决复杂系统中的性能瓶颈与稳定性问题充满热情，并具备体系化的方法论；
6、有强烈技术热情和好奇心，自驱力和学习力强；具备良好的分析与解决问题的能力、沟通以及团队合作能力；喜欢挑战性的技术研发工作，善于攻坚克难，有创新热情，积极乐观，坚韧抗压，结果导向，能够持续推动问题的解决和突破。

加分项：
1、有分布式系统调度算法（如Borg、Omega、Mesos）的设计或研究经验；
2、有eBPF、CRIU、gVisor、Kata Containers等云原生前沿技术的实践经验；
3、有Hypervisor（KVM/Xen）开发或性能优化经验；
4、在Linux Kernel、Kubernetes、Docker等顶级开源社区有活跃贡献；
5、掌握AI基础知识，掌握基础提示词工程，会使用Al专业工具，集成AI到个人工作流；有AI相关开发工具应用研发经验者优先，持有阿里云ACA/ACP/ACE认证证书者优先。

## 工作地点

北京/杭州

【容器云计算+AI Infra 暑期实习热招中，HC多多，感兴趣欢迎联系】

智算平台研发工程师

工作城市：北京
薪资：12k-12k
学历要求：本科,硕士,博士
岗位性质：实习
岗位描述：

校园招聘职位描述（JD）
职位名称：阿里云智算平台研发工程师（AI Infra 方向）
工作地点
北京、杭州
关于我们：打造 AI 时代的算力基座
我们是阿里云 IaaS 产品架构与研发 - 算力平台研发团队，核心使命是：为 AI 大模型训练与推理构建世界级的智算基础设施。

随着大模型进入万卡时代，传统基础设施已无法满足 AI 对高性能、高稳定、高弹性、高智能的严苛要求。我们正从“资源交付平台”向“AI 原生算力操作系统”演进——不仅提供裸金属、GPU、DPU 等硬件资源，更通过 AI 驱动的智能调度、自愈、可观测与优化能力，让算力“看得见、管得住、用得好”。
我们的工作直接支撑通义千问、通义万相等阿里大模型的训练集群，以及外部客户的大规模万卡集群的 AI 训练/推理业务。

技术方向（任一方向均可深入）
ꔷ AI 原生 Serverless 容器平台
构建面向 AI 工作负载的 Serverless 引擎，支持一键提交训练任务，自动扩缩容、秒级交付，让用户专注模型创新。
ꔷ GPU 与异构算力智能调度
实现 AI 拓扑感知调度：基于 GPU/NIC/RoCE 拓扑、通信带宽、NUMA 距离等，结合 AI 知识图谱，为大模型训练选择最优节点组合，最大化 AllReduce 效率。
ꔷ 智算稳定性与自愈体系
构建 AI 驱动的故障治理体系：利用故障知识图谱实现根因定位（RCA）基于历史故障数据预测爆炸半径（Blast Radius）自动执行隔离、迁移、重试，保障万卡训练不中断
ꔷ AI 算力健康度深度检测
设计 AI Infra 健康分模型：融合硬件指标（ECC、NVLink error）、系统日志、作业行为实时评估节点“是否适合跑 LLM 训练”提前预警潜在风险，避免训练中途失败
ꔷ 智算基础平台与国产化适配
打造统一底座，支持 NVIDIA、壁仞、沐曦、昇腾等国产异构芯片，实现驱动、固件、OS 层的自动化管理与兼容性验证。
ꔷ 智算运维控制台与 OpenAPI
构建面向 AI 工程师的产品化体验：可视化集群拓扑、训练任务追踪、资源水位分析、一键诊断等。

你将参与的核心工作
1. 开发 GPU 虚拟化（kGPU/MIG）与 DPU 卸载技术，提升 AI 算力密度；
2. 优化 K8s 调度器（Scheduler）、Device Plugin（DP）、Extended Resource（EP），支持万卡级 AI 作业调度；
3. 构建裸金属监控与自愈系统，实现 MTTR < 5 分钟、ETTR ≈ 0 的高可用目标；
4. 设计超节点（SuperNode）架构，打通计算、存储、网络，为大模型训练提供极致性能；
5. 利用 AI 知识图谱 + 时序异常检测，实现算力基础设施的智能运维（AIOps）；
6. 为 AI 大模型训练/推理集群提供端到端的稳定性、效率与安全保证。

我们希望你（满足以下 2–4 项即可）
1. 熟悉平台研发流程，有 Go / Python 开发经验；
2. 熟悉 Kubernetes 工作机制，能独立创建、调试 K8s 应用；
3. 了解 GPU 作业调度机制，熟悉 K8s 调度器基本原理；
4. 有 GPU 虚拟化（用户态/内核态/MIG）部署或调试经验；
5. 了解 GPU 算力故障监控、诊断、自愈、可视化相关技术；
6. 熟悉大规模集群管理，如 PXE 装机、OverlayFS、镜像分发等；
7. 对 AI 基础设施、大模型训练流程、AIOps 有浓厚兴趣或实践经验。

为什么加入我们？
- 直面 AI 时代最前沿挑战：你写的代码，正在支撑千亿参数大模型的训练；
- 全栈技术成长：从 Linux 内核、DPU 驱动，到 K8s 调度、AI 知识图谱，技术纵深极强；
- 真实万卡集群实战：不是模拟环境，而是每天处理 PB 级日志、调度数千 GPU 的生产系统；
-AI + Infra 双轮驱动：你不仅写基础设施，更用 AI 重塑基础设施；
- 开放、极客、结果导向的团队文化，鼓励技术创新与快速落地。

面向人群
2027 届本科/硕士/博士毕业生计算机、软件工程、人工智能、电子信息等相关专业热爱底层系统，对 AI 基础设施有强烈好奇心

在这里，你不是在“维护服务器”，而是在“构建 AI 时代的算力引擎”。
加入我们，一起让万卡集群像一台超级计算机一样稳定、高效、智能地运行！

高性能计算工程师

工作城市：北京
薪资：12k-15k
学历要求：硕士,博士
岗位性质：实习
岗位描述：

招聘27届应届校招实习生，确定有转正机会~~

职位描述
在这里，你将成为大模型技术落地的“幕后推手”。你将参与构建支撑千卡/万卡规模的 AI 计算基础设施，通过软硬件协同优化，解决大模型在训练、推理、调度全链路中的工程挑战。你的代码将直接决定大模型训练的效率、推理的响应速度以及集群资源的利用率，为 AI 时代的算力底座注入核心动力。
具体的职责包括以下相关方向的一项或多项：
1. 算力基建与分布式训练：
● 深入分布式训练架构，优化通信与底层算子性能，解决大规模集群通信瓶颈，提升模型训练的吞吐量与计算效率。参与研究新的训练框架和模式。
极致推理加速：
● 针对大规模推理场景，研发高性能推理引擎，通过kernel、框架、与算法结合的有损优化等手段，实现极致的低延迟与高并发。
2. 智能化资源调度与系统：
● 构建大规模 GPU 集群的统一调度与编排系统，实现算力资源的弹性分配与自动化调度，设计与优化面向 AI 计算场景的高性能通信、存储系统，保障海量任务的极致的效率。
3. 工程效率与平台化建设：
● 打造一体化的平台，覆盖大模型研发和迭代的全流程，降低模型迭代门槛，提升研发效能。
职位要求
1. 基础条件：
● 计算机、软件工程等相关专业优先。
● 热衷于数据结构和算法、在ACM大赛成绩优异者优先；有顶会论文/高影响项目/开源贡献者加分。
2. 专业能力：
● 系统工程与编程能力：具备良好的系统工程基础，熟悉 Linux 开发环境，掌握 Python、Go、Java 等至少一门编程语言，具备扎实的工程实现能力。
● 分布式系统：了解分布式系统基本原理（如一致性、容错、扩展性等）。
● AI 系统领域专业知识：对于以下领域中的一项或者多项具备专业能力
○ 了解 AI 的基本原理与常见算法，理解模型训练任务的基本流程及其资源需求。
○ 了解主流训练推理框架（如 PyTorch、TensorFlow、vLLM、sglang）的基本使用方式及训练流程。
○ 了解异构计算或高性能计算体系，有 GPU 相关优化经验者优先。
3. 能力特质：
● 沟通能力：能与跨域岗位，如：算法、产品等，进行良好的沟通。
● 跨域视野：有较宽的技术视野与知识面，对算法研发流程、数据、GPU调度、训练、推理等相关领域的技术逻辑都有涉猎。
● 系统思维：乐于挑战复杂系统的性能极限，具备良好的性能分析与调优能力，喜欢从底层视角拆解并解决问题。
● 极客精神：对 AI 大模型技术充满热情，具备快速学习新技术的能力，渴望在高性能计算领域实现技术突破。

AI Infra工程师

工作城市：北京
薪资：12k-15k
学历要求：硕士,博士
岗位性质：实习
岗位描述：

ai开发工程师

工作城市：北京
薪资：25k-40k
学历要求：硕士,博士
岗位性质：全职
岗位描述：

27 届暑期实习开招啦，部门负责阿里云专有云的监控与运维平台，团队主攻 AIOPS 前沿研究，运用 AI 技术赋能传统运维，保障云平台安全稳定的运行，工作涉及 Agent 开发、Cli-Claw 架构研究、 Advanced RAG、垂域知识工程等多方面，团队氛围特别好，新方向成长空间大，Base 南京/北京/杭州，大家有意向欢迎私聊。

岗位职责：
1. 参与阿里云专有云监控与运维平台的研发工作
2. 开展AIOPS前沿技术研究，运用AI技术赋能传统运维，保障云平台安全稳定运行
3. 负责Agent开发、Cli-Claw架构研究、Advanced RAG及垂域知识工程等相关技术工作

任职要求：
1. 面向27届暑期实习生开放，具备计算机及相关专业背景优先
2. 对AI与运维结合方向有浓厚兴趣，具备良好的学习能力和技术探索精神
3. 能够在南京、北京或杭州实习

鼠鼠求职首页