logologo
寻找工作
2026-04-07 更新

阿里云(北京)科技有限公司

软件开发 · 民营企业 · 成立20年
简章详情

公司简介:

阿里云(北京)科技有限公司成立于2006-01-16,法定代表人为张翅,注册资本为4617.06万元,统一社会信用代码为911****5783951338G,企业注册地址位于北京市朝阳区望京东园四区9号楼12层1201号,所属行业为软件和信息技术服务业,经营范围包含:一般项目:软件开发;技术服务、技术开发、技术咨询、技术交流、技术转让、技术推广;信息系统集成服务;计算机软硬件及辅助设备批发;计算机软硬件及辅助设备零售;电子产品销售;版权代理;企业管理咨询;碳减排、碳转化、碳捕捉、碳封存技术研发;节能管理服务。(除依法须经批准的项目外,凭营业执照依法自主开展经营活动)许可项目:代理记账。(依法须经批准的项目,经相关部门批准后方可开展经营活动,具体经营项目以相关部门批准文件或许可证件为准)(不得从事国家和本市产业政策禁止和限制类项目的经营活动。)。企业当前经营状态为存续。

在招职位如下:

AI Infra工程师-容器方向

工作城市:北京
薪资:12k-24k
学历要求:本科,硕士,博士
岗位性质:实习
岗位描述:
## 岗位职责

你将成为大模型技术落地的“算力内核设计者”。你将深入 Kubernetes 生态,参与构建支撑超大规模 AI 集群的容器化基础设施,通过对调度、存储、网络等核心组件的深度定制与优化,打破大模型训练与推理的工程瓶颈。你的代码将直接优化 Agent 的冷启动速度,提升 GPU 集群的吞吐量与资源利用率,为 AI 时代的算力底座注入极致性能。

具体的职责包括以下相关方向的一项或多项:

1. AI 容器调度与编排优化:
- 深度优化 Kubernetes 调度器,实现面向 GPU 拓扑感知的算力分配,解决大规模分布式训练任务的资源碎裂问题。
- 设计并实现面向 AI Agent 的弹性调度策略,通过多级缓存、预加载等手段,实现分钟级到秒级的 Agent 快速拉起与自动伸缩。

2. AI 高性能存储与网络底座:
- 针对 AI 大规模 checkpoint 与数据读取场景,优化容器存储挂载性能,通过存储卸载与并行化技术,解决分布式训练中的 I/O 阻塞问题。
- 优化容器网络性能(如 RDMA/RoCE 深度集成),通过内核态路径优化,降低推理请求的网络传输延迟。

3. AI 工程平台架构设计与效率提升:
- 负责大型 AI 项目工程平台的架构设计与规划,通过构建标准化的云原生技术底座,确保复杂计算场景下的系统高可用性与可扩展性。
- 针对大规模 AI 任务执行过程中的痛点进行架构级优化,通过降低系统开销与资源冗余,显著提升系统运行效率。
- 定义面向 AI 场景的资源管控标准与作业管理规范,解决大规模并行任务下的资源争抢与隔离难题,确保高负载生产环境的稳定性。

4. AI 基础设施极致加速:
- 研发面向 AI 推理与 Agent 运行的轻量化容器运行时,实现计算资源的极致弹性与高密部署。
- 构建 AI 场景下的监控与调优平台,深度剖析容器化环境下的性能瓶颈,实现从底层硬件到应用层的全链路性能优化。
- 负责容器镜像基础服务设计与研发,针对 AI 业务特征及需求,深度优化产品架构及技术实现,为 AI 业务大规模使用等场景提供高效极致的产品能力。
- 设计研发基于AI的智能应用弹性及资源弹性产品能力,推动对AI应用场景的端到端弹性伸缩优化。
- 设计研发自主智能运维Agent,通过自动故障感知根因定位与自愈决策闭环,提升运维效率。

## 岗位要求

1. 毕业起止时间要求
2026-11-01 - 2027-10-31

2. 基础条件:
- 计算机、软件工程等相关专业优先。
- 热衷于数据结构和算法,在 ACM/ICPC 等竞赛中成绩优异者优先;有 K8s 或容器相关开源社区贡献(Kubernetes/KubeFlow/Volcano/OpenKruise等)或高性能存储/网络开发经验者加分。

3. 专业能力:
- 系统工程与编程能力: 具备扎实的 Linux 系统底层基础(熟悉网络栈、文件系统、进程管理等),熟练掌握 Go 语言(核心)、Java、Python 或 C++,具备复杂的分布式系统调试能力。
- 容器与编排生态: 对 Kubernetes 架构有深入理解,熟悉容器 Runtime(Docker/containerd/CRI)原理,有 K8s 自定义 Controller/Scheduler 开发经验者优先。
- AI 系统领域专业知识:
- 理解 AI 推理/训练的资源特征(如显存、带宽、通信模式)。
- 熟悉容器化环境下 AI /Agent任务的架构及部署链路,了解如何通过容器技术优化模型加载、Checkpoint 保存、Memory管理等环节。
- 对大规模分布式工程架构有一定理解,关注系统的高可用性、可观测性及研发效能的提升。

4. 能力特质:
- 极致的性能追求:乐于挑战“毫秒级”的延迟瓶颈,具备良好的性能分析工具(如 ebpf, perf, flamegraph 等)使用与系统调优能力。
- 工程化思维:具备良好的系统抽象与架构设计能力,能够将复杂的 AI 场景痛点转化为高可用、高可靠的系统工程方案。
- 跨域协同:具备良好的技术视野,能够与模型算法工程师高效沟通,理解算力对业务的支撑逻辑,从底层视角拆解并解决 AI 工程挑战。
- 极客精神:对 AI 大模型技术充满热情,渴望在分布式系统与大规模算力平台的交汇处实现技术突破。

5. 工作地点:

北京/杭州

构建AI Agent下一代调度与计算引擎-阿里星

工作城市:北京
薪资:12k-24k
学历要求:硕士,博士
岗位性质:实习
岗位描述:
## 岗位职责

1、构建既能实现极致性能(百毫秒唤醒)又能做到极致成本效益(资源利用率提升XX%)的 Agent 基础设施底座;
2、主导设计和实现融合了Agent Sandbox、容器与虚拟化的统一调度系统。

## 岗位要求

0、毕业起止时间要求:2026-11-01 - 2027-10-31
1、计算机科学或相关专业背景,具备深厚的操作系统、分布式系统理论基础;
2、精通Go/C++/Rust中至少一种,具备大型、复杂底层系统或分布式调度系统的设计与开发经验;
3、熟悉Kubernetes架构,特别是其调度器(kube-scheduler)和资源管理机制;有二次开发或重度使用经验者优先;
4、深入理解Linux内核机制(如cgroups、namespaces、内存管理、内核调度)或虚拟化技术(KVM, QEMU);
5、对解决复杂系统中的性能瓶颈与稳定性问题充满热情,并具备体系化的方法论;
6、有强烈技术热情和好奇心,自驱力和学习力强;具备良好的分析与解决问题的能力、沟通以及团队合作能力;喜欢挑战性的技术研发工作,善于攻坚克难,有创新热情,积极乐观,坚韧抗压,结果导向,能够持续推动问题的解决和突破。

加分项 :
1、有分布式系统调度算法(如Borg、Omega、Mesos)的设计或研究经验;
2、有eBPF、CRIU、gVisor、Kata Containers等云原生前沿技术的实践经验;
3、有Hypervisor(KVM/Xen)开发或性能优化经验;
4、在Linux Kernel、Kubernetes、Docker等顶级开源社区有活跃贡献;
5、掌握AI基础知识,掌握基础提示词工程,会使用Al专业工具,集成AI到个人工作流;有AI相关开发工具应用研发经验者优先,持有阿里云ACA/ACP/ACE认证证书者优先。

## 工作地点

北京/杭州

【容器云计算+AI Infra 暑期实习热招中,HC多多,感兴趣欢迎联系】

鼠鼠求职首页