logologo
寻找工作
返回简章2026-05-18 更新

智算交维工程师(社招)

合肥
本科及以上
计算机类·电子信息类
使用简历深度优化功能,快速提升简历质量
职位介绍
任职要求 一、学历要求 普通高等院校本科及以上学历,并具有相应学位 二、专业要求 计算机类、电子信息类相关专业 三、专业技能1.具备***数据中心或智算/超算中心交付与运维经验,具备大规模(千卡级)GPU集群实际交付经验。 2.算力与硬件:熟悉 NVIDIA A/H/L系列及国产 GPU(海光 DCU、寒武纪 MLU、壁仞 BR、沐曦 C500 等)驱动安装、环境配置与基础调优(CUDA/ROCm)。3.系统与平台:精通Linux、国产操作系统系统运维,掌握Docker/Kubernetes容器化技术,熟悉虚拟化(如VMware)及分布式存储。熟悉Shell/Python/Go脚本自动化,使用PXE/Redfish/IPMI 批量部署。 4.存储架构与运维:精通分布式/并行存储系统(如Ceph, Lustre, GPFS, NFS,HDFS,S3/Swift对象存储)的规划、部署、配置、监控、性能调优(含NVMe-oF)、高可用设计及日常运维管理;熟悉块存储、文件存储、对象存储的核心协议及操作;具备大规模存储集群容量规划、数据保护及迁移方案设计与实施能力; 能针对存储运维需求进行脚本开发,实现自动化操作。5.网络与通信:熟悉数据中心网络拓扑设计;熟练掌握IB/RoCEv2网络规划、部署与基础调优;熟悉NCCL/MPI通信优化;有NVIDIA/Mellanox交换机配置经验者优先。6.工具与自动化:熟练掌握Ansible等自动化配置工具;精通Prometheus+Grafana、Zabbix/Nagios等监控告警系统的部署与应用。???7.集群管理: 具备Kubernetes (Kubeflow)、Slurm等集群调度平台及NVIDIA GPU Operator的部署和运维经验。8.文档能力: 能够独立编写清晰、准确、实用的技术文档(SOP、交付手册、故障报告)。 9.认证优先:持有RHCE、CKA、HCIE(Datacom/CloudComputing)、CCIE(DC)、CISP、或存储/云计算相关认证(如PureStorage, DDN, 云厂商存储专项),或国产GPU调优经验者优先。四、综合素质要求: 1. 具有较强进取心、开拓意识,良好的沟通能力和较强的团队协作意识 岗位职责 一、负责硬件上架、系统/容器/AI 软件部署和 GPU调优,确保算力项目按期验收。 二、对 GPU 单卡与集群算力、IB/RoCE 网络、并行存储进行基准测试并出具验收报告。 三、实时跟踪GPU、网络、存储关键指标,保障集群可用性,建立并执行故障响应流程,快速定位并恢复服务,沉淀运维知识库。四、负责不同存储系统的端到端管理,包括需求分析、方案设计(如混合存储架构规划)、集群部署(如千卡级GPU算力配套存储)、性能优化(如NVMe-oF协议调优)及全生命周期运维,保障数据可靠性与系统稳定性,支撑AI/智算业务的高效运行五、为产品测提供资源调度等调优支持,提升模型训练效率。 六、输出部署手册、运维指南、故障 SOP,确保团队标准化作业。