logologo
寻找工作
返回简章2026-02-25 更新

AI运维工程师(GPU/大模型方向)

成都
本科及以上
不限专业
使用简历深度优化功能,快速提升简历质量
职位介绍
岗位职责 1. 负责AI基础设施运维:GPU服务器集群(NVIDIA P100/V100/A10)的部署、GPU驱动(CUDA/CuDNN)安装与验证,监控GPU资源使用率(显存/算力)并优化调度; 2. 维护大模型平台:部署、维护大模型训练/推理平台(阿里云PAI、自定义Stable Diffusion/GPT-4o推理服务),解决平台稳定性问题(如训练任务中断、推理延迟高); 3. 管理AI容器与网络:基于Kubernetes部署AI应用,配置RDMA高性能网络(优化大模型分布式训练效率),使用Kubeflow搭建AI工作流(数据处理→模型训练→部署); 4. 保障AI业务高可用:制定AI平台容灾策略(模型版本备份、训练数据冗余存储),参与故障应急(如GPU节点宕机、模型服务异常),编写应急预案与复盘报告; 5. 推动AI运维智能化:结合MLOps/AIOps理念,使用MLflow管理模型版本,通过Prometheus+Grafana监控模型指标(准确率/响应时间),实现模型迭代与服务升级的自动化。 任职要求 统招本科及以上,计算机/人工智能/电子工程相关专业(硕士优先,大模型研究方向加分);有GPU集群或AI平台运维经验; 能适应7*24小时Oncall(大模型训练/推理任务保障),接受项目期加班。 对AI技术有强烈兴趣,能主动跟进大模型运维前沿技术(如AI Agent运维、大模型故障诊断); 抗压能力强,能在大模型项目上线、大促等关键节点保障平台稳定; 团队协作能力佳,可配合算法工程师解决模型部署、训练效率问题。 加分项:有大规模AI推理集群(千卡级)维护经验,或大模型(GPT/Stable Diffusion)私有化部署经验; 加分项:熟悉MLOps工具链(DVC数据版本管理、Weights & Biases实验跟踪);