返回简章2026-02-25 更新

AI运维工程师（GPU/大模型方向）

成都

本科及以上

不限专业

使用简历深度优化功能，快速提升简历质量

职位介绍

岗位职责 1. 负责AI基础设施运维：GPU服务器集群（NVIDIA P100/V100/A10）的部署、GPU驱动（CUDA/CuDNN）安装与验证，监控GPU资源使用率（显存/算力）并优化调度； 2. 维护大模型平台：部署、维护大模型训练/推理平台（阿里云PAI、自定义Stable Diffusion/GPT-4o推理服务），解决平台稳定性问题（如训练任务中断、推理延迟高）； 3. 管理AI容器与网络：基于Kubernetes部署AI应用，配置RDMA高性能网络（优化大模型分布式训练效率），使用Kubeflow搭建AI工作流（数据处理→模型训练→部署）； 4. 保障AI业务高可用：制定AI平台容灾策略（模型版本备份、训练数据冗余存储），参与故障应急（如GPU节点宕机、模型服务异常），编写应急预案与复盘报告； 5. 推动AI运维智能化：结合MLOps/AIOps理念，使用MLflow管理模型版本，通过Prometheus+Grafana监控模型指标（准确率/响应时间），实现模型迭代与服务升级的自动化。任职要求统招本科及以上，计算机/人工智能/电子工程相关专业（硕士优先，大模型研究方向加分）；有GPU集群或AI平台运维经验；能适应7*24小时Oncall（大模型训练/推理任务保障），接受项目期加班。对AI技术有强烈兴趣，能主动跟进大模型运维前沿技术（如AI Agent运维、大模型故障诊断）；抗压能力强，能在大模型项目上线、大促等关键节点保障平台稳定；团队协作能力佳，可配合算法工程师解决模型部署、训练效率问题。加分项：有大规模AI推理集群（千卡级）维护经验，或大模型（GPT/Stable Diffusion）私有化部署经验；加分项：熟悉MLOps工具链（DVC数据版本管理、Weights & Biases实验跟踪）；

职位来源

武汉方阵信息技术有限公司

民营企业 · IT技术服务 · 成立7年

在招职位