logologo
寻找工作
返回简章2025-10-29 更新

AI工程师 (Model Ops)(J12375)

上海
硕士及以上
自动化类·计算机类
使用简历深度优化功能,快速提升简历质量
职位介绍
我们能提供 1.深度参与企业级 AI 模型运维体系建设,了解模型从训练到上线的全流程。 2.体验 AI + 运维 + 安全 的交叉领域,学习如何让大模型系统稳定、安全、高效地运行。 3.在一对一导师指导下,参与真实业务场景中的模型部署、监控与自动化项目。 4.接触业界先进的 Model Ops、AIOps、MLOps 技术栈与工具链。 5.鼓励创新与探索,参与内部 AI 运维自动化工具的研发与推广。 6.全链路式培养:你将进入“AI工程集训营”,用两周时间沉浸式掌握公司核心技术栈与开发规范等。随后开启为期5个月的跨岗轮训,深度参与从数据平台、模型训练、部署上线到产品集成与模型评测的全流程实战,系统化塑造AI全栈开发能力。 你将有机会参与: 1.参与 AI 模型运维体系建设:协助搭建与维护模型部署、监控与版本管理系统,确保 LLM / Embedding / RAG 模型在生产环境中的稳定运行与可观测性。 2.支持模型上线与自动化流程:基于 GitLab CI/CD、Docker、Kubernetes 等工具,实现模型与 Agent 服务的自动化部署、滚动更新与回滚策略。 3.参与 AI 平台的性能与安全优化:协助监控 GPU/CPU 资源使用情况、请求延迟、吞吐量等关键指标,识别潜在性能瓶颈,并协助制定安全访问与权限策略。 4.维护 AI 系统的数据与模型资产管理:协助构建模型注册(Model Registry)和版本追踪体系,实现模型训练、评估、部署的全生命周期管理。 5.建设 AI 运维工具链与自动化脚本:使用 Python 或 Shell 开发自动化任务(如日志采集、性能分析、告警通知、健康检查),提升系统运维效率。 6.参与内部 AI 工程效能提升项目:探索利用 AI Agent 工具(如 CrewAI、LangGraph、AutoGen 等)辅助运维自动化、安全巡检与服务异常诊断。 我们对你的期待: 1.熟悉一种主流编程语言(Python 优先,亦可使用 Go / Java script / Bash)。 2.具备基础系统运维知识(Linux 命令、网络、API 调用、日志分析)。 3.理解云计算或容器化技术(如 Docker、K8s等)。 4.对 AI 模型部署、AIOps 或 MLOps 有兴趣,并愿意在该方向持续学习成长。 5.具备良好的分析能力与责任意识,乐于协作与知识分享。 加分项 1.有 AI 模型部署、监控、或性能优化项目经验。 2.使用过云平台(如 AWS、阿里云、GCP、Azure)进行模型或服务部署。 3.了解 MLflow、LangFuse 等模型管理与监控工具。 4.对 AI 工具(Cursor、Kiro、Copilot、Claude Code 等)有使用经验,能通过 AI 提升工程效率。 5.有开源贡献、博客技术分享或校园科研项目经历者优先。 6.具备强烈的探索欲和动手能力,对新技术保持好奇心,能快速理解并尝试解决实际问题。 7.具备出色的学习能力与知识迁移能力,能够快速掌握一个行业或系统的 know-how,并将 AI 技术应用于场景创新。 8.具备良好的沟通与协作能力,能与业务、工程、运维、安全等团队高效对齐需求与方案,快速Demo并推进落地。