返回简章2026-05-23 更新

智能体开发工程师

成都

硕士及以上

计算机类

使用简历深度优化功能，快速提升简历质量

职位介绍

【岗位职责】 1. 大模型选型与基础设施规划 · 负责业务场景需求分析，选型适配的开源大模型（如 Qwen、DeepSeek、Llama 等系列）。 · 根据预估的 QPS、Token 吞吐量、上下文长度，规划 GPU 服务器算力配置及显存方案（推理/训练）。 · 建立成本模型，对 Token 消耗进行量化预测与监控，持续优化 API 调用/本地部署的成本效率。 2. 模型微调与领域适配 · 利用 LoRA / Q-LoRA 等 PEFT 技术对开源基座模型进行指令微调（SFT）。 · 结合业务私有数据实施继续预训练（CPT）以增强模型垂直领域知识。 · 探索 DPO / PPO 等偏好对齐算法，优化模型输出风格与安全性。 3. 智能体应用开发与架构设计 · 设计并实现基于大模型的 AI Agent 架构，包括记忆管理、规划模块（ReAct / Plan-and-Solve）、多智能体协作链路。 · 开发复杂的工具调用系统，封装内部 API 供模型自主调用。 · 构建与维护 LLM Wiki（企业级大模型知识库），实现私有知识的向量化存储、索引更新及智能问答检索，保障智能体对内部文档、规章制度、业务规范的高效调用。 4. 工程化落地与性能优化 · 使用 vLLM / TensorRT-LLM / SGLang 搭建高并发推理服务。 · 负责 Java 后端服务架构（Spring Boot）与 Python 算法服务的端到端串联。 · 搭建模型训练与评估的 MLOps 流程。【任职要求】 1. 编程语言能力 · 必须精通 Python：熟练使用 PyTorch、Transformers、DeepSpeed 等框架。 · 必须熟悉 Java：理解 Spring 生态，能将模型能力封装为稳定的微服务供业务调用。 2. 大模型技术栈 · 深入理解 Transformer 架构及主流开源模型（Qwen/Llama/GLM）的异同。 · 有完整的微调实战经验，熟悉 DeepSpeed 单机多卡/多机多卡分布式训练配置。 · 熟悉 Prompt Engineering 及 Agent 设计模式（CoT, ReAct）。 3. 算力与成本意识 · 能独立完成 GPU 服务器配置单撰写（如 H20、L20、A100、消费级 4090 在不同精度下的选型依据）。 · 具备精确计算输入/输出 Token 费用或算力消耗的能力，能针对长上下文场景做显存优化。 4. 知识库建设能力 · 熟悉企业级知识库架构，有 LLM Wiki 或类似文档智能问答系统的搭建经验。 · 掌握向量数据库（如 Milvus、Qdrant、Chroma）的使用与优化，理解 Embedding 模型选型与索引策略。 5. 基础能力 · 计算机相关专业硕士研究生或博士研究生，3 年以上开发经验，至少1年大模型应用开发经验。 · 熟悉 Docker、K8s、Linux 环境下的服务部署与调优。【加分项】 · 有 LangChain / LangGraph / AutoGen / Dify 等框架的二次开发或源码贡献经验。 · 发表过 NLP / Multi-Agent 领域相关论文或拥有热门开源项目。 · 具备 CUDA 算子优化或 Triton Inference Server 部署经验。 · 活跃于AI开发者社群，能与导师、学长及产业界工程师保持交流，善于将前辈经验转化为研发效率与创新思路。

职位来源

四川蜀通信息科技有限公司

暂无公司数据

在招职位