【26届校招】大模型平台 & Infra工程师
深圳·北京·上海
本科及以上
计算机类·电子信息类
使用简历深度优化功能,快速提升简历质量
职位介绍
招聘部门:互联网 / 电子 / 网游
【岗位职责】
负责大模型训练、推理和评测的基础设施研发,为算法团队提供高效稳定的工程底座。
1、训练系统:设计和优化大规模分布式训练架构(Pretrain/SFT/RL),解决千卡级训练的通信、调度、容错问题;
2、推理部署:基于 vLLM 等框架优化大模型推理性能,支撑 VLT/Omni 等模型在 XP5 端侧和云端的部署;
3、评测平台:开发 DeepInsight 评测系统,支持 LLM/VLM/WBC/VLA 多类模型的自动化评测、报告生成和 CI/CD 集成;
4、MLOps 工具链:构建模型版本管理、实验追踪、数据管理、资源调度等基础设施,提升研发效率;
5、RL 训练环境:构建分布式强化学习训练系统,支持 Agent-环境大规模并行交互。
【任职要求】
1、本科及以上学历,计算机、软件工程等相关专业;
2、 精通 Python,熟练掌握 C++/Go 至少一门;
3、在以下至少一个方向有相关经验:
- 分布式训练系统(Megatron-LM/DeepSpeed/FSDP);
- GPU 编程与高性能计算(CUDA/NCCL/RDMA);
- ML 平台开发(Kubernetes/Ray/Airflow);
- 模型推理优化(TensorRT/vLLM/量化部署);
4、理解大模型训练和 RL 训练的基本流程。
【加分项】
- 有千卡级分布式训练系统的设计和运维经验;
- 熟悉 PyTorch 框架内部实现;
- 有 LLM/VLM 推理优化的实战经验;
- 有机器人系统或具身智能平台的开发经验。

