【27届快Star】AI Infra工程师
北京
硕士及以上
计算机类
使用简历深度优化功能,快速提升简历质量
职位介绍
职位描述
【团队介绍】作为大模型与搜推广业务的 AI 基础设施核心团队,业务支撑包括可灵 AI 视频/图像生成、内容推荐与商业化。覆盖 AI Infra 全栈:万卡级 GPU 调度(训推一体、多云联邦)、大模型数据引擎(Ray 万卡规模、DataLake 自研存储、DataFlow 编排)、搜推广样本/特征引擎、端到端 MLOps 与 AI-Agent 平台化探索。我们做的是业界没有现成答案的事——对标字节 MegaScale、Meta Llama 3、Databricks Mosaic、Anthropic Constitutional AI 的真实工程实践,配业界前沿的真实场景与资源支持。
1、负责分布式大语言模型 (LLM) 推理系统的底层基础设施研究与探索,包括 GPU 和 RDMA 等,提升 GPU 环境下的稳定性和计算效率;
2、负责大规模模型训练场景优化工作,通过建设全面的异常发现、故障自愈机制,提升平台训练 MFU,降低训练成本;
3、基于容器以及 Kubernetes 技术,负责对机器学习领域中的资源调度、模型训练、模型推理、数据管理等多个子方向的成本效率优化工作;
4、持续关注并跟进业界技术发展,比如超长上下文、思维链、多模态方向。

