返回简章2025-10-25 更新

大语言模型架构实习生

北京

硕士及以上

计算机类·电子信息类

使用简历深度优化功能，快速提升简历质量

职位介绍

职位描述: 1. 深度参与前沿大模型（LLM）的架构设计与迭代，重点攻关Attention机制（如MLA, Linear Attention, VQ）、MoE等SOTA结构的性能与效率瓶颈，推动模型在上下文长度与参数规模上实现突破。 2. 主导模型优化器与训练策略的研究，深入分析优化动力学，探索二阶优化（如Hessian-free）的可行性，并应用Maximal Update Parametrization (muP)等技术指导模型稳定、高效地Scaling。 3. 与Infra团队紧密合作，共同设计和优化训练框架，将前沿算法思想高效映射到大规模GPU集群上，提升训练稳定性与资源利用率。职位要求: 1. 985/211/海外知名高校硕士及以上学历，计算机、人工智能、数学等相关专业。 2. 在大模型领域有丰富的实战经验，熟悉Transformer，并在以下至少一个方向有深入实践：模型结构创新、训练优化器、大规模训练（Scaling）或推理优化。 3. 编程能力卓越，精通PyTorch/JAX等框架，有丰富的深度学习模型训练及调优经验。 4. 加分项（有以下经验者优先）： - 熟悉Triton、CUDA，有高性能计算或算子优化经验。 - 熟悉优化器/LLM Scaling原理。 - 在ICLR、NeurIPS、ICML等ML/NLP顶会上发表过相关论文。 - 有ACM/IOI/NOI等算法竞赛获奖经历。 5. 具备强烈的技术热情和owner意识，善于沟通协作，能独立承担复杂挑战。

职位来源

北京月之暗面科技有限公司

民营企业 · 人工智能软件 · 成立3年

在招职位