logologo
寻找工作
返回简章2025-10-25 更新

大语言模型架构实习生

北京
硕士及以上
计算机类·电子信息类
使用简历深度优化功能,快速提升简历质量
职位介绍
职位描述: 1. 深度参与前沿大模型(LLM)的架构设计与迭代,重点攻关Attention机制(如MLA, Linear Attention, VQ)、MoE等SOTA结构的性能与效率瓶颈,推动模型在上下文长度与参数规模上实现突破。 2. 主导模型优化器与训练策略的研究,深入分析优化动力学,探索二阶优化(如Hessian-free)的可行性,并应用Maximal Update Parametrization (muP)等技术指导模型稳定、高效地Scaling。 3. 与Infra团队紧密合作,共同设计和优化训练框架,将前沿算法思想高效映射到大规模GPU集群上,提升训练稳定性与资源利用率。 职位要求: 1. 985/211/海外知名高校硕士及以上学历,计算机、人工智能、数学等相关专业。 2. 在大模型领域有丰富的实战经验,熟悉Transformer,并在以下至少一个方向有深入实践:模型结构创新、训练优化器、大规模训练(Scaling)或推理优化。 3. 编程能力卓越,精通PyTorch/JAX等框架,有丰富的深度学习模型训练及调优经验。 4. 加分项(有以下经验者优先): - 熟悉Triton、CUDA,有高性能计算或算子优化经验。 - 熟悉优化器/LLM Scaling原理。 - 在ICLR、NeurIPS、ICML等ML/NLP顶会上发表过相关论文。 - 有ACM/IOI/NOI等算法竞赛获奖经历。 5. 具备强烈的技术热情和owner意识,善于沟通协作,能独立承担复杂挑战。