26届校招-训练Infra工程师
北京
硕士及以上
计算机类·电子信息类
使用简历深度优化功能,快速提升简历质量
职位介绍
【职位描述】 1. 参与训练框架研发与优化:协助团队进行大规模分布式训练框架的设计、实现与维护,支持复杂AI模型(如大语言模型、多模态模型)的高效训练。 2. 性能调优与效率提升:在导师指导下,优化训练过程中的内存管理、计算资源调度和分布式通信效率,提升训练速度和资源利用率。 3. 集成与适配先进技术:学习并应用业界前沿的训练加速技术(offload、动态分布式并行/流水线排布),确保框架的先进性和竞争力。 4. 支持算法研发与交付:与算法工程师紧密配合,提高训练效率,降低研发成本,提升交付能力。 【职位要求】 1. 基础技能: - 熟练掌握 Python 和 C++ 编程语言,具备扎实的数据结构、算法和操作系统基础。 - 熟悉至少一种主流深度学习框架(如 PyTorch、TensorFlow),了解其基本实现原理和机制。 - 了解GPU编程(如 CUDA)或并行计算,有相关的课程项目或实验经验。 2. 专业知识: - 对 Transformer 架构及主流大模型(如GPT、Llama等)的训练特性有基本理解。 - 了解分布式训练的基本原理(如数据并行、模型并行、流水并行)和常见挑战。 3. 加分之项(满足以下任一即可): - 有分布式训练框架(如 DeepSpeed、Megatron-LM、PyTorch Lightning、FSDP等)的使用或初步研究经验。 - 了解大模型训练相关的优化技术,如混合精度训练、梯度 checkpoint、LoRA微调、量化感知训练等。 - 在相关领域的顶会或开源项目中有贡献或论文者优先。

