【日常实习】3D大模型训练优化工程师
上海
硕士及以上
计算机类·电子信息类
使用简历深度优化功能,快速提升简历质量
职位介绍
工作职责
1、支撑团队不同大模型任务下的训练及推理优化,包括但不限于:架构设计、检查点优化、训练容错恢复、底层算子优化及通信优化等;
2、研究和优化大规模异构加速集群调度、存储、通信互联、监控、Profiling等组件,提升整体硬件利用效率;
3、针对具体任务调研并进行对应的 Scale Up 实验及优化,包括但不限于并行化策略优化、ZeRO/FSDP 优化、FP
8、激活值优化等,加速模型训练,优化显存开销;
任职要求
1、硕士及以上学历,具有扎实的计算机基础,熟悉操作系统和计算机体系结构等,熟练掌握 C++/Python,对数据结构与算法设计有较深刻的理解;
2、熟悉至少一种主流的深度学习框架(如 PyTorch)和至少一种主流的训练框架(如 Megatron/Deepspeed/FSDP);
3、熟练掌握 CUDA 相关编程,有内核级优化经验者优先;
4、了解大模型训练基本范式,熟悉 Transformer 架构及其优化方法(如 FlashAttention、GQA/MLA 等)者优先;
5、责任心强,思路清晰,技术视野开阔,对业界新技术敏感,喜欢钻研,具有良好的学习能力并注重团队合作;
加分项
1、有大规模大模型训练和推理优化经验者优先;
2、熟悉cutlass
3、0和hopper架构,有算子优化经验者优先;
3、了解 Kubernetes 以及分布式存储,有相关开发经验者优先;
4、有大型互联网系统(如搜索、推荐、广告)开发经验者优先;
5、有发表 OSDI/MLSys 等顶会论文,或 ACM/ICPC 等编程比赛获奖经历者优先;

