logologo
寻找工作
返回简章2026-01-29 更新

【日常实习】3D大模型训练优化工程师

上海
硕士及以上
计算机类·电子信息类
使用简历深度优化功能,快速提升简历质量
职位介绍
工作职责 1、支撑团队不同大模型任务下的训练及推理优化,包括但不限于:架构设计、检查点优化、训练容错恢复、底层算子优化及通信优化等; 2、研究和优化大规模异构加速集群调度、存储、通信互联、监控、Profiling等组件,提升整体硬件利用效率; 3、针对具体任务调研并进行对应的 Scale Up 实验及优化,包括但不限于并行化策略优化、ZeRO/FSDP 优化、FP 8、激活值优化等,加速模型训练,优化显存开销; 任职要求 1、硕士及以上学历,具有扎实的计算机基础,熟悉操作系统和计算机体系结构等,熟练掌握 C++/Python,对数据结构与算法设计有较深刻的理解; 2、熟悉至少一种主流的深度学习框架(如 PyTorch)和至少一种主流的训练框架(如 Megatron/Deepspeed/FSDP); 3、熟练掌握 CUDA 相关编程,有内核级优化经验者优先; 4、了解大模型训练基本范式,熟悉 Transformer 架构及其优化方法(如 FlashAttention、GQA/MLA 等)者优先; 5、责任心强,思路清晰,技术视野开阔,对业界新技术敏感,喜欢钻研,具有良好的学习能力并注重团队合作; 加分项 1、有大规模大模型训练和推理优化经验者优先; 2、熟悉cutlass 3、0和hopper架构,有算子优化经验者优先; 3、了解 Kubernetes 以及分布式存储,有相关开发经验者优先; 4、有大型互联网系统(如搜索、推荐、广告)开发经验者优先; 5、有发表 OSDI/MLSys 等顶会论文,或 ACM/ICPC 等编程比赛获奖经历者优先;