AI大模型训推系统研究员
上海
本科及以上
不限专业
使用简历深度优化功能,快速提升简历质量
职位介绍
岗位职责 面向AI大模型业务场景,实现自研AI分布式系统在大模型领域训练推理加速、强化学习、模型轻量化、模型结构与性能优化等核心技术的突破,岗位职责包括但不限于:
1、面向华为AI大模型和业内主流商业大模型,配合导师一起完成大模型训练框架、推理框架、强化学习框架等基础软件能力的开发与构建;
2、配合导师一起实现大模型在分布式系统上的快速部署,降低大模型推理的成本与时延,解决超大规模、长序列、多模态等模型特征与分布式集群、多级互联、特定硬件架构等计算平台特征的最优匹配问题;
3、面向千卡以上集群构建高性能的强化学习框架,配合导师一起通过训推并行调度等措施优化端到端的强化学习训练效率 岗位要求
1、计算机、数学、人工智能、自动化、软件等相关专业
2、熟悉Linux系统,至少精通C++/C/Python/Golang中的一种语言。
3、熟悉数据结构和常用算法的设计和开发,熟悉计算机体系结构 实习后将收获:
1、大型系统软件设计和开发经验;
2、数据结构和常用算法的设计和开发经验,计算机体系结构经验;
3、DeepSeek、Qwen、LLaMA、Bloom等业界开源大模型,算法开发和应用经验;
4、DeepSpeed、Megatron、vLLM、Ray、TensorRT-LLM、FasterTransformer等分布式训练推理框架经验;
7、并行计算算法、并行编程,具有分布式系统和分布式并行计算相关经验。

