大模型推理系统工程师
北京
硕士及以上
自动化类·计算机类
使用简历深度优化功能,快速提升简历质量
职位介绍
团队介绍:
基座大模型AI Infra团队,以支撑前沿基础模型持续演进为目标,面向大模型研发与生产全链路,构建高性能、高稳定性、可持续扩展的AI基础设施体系。围绕高效率实验平台、大规模训练生产能力,以及模型结构与芯片架构协同优化, 沉淀软硬一体、训推贯通的关键基础能力,提升模型迭代效率、训练资源利用率与系统上限。
岗位职责:
1)投机推理(Speculative Decoding),研究基于预测性执行的动态推理优化方法,参与设计低延迟推理框架,通过概率模型预生成候选序列以降低解码计算开销。
2)分布式系统优化,探索多节点协同推理中的通信-计算负载均衡策略,提出基于异构硬件的混合并行调度方案,实现吞吐量提升。
3)稀疏Transformer优化与模型压缩,通过稀疏Transformer优化以及模型压缩技术提升模型的计算效率。
4)算子优化,熟悉最新硬件架构的算子优化方法,通过更高效的算子优化模型的吞吐和延时。
任职要求:
1.熟悉PyTorch等深度学习框架。
2.熟悉sglang、vLLM、trt-llm、FasterTransformer等开源框架。
3.能够熟练掌握Python、C++、CUDA等开发语言中的一种。
4.有比较强的数据结构、算法和统计分析、数学建模的能力。
加分项:
1.有大厂相关实习经历;
2.有优秀的科研成果。

