【基座模型】大模型推理加速工程师(A35647)
上海
本科及以上
电子信息类·计算机类
使用简历深度优化功能,快速提升简历质量
职位介绍
职位描述:
1. 针对线上服务场景,深入优化大模型车端和云端推理系统性能,包括推理调度、runtime 开销优化、内显存占用优化等,解决系统高并发、高可靠性、高可扩展性等技术难关;
2. 与算法、算子深入合作,算法到部署上线全流程一体化。
职位要求:
1. 熟练掌握大模型推理加速方法,熟悉 MoE 模型结构,有 PagedAttention、Continuous Batching 、Speculative Decoding、EP/DP/PP等优化经验,了解低比特量化、剪枝等加速技术优先;
2. 熟悉 vLLM、SGlang、TRT-LLM、 FasterTransformer 等推理引擎
理解 GPU 结构,NCCL/通信栈与并行模型等,具备多 GPU/多节点部署能力;
3. 熟悉 C++/C/Python, 熟悉 CUDA、有算子优化经验优先。

