返回简章2026-04-16 更新

【基座模型】大模型推理加速工程师(A35647)

上海

本科及以上

电子信息类·计算机类

使用简历深度优化功能，快速提升简历质量

职位介绍

职位描述： 1. 针对线上服务场景，深入优化大模型车端和云端推理系统性能，包括推理调度、runtime 开销优化、内显存占用优化等，解决系统高并发、高可靠性、高可扩展性等技术难关； 2. 与算法、算子深入合作，算法到部署上线全流程一体化。职位要求： 1. 熟练掌握大模型推理加速方法，熟悉 MoE 模型结构，有 PagedAttention、Continuous Batching 、Speculative Decoding、EP/DP/PP等优化经验，了解低比特量化、剪枝等加速技术优先； 2. 熟悉 vLLM、SGlang、TRT-LLM、 FasterTransformer 等推理引擎理解 GPU 结构，NCCL/通信栈与并行模型等，具备多 GPU/多节点部署能力； 3. 熟悉 C++/C/Python, 熟悉 CUDA、有算子优化经验优先。

职位来源

北京罗克维尔斯科技有限公司

民营企业 · 商业服务 · 成立8年

在招职位