【2026校招】大模型推理算法工程师
北京
硕士及以上
计算机类·电子信息类
使用简历深度优化功能,快速提升简历质量
职位介绍
角色和团队介绍: 作为大模型推理算法工程师(应届生),你将直接参与核心技术的研发,让百亿、千亿参数的大模型变得更快、更便宜、更易用。
你将在一对一的导师指导下,学习并应用最前沿的推理算法优化技术,解决真实世界中的复杂工程问题,在这里,你将有机会深入vLLM内核,解决最极致的性能、吞吐与稳定性挑战。
你的工作将直接推动大模型及其相关技术的发展,影响亿万用户的大模型体验。
你的代码将服务于公司核心产品并且直接影响亿万用户的产品体验。
岗位职责和内容:
1、模型推理与部署 l 负责基于vLLM部署和优化各类主流及前沿的大语言模型支持将各类开源和自研的大语言模型 l 研究和落地Attention、并行等核心推理技术,显著提升服务吞吐量并降低延迟 l 设计和实现高可用、高扩展性的大模型推理服务架构,满足生产级应用的需求
2、性能极致优化 l 深入研究并集成最新的性能优化算法与技术,将其应用于生产环境,实现性能突破 l 针对特定硬件平台,进行深度的算子优化和内核开发,最大化硬件计算效率 l 利用自研Profiler等性能分析工具,进行全链路瓶颈分析,定位并解决性能热点问题
3、工具链与自动化 l 开发和维护模型量化、模型压缩、等编译加速工具链
4、技术研究与前瞻 l 紧密跟踪学术界与工业界在LLM推理优化领域的最新进展,进行技术调研、原型验证和可行性评估 l 将验证成功的SOTA技术快速集成到现有平台,保持技术栈的先进性和竞争力 岗位要求:
1、学历专业:2026届应届硕士或博士毕业生,计算机、人工智能、电子工程等相关专业。
2、vLLM浓厚兴趣与初步实践: l 对vLLM的核心原理(PagedAttention, KV Cache管理, Continuous Batching)有深刻理解,并能清晰阐述其优势与 trade-offs。
l 有实际使用或测试vLLM的经验(课程设计、科研项目、实习、个人项目均可)。
3、强大的工程实现能力: l 熟练掌握Python,具备扎实的编程基础和良好的代码风格。
l 具备C++/CUDA能力者优先,这是我们深度优化的关键。
4、扎实的理论根基: l 深入理解Transformer架构及自注意力机制的计算与内存复杂度。
l 熟悉计算机系统结构、操作系统、并行计算等基础知识。
* 加分项: l 源码级贡献:阅读过vLLM、FlashAttention或相关项目(如trt-llm, lm-deploy)的源代码,并对其关键模块有清晰认识,甚至有过提交Issue或Pull Request的经历。
l 量化部署经验:亲手实践过LLM的量化(如GPTQ, AWQ)、剪枝或蒸馏技术,并成功部署。
l 开源贡献:在GitHub上有过优秀的个人项目,或为vLLM及其他AI开源项目(如HF Transformers, FlashAttention)提交过Issue甚至Pull Request。
l 系统级思维:在课程项目或研究中,设计并实现过具有挑战性的系统级项目。
l 论文发表:在MLSys、ASPLOS、OSDI等系统与机器学习交叉的顶会上发表过论文。
个人特质 l 极强的技术好奇心与钻研精神:不满足于黑盒调用,渴望理解技术背后的“为什么”。
l 动手能力极强:乐于动手实验,用代码和数据来验证自己的想法。
l 系统思维:能够从系统(模型、算法、硬件)的角度全局性地思考性能问题。
l 良好的沟通能力:能够清晰地向他人解释复杂的技术问题。
地点:北京

