AIGC推理系统开发工程师
北京
本科及以上
计算机类·电子信息类
使用简历深度优化功能,快速提升简历质量
职位介绍
职位描述
1、推理引擎开发与优化: 参与 Diffusion 模型推理引擎的核心模块开发,学习并实践 CUDA 编程、算子优化与内存管理。协助将最新的学术优化手段(如 Flash Attention、Fused Kernels)落地到生产环境,提升模型推理速度;
2、模型压缩与加速:调研并实践模型压缩技术,包括量化、蒸馏和剪枝。参与将 FP16/BF16 模型转换为 INT8/FP8 格式,并在保证生成质量的前提下优化推理延迟;
3、网关与服务化系统建设:参与 AIGC 网关系统的后端开发,设计高并发、低延迟的请求调度逻辑。协助构建模型服务化接口,解决大规模推理请求下的队列管理与资源调度问题。
任职要求
1、计算机科学、人工智能、数学或相关专业本科及以上学历;
2、具备扎实的计算机基础知识,熟练掌握数据结构、算法、操作系统及计算机网络原理;
3、熟练使用 Python 或 C++ 编程,代码风格良好,具备较强的 Debug 能力;
4、熟悉 PyTorch 等深度学习框架,理解计算图、反向传播等基本原理;
5、了解 Diffusion 模型(如 DDPM, Stable Diffusion, DiT 架构)的基本原理者优先。
1、推理引擎开发与优化: 参与 Diffusion 模型推理引擎的核心模块开发,学习并实践 CUDA 编程、算子优化与内存管理。协助将最新的学术优化手段(如 Flash Attention、Fused Kernels)落地到生产环境,提升模型推理速度;
2、模型压缩与加速:调研并实践模型压缩技术,包括量化、蒸馏和剪枝。参与将 FP16/BF16 模型转换为 INT8/FP8 格式,并在保证生成质量的前提下优化推理延迟;
3、网关与服务化系统建设:参与 AIGC 网关系统的后端开发,设计高并发、低延迟的请求调度逻辑。协助构建模型服务化接口,解决大规模推理请求下的队列管理与资源调度问题。
任职要求
1、计算机科学、人工智能、数学或相关专业本科及以上学历;
2、具备扎实的计算机基础知识,熟练掌握数据结构、算法、操作系统及计算机网络原理;
3、熟练使用 Python 或 C++ 编程,代码风格良好,具备较强的 Debug 能力;
4、熟悉 PyTorch 等深度学习框架,理解计算图、反向传播等基本原理;
5、了解 Diffusion 模型(如 DDPM, Stable Diffusion, DiT 架构)的基本原理者优先。


