AI Infra工程师
深圳
本科及以上
不限专业
使用简历深度优化功能,快速提升简历质量
职位介绍
岗位职责:
1.基于昇腾芯片和GPU芯片,研发AI 模型训练框架和RL训练框架,利用分布式训练、低精度训练等,提升训练稳定性和MFU,从而提升训练效率;
2.强化学习训练系统研发:研究端到端/大模型online/offline RL系统,在动态负载、复杂RLinf,Agent-环境交互场景下提升训练性能与稳定性;
3.探索业界领先的AI大模型压缩技术:低bit量化技术,KV Cache低bit技术,MoE/MOH等架构优化,视觉token压缩技术等,实现在端侧有限算力平台上实时运行XX B 的AI 模型;
4.基于自研端侧推理芯片,通过高性能算子优化、算子融合、通算融合等技术提升整网性能,实现端侧AI大模型实时推理,发挥模型-芯片垂直整合的独特优势。
任职要求:
1.熟悉C++/CUDA/CANN编程,掌握ONNX、TensorRT模型导出与优化流程;
2.有VLA/LLM/VLM/VGGT模型(如BLIP-2、GPT-4V)推理加速经验,熟悉Attention优化技术(FlashAttention);
3.了解模型训推服务化框架(vLLM、SGLang、VeRL/Swift、Megatron),有端侧部署(手机/边缘设备)经验者加分;
4.熟悉GPU或者NPU硬件架构,熟悉SIMD编程体系架构,有昇腾算子开发优化经验者尤佳;
5.具有系统性分析模型性能瓶颈的能力。

