多模态(VLM)视觉语言工程师
济南
硕士及以上
自动化类·计算机类
使用简历深度优化功能,快速提升简历质量
职位介绍
岗位职责:
1. 负责交通、能源、低空等场景视觉-语言多模态感知能力的研发与落地,完成卡口监控图片/视频流的事件识别、场景理解、目标检测、异常行为分析等核心功能开发,覆盖交通、能源设施、低空飞行器等典型对象;
2. 负责 VLM 视觉语言大模型在交通、能源、低空等场景的适配、微调、推理优化,提升各领域事件与场景的识别准确率与响应速度;
3. 负责实现多模态输入与智能体全链路功能的联动触发,基于监控画面的交通拥堵/事故、能源设备异常、低空违规飞行等事件,自动启动智能体对应处置流程;
4. 负责多模态能力的联调测试、效果验证与迭代优化,解决复杂环境、恶劣天气等场景下的识别漏检、误检等核心问题;
5. 配合上下游团队完成多模态能力与 Skills 流程、大模型的联调对接,输出标准化技术文档与部署手册。
任职要求:
1. 精通 VLM 视觉语言大模型原理与工程化落地,熟练掌握主流开源 VLM 模型的适配、微调与推理优化;
2. 熟练掌握计算机视觉相关技术,包括目标检测、图像分类、场景理解、视频分析等核心算法;
3. 熟练使用 Python 开发语言,熟悉 PyTorch/TensorFlow 等深度学习框架,具备模型工程化部署与性能优化能力;
4. 具备较强的业务场景落地能力,能够针对交通垂直场景定制化优化模型效果

