返回简章2026-03-10 更新

多模态算法工程师

上海

本科及以上

计算机类·电子信息类

使用简历深度优化功能，快速提升简历质量

职位介绍

岗位职责： 1. 参与多模态算法研究工作，重点围绕图像、视频与文本的表征学习、跨模态对齐等方向开展实践，辅助完成算法设计与优化。 2. 负责多模态数据处理相关工作，包括数据采集、清洗、标注、结构化整理，以及训练数据体系的搭建，支撑模型训练需求。 3. 研究并复现主流多模态预训练模型（如CLIP、BLIP、LLaVA、Qwen-VL等），并结合业务场景进行模型蒸馏、轻量化或对齐优化。 4. 辅助完成模型训练、调试与评测，分析实验结果，优化模型性能指标，解决模型落地过程中的技术问题。 5. 跟踪多模态领域前沿学术进展，整理技术调研文档，推动前沿技术在业务场景中的落地尝试。 6. 推进多模态模型在实际业务中的落地应用，验证模型效果并持续迭代优化。 7. 辅助完成算法相关文档撰写，包括实验报告、技术总结、模型说明文档等。任职要求：专业背景本科及以上学历，研究生优先，计算机科学与技术、人工智能等相关专业；具备深度学习、计算机视觉、自然语言处理或多模态学习相关研究背景者优先。技术能力： 1. 熟练掌握Python编程语言，具备良好的代码工程能力和编码习惯，熟悉C++者优先；了解Linux开发环境者优先。 2. 熟悉至少一种主流深度学习框架（PyTorch / TensorFlow），能够熟练使用框架进行模型搭建、训练与调试。 3. 理解多模态算法基本原理，了解常见多模态模型架构，熟悉模态融合（文本-图像-视频）逻辑，有相关算法实践经验者优先。 4. 具备基础的数据分析能力，能够使用工具对实验数据进行统计、分析，提炼优化方向；了解数据标注、数据增强相关方法者优先。 5. 具备良好的英文文献阅读能力，能够快速阅读多模态领域顶会论文，并理解核心技术逻辑，能够尝试复现相关算法者优先。加分项： - 有多模态预训练、跨模态检索、视觉语言模型相关论文发表或相关专利者优先。 - 有在大模型（如CLIP、LLaVA、Qwen-VL、InternVL等）基础上进行二次开发、微调或优化经验者优先；公司硬件算力资源充沛，目前主力设备有NVIDIA RTX Pro 6000(8*96GB GDDR7)服务器，Nvidia dgx-1服务器(8*32GB)，Apple M3 Ultra (512GB)，4卡3090服务器，5090显卡，及多台联想拯救者游戏本可供使用。实习时间3个月以上

职位来源

上海品锏智能工程有限公司

暂无公司数据

在招职位