返回简章2026-06-01 更新

【蚂蚁星】算法工程师-多模态大模型-大安全-27届

北京·上海·杭州

硕士及以上

计算机类·电子信息类

使用简历深度优化功能，快速提升简历质量

职位介绍

部门介绍：
团队在多模态大模型的音频/视频/图像的识别、伪造检测、推理、大模型压缩和加速以及安全性上，团队发表20+顶会论文，其中在AI与计算机视觉六大顶会（CVPR, ICCV, ECCV, ICLR, NeurIPS,ICML）及顶级期刊累计产出10+高质量论文，成果被视觉领域顶级期刊IJCV 以及 TCSVT 收录，相关成果在光鉴凭证产品、视频核身产品、声纹核身产品上进行推广和应用。
1.AudioMCQ，开源了最大规模、最高质量的音频后训练数据集AudioMCQ（完全基于开源数据）。该模型在MMAU、MMAR、MMSU等主流评测基准上达到了新的SOTA性能；
2.Forensichub，首次提出虚假图像检测和定位任务（FIDL）来统一四个现有图像取证赛道，以解决领域孤岛和实际应用脱节这两个长期存在的问题，构建了一套完整的跨领域间统一的基准和代码库；
3.openmmsec，开源了首个开放式多模态 AI安全基准数据集openmmsec。该数据集有百万量级，从而成为推动安全技术进化、筑牢可信AI生态的关键力量；
4.textShield-R1，首个将强化学习（Reinforcement Learning,RL）引入到多模态大语言模型（MLLM）篡改文本检测任务中的框架；
5.DAR (Depth AutoRegressive)框架，将单目深度估计（Monocular Depth Estimation）视为一种序列生成任务，而非传统的回归或分类任务。融合了连续和离散的特点，提升了算法的稳定性，刷新了zero-shot生成能力的算法性能；
6.order chain，解决了多模态大语言模型（MLLM）在“序数理解（Ordinal Understanding）”方面的短板，显著提升了模型在细粒度视觉推理任务中的准确性和泛化性；
7.OmniZip，行业第一个为OmniLLMs量身定制的视听令牌压缩方法。在保持98%模型性能的同时，将FLOPs减少了60%-70%，并实现2.51-3.42倍的推理加速比。

职位描述：
1.伪造检测方向，统一篡改和生成，统一图像、音频和视频的Allinone模型，并探索推理和生成reward；
2.多模推理方向，视觉图像&视频reasoning，提升理解和推理能力，攻坚reward设计、多模态推理框架设计等核心问题；
3.多模交互方向，构建统一的端到端多模态模型，使其能够像人类一样同时感知多种模态的信息（文本、图像、音频、视频），并以流式方式生成文本和自然语音响应。

职位要求
1.出色的教育或研究背景，有相关方向经验，博士优先；
2. 专业扎实的基础知识和Coding能力，有影响力的一作顶会及期刊论文；
3. 优秀的分析和解决问题能力，良好的团队协作和沟通能力；
4. 自驱、好奇、专业，对AI有热情，对做有影响力工作有信念

职位来源

蚂蚁科技集团股份有限公司

民营企业 · 支付 · 成立25年

在招职位