【蚂蚁星】算法工程师-多模态大模型-大安全-27届
北京·上海·杭州
硕士及以上
计算机类·电子信息类
使用简历深度优化功能,快速提升简历质量
职位介绍
部门介绍:
团队在多模态大模型的音频/视频/图像的识别、伪造检测、推理、大模型压缩和加速以及安全性上,团队发表20+顶会论文,其中在AI与计算机视觉六大顶会(CVPR, ICCV, ECCV, ICLR, NeurIPS,ICML)及顶级期刊累计产出10+高质量论文,成果被视觉领域顶级期刊IJCV 以及 TCSVT 收录,相关成果在光鉴凭证产品、视频核身产品、声纹核身产品上进行推广和应用。
1.AudioMCQ,开源了最大规模、最高质量的音频后训练数据集AudioMCQ(完全基于开源数据)。该模型在MMAU、MMAR、MMSU等主流评测基准上达到了新的SOTA性能;
2.Forensichub,首次提出虚假图像检测和定位任务(FIDL)来统一四个现有图像取证赛道,以解决领域孤岛和实际应用脱节这两个长期存在的问题,构建了一套完整的跨领域间统一的基准和代码库;
3.openmmsec,开源了首个开放式多模态 AI安全基准数据集openmmsec。该数据集有百万量级,从而成为推动安全技术进化、筑牢可信AI生态的关键力量;
4.textShield-R1,首个将强化学习(Reinforcement Learning,RL)引入到多模态大语言模型(MLLM)篡改文本检测任务中的框架;
5.DAR (Depth AutoRegressive)框架,将单目深度估计(Monocular Depth Estimation)视为一种序列生成任务,而非传统的回归或分类任务。融合了连续和离散的特点,提升了算法的稳定性,刷新了zero-shot生成能力的算法性能;
6.order chain,解决了多模态大语言模型(MLLM)在“序数理解(Ordinal Understanding)”方面的短板,显著提升了模型在细粒度视觉推理任务中的准确性和泛化性;
7.OmniZip,行业第一个为OmniLLMs量身定制的视听令牌压缩方法。在保持98%模型性能的同时,将FLOPs减少了60%-70%,并实现2.51-3.42倍的推理加速比。
职位描述:
1.伪造检测方向,统一篡改和生成,统一图像、音频和视频的Allinone模型,并探索推理和生成reward;
2.多模推理方向,视觉图像&视频reasoning,提升理解和推理能力,攻坚reward设计、多模态推理框架设计等核心问题;
3.多模交互方向,构建统一的端到端多模态模型,使其能够像人类一样同时感知多种模态的信息(文本、图像、音频、视频),并以流式方式生成文本和自然语音响应。
职位要求
1.出色的教育或研究背景,有相关方向经验,博士优先;
2. 专业扎实的基础知识和Coding能力,有影响力的一作顶会及期刊论文;
3. 优秀的分析和解决问题能力,良好的团队协作和沟通能力;
4. 自驱、好奇、专业,对AI有热情,对做有影响力工作有信念
团队在多模态大模型的音频/视频/图像的识别、伪造检测、推理、大模型压缩和加速以及安全性上,团队发表20+顶会论文,其中在AI与计算机视觉六大顶会(CVPR, ICCV, ECCV, ICLR, NeurIPS,ICML)及顶级期刊累计产出10+高质量论文,成果被视觉领域顶级期刊IJCV 以及 TCSVT 收录,相关成果在光鉴凭证产品、视频核身产品、声纹核身产品上进行推广和应用。
1.AudioMCQ,开源了最大规模、最高质量的音频后训练数据集AudioMCQ(完全基于开源数据)。该模型在MMAU、MMAR、MMSU等主流评测基准上达到了新的SOTA性能;
2.Forensichub,首次提出虚假图像检测和定位任务(FIDL)来统一四个现有图像取证赛道,以解决领域孤岛和实际应用脱节这两个长期存在的问题,构建了一套完整的跨领域间统一的基准和代码库;
3.openmmsec,开源了首个开放式多模态 AI安全基准数据集openmmsec。该数据集有百万量级,从而成为推动安全技术进化、筑牢可信AI生态的关键力量;
4.textShield-R1,首个将强化学习(Reinforcement Learning,RL)引入到多模态大语言模型(MLLM)篡改文本检测任务中的框架;
5.DAR (Depth AutoRegressive)框架,将单目深度估计(Monocular Depth Estimation)视为一种序列生成任务,而非传统的回归或分类任务。融合了连续和离散的特点,提升了算法的稳定性,刷新了zero-shot生成能力的算法性能;
6.order chain,解决了多模态大语言模型(MLLM)在“序数理解(Ordinal Understanding)”方面的短板,显著提升了模型在细粒度视觉推理任务中的准确性和泛化性;
7.OmniZip,行业第一个为OmniLLMs量身定制的视听令牌压缩方法。在保持98%模型性能的同时,将FLOPs减少了60%-70%,并实现2.51-3.42倍的推理加速比。
职位描述:
1.伪造检测方向,统一篡改和生成,统一图像、音频和视频的Allinone模型,并探索推理和生成reward;
2.多模推理方向,视觉图像&视频reasoning,提升理解和推理能力,攻坚reward设计、多模态推理框架设计等核心问题;
3.多模交互方向,构建统一的端到端多模态模型,使其能够像人类一样同时感知多种模态的信息(文本、图像、音频、视频),并以流式方式生成文本和自然语音响应。
职位要求
1.出色的教育或研究背景,有相关方向经验,博士优先;
2. 专业扎实的基础知识和Coding能力,有影响力的一作顶会及期刊论文;
3. 优秀的分析和解决问题能力,良好的团队协作和沟通能力;
4. 自驱、好奇、专业,对AI有热情,对做有影响力工作有信念


