数据挖掘
上海
本科及以上
不限专业
使用简历深度优化功能,快速提升简历质量
职位介绍
大模型/多模态业务:
现在的自动驾驶技术拼到最后就是拼谁见过更多、更难的场景数据,比如突然窜出来的行人、罕见的极端天气,这些就是自动驾驶需要攻克的关键难题。我们利用最前沿的多模态大模型技术,自动从海量行车视频里识别出这些复杂、有价值的场景,生成高质量的驾驶数据训练集。
我们会训练自己的垂直领域基座模型,用微调、强化学习这些方法让模型更懂开车;在推理时用上小样本学习、思维链等技巧,让模型举一反三,智能地处理新遇到的难例场景。
数据策略业务:
以端到端智驾模型与多模态大模型为核心工具,深入提取驾驶场景的高维隐式特征,构建适配下游任务的数据表征体系。在算法层面,我们融合基于规则聚类的显式分析方法与基于深度表征学习的隐式建模方法,实现对复杂驾驶行为与场景分布的系统解构。
团队深度参与模型研发全流程,将数据策略能力系统化嵌入模型训练链路,实现从特征提取到模型优化的端到端技术闭环。技术栈包括Python/C++及机器学习框架,还需要深入理解模型架构与表征学习,还有聚类算法、特征工程与数据统计分析的相关知识.
数据平台业务:
数据平台是一款为大模型量身打造的高性能数据集成开发环境,专门解决海量数据处理中的效率瓶颈。平台基于分布式集群和DuckDB向量化引擎,配合高速IO优化技术,实现对万亿级Token数据的毫秒级分析及高效清洗。在数据处理过程中,我们引入凸优化、聚类、PCA等智能算法,
自动识别数据分布问题并实现科学平衡,从源头提升模型训练质量。针对多模态业务场景,平台深度优化了ES、MongoDB、Redis等存储引擎,保障复杂查询下的高性能存取。同时结合列式存储、存算分离等前沿架构,以最小资源成本实现极致的数据处理效率。
端到端业务:
在自动驾驶技术从封闭试点迈向全域落地的关键赛道,数据是驱动技术突破的核心引擎,而端到端架构的迭代升级,更离不开高质量数据体系的强力支撑。我们目标是组建业界领先的端到端数据闭环团队,聚焦端到端自动驾驶全链路数据治理 —— 从智能采集策略制定、多模态数据清洗去冗余,
到 AI 驱动的质检与标注、场景化专题优化,深度赋能选道决策、车辆交互、智能巡航等核心场景的模型性能跃升。在这里,你将直面 “黑盒模型数据驱动”“长尾场景数据增效” 等行业前沿课题,参与构建数据驱动的技术闭环,见证数据从 “海量资源” 转化为 “核心竞争力” 的全过程。

