数据工程师
上海
本科及以上
不限专业
使用简历深度优化功能,快速提升简历质量
职位介绍
标准职责
负责多模态大模型数据处理相关技术预研和开发。
1、模型数据的研究和开发(包括但不限于数据分布研究、数据获取、数据质量检测、海量数据去重等),确保训练数据的有效性,可用性;
2、负责大模型技术能力的预研,熟悉大模型技术的数据要求,尤其是大模型预训练是需要的海量文本数据,大模型调优时所需要的prompt数据;
3、prompt数据收集和整理:保证prompt的合理性,多样性,丰富性。通过prompt激活大模型的潜在语言理解能力;
4、大模型预训练数据数据的清洗,对海量web数据,书籍数据,对话数据等进行有效的合规检测,去重处理,保证语料合理性。
【任职要求】
业务技能要求:
1、扎实的编程基础,精通一门或者多门语言(PYTHON/JAVA等)。
2、熟悉一种或多种深度学习框架(Pytorch/TensorFlow等)。
3、在大数据处理、数据分析、数据挖掘等一个或多个领域有扎实的理论基础和丰富的实战经验。
专业知识要求:
1、对深度学习基础算法较为熟悉,且对NLU、NLG、大规模语言模型、多模态理解等一个或多个领域的数据处理较为精通;
2、熟悉chatGPT相关技术领域,包括大语言模型,prompt技术等领域知识;
2、熟悉数据挖掘、机器学习、深度学习、强化学习相关领域常见算法及模型,熟悉主流机器学习平台/框架,且有实际工程应用经验;
3、具备良好的团队合作意识和沟通能力,有较强的逻辑思维能力,业务分析能力、总结汇报能力、文档能力,有较强的创新并推动落地的能力。

