大模型算法工程师-SH
上海
本科及以上
计算机类·电子信息类
使用简历深度优化功能,快速提升简历质量
职位介绍
关于团队
Shopee大模型团队致力于构建领先的东南亚多语言大模型,构建完善的Model-as-a-Infrastructure (Model-as-a-Service)产品支持体系,支持公司业务的智能化升级与改造。基于多年积累的海量东南亚多语言数据,我们从零构建大模型技术体系,通过多个业务场景的探索和验证,已经逐步应用于更多的电商业务场景。我们期待更多优秀的人才加入,共同构建领先的东南亚多语言电商大模型。
职位描述
跟踪大模型前沿技术,能够发掘并且落地有效的feature到模型中。
参与大模型的设计、研发、训练等,提升整体模型基座的水平。
基于Megatron或者Deepspeed框架进行优化训练效率,研发相关算法feature。
研发超大规模Dense或者Sparse模型,实现稳定性训练。
参与大规模预训练数据采样等算法流程优化,提升预训练模型数据质量。
职位要求
优秀的代码能力、数据结构和基础算法功底,熟练Python/Pytorch编码,具备Hands-on的能力。
熟悉NLP、CV相关的算法和技术,熟悉大模型训练、RL算法者优先。
熟悉业界领先的LLM(如GPT、LLaMA)的基本原理和训练方法;在相关领域有过良好研究记录者优先。
出色的问题分析和解决能力,能深入解决大模型训练和应用存在的问题。
良好的沟通协作能力,能和团队一起探索新技术,推进技术进步。
有国际顶会论文发表者优先,有大模型预训练经验者优先。
具有Megatron或者Deepspeed的研发经验者优先。

