logologo
寻找工作
返回简章2025-10-29 更新

AI工程师 (Model Post-training)(J12381)

上海
硕士及以上
计算机类·电子信息类
使用简历深度优化功能,快速提升简历质量
职位介绍
我们能提供的成长平台 1.深度项目参与:一对一导师指导,加入真实AI Post-Training项目,接触强化学习和多模态优化前沿。 2.充足资源支持:访问数百张GPU集群、亿级别专利数据和文献数据集;使用闭源API(如GPT-5、Claude 4.1)进行对比和数据合成。公司PatentGPT模型(8B/70B)作为坚实基础。 3.学习成长环境:开放团队文化,资深同事辅导,提供技术分享和共同成长机会。 4.AI-First工具链:使用业界前沿AI开发工具,提升你的编码和研究效率。 5. 全链路式培养:你将进入“AI工程集训营”,用两周时间沉浸式掌握公司核心技术栈与开发规范等。随后开启为期5个月的跨岗轮训,深度参与从数据平台、模型训练、部署上线到产品集成与模型评测的全流程实战,系统化塑造AI全栈开发能力。 如果您对AI Post-Training充满热情,并渴望在高挑战环境中快速成长,我们期待您的加入! 你将有机会参与: 参与大语言模型的后训练优化工作,包括指令微调(SFT)、强化学习人类反馈(RLHF)、直接偏好优化(DPO)等前沿对齐技术的研究与实现。协助构建高效的训练流程,提升模型在复杂任务中的表现和安全性。我们提供的实践领域包括但不限于: 1. 后训练技术优化与落地:协助设计与实现大模型对齐(如 RLHF、DPO、RLAIF 等)的实验流程,优化模型对用户指令的遵循能力与安全性。参与奖励模型(Reward Model)的构建与调优,处理稀疏反馈下的学习问题,提升模型对齐精度。研究并应用高效的后训练范式(如低秩适配 LoRA、参数高效微调 PEFT 等),降低模型训练的算力消耗与收敛成本。 2. 支持智能体训练与进化:辅助构建基于强化学习的智能体(Agent)训练平台,探索在线/离线RL结合,利用数据飞轮实现Agent的自主学习。参与将业务知识抽象为奖励模型和环境模拟,应用于垂直领域如专利检索。 3. 多模态模型优化:协助优化多模态大模型的后训练(如Transformer、Diffusion Models),包括合成数据生成、跨模态检索和图像/文本理解,提升模型在复杂场景中的性能。 4. 工程实践与工具开发:参与将后训练技术应用于垂直领域(如专利分析、智能问答等),协助将业务需求转化为模型优化目标。开发后训练辅助工具(如数据预处理脚本、训练日志分析工具),提升研发效率。 5. 前沿技术探索与知识沉淀:跟踪 NeurIPS、ICML 等顶会在模型后训练、对齐领域的最新研究,参与技术原型验证。撰写技术文档与分享报告,沉淀后训练技术经验,推动团队知识共享。 我们对你的期待: 1. 熟练掌握Python编程,具备使用PyTorch或TensorFlow进行模型训练的经验。 2. 对AI大模型、强化学习或Post-Training有浓厚兴趣,具备基本理解(如了解Transformer、RL基础算法)。 3. 了解基础AI概念,如LLM调用(OpenAI、Deepseek等)、Prompt设计或向量数据库(Pinecone、Weaviate等)。 4. 扎实的机器学习理论基础,理解深度学习、强化学习、自然语言处理等核心概念。 5. 具备良好的数学基础(线性代数、概率统计、优化理论等)和算法思维。 6. 具备快速学习能力和团队协作精神,能在导师指导下高效适应AI-First开发模式。 优先条件 1. 有个人AI项目或GitHub作品(如Agent Demo、RL实验、模型对齐Prototype)。 2. 使用过LangChain、CrewAI、PyTorch/TensorFlow等框架,或参与过多模态学习/强化学习相关课程项目。 3. 了解大模型对齐技术(如RLHF、DPO)或多模态模型(如Qwen-VL),有初步实践经验。 4. 参与过校园科研、竞赛(如Kaggle、AI挑战赛)或开源社区(Hugging Face),有技术分享经验。 5. 具备抽象思维和问题解决能力,能从业务场景中提炼AI问题,并设计简单实验验证。 6. 在(如NeurIPS、ICML,EMNLP,ACL)等国际会议发表过人工智能领域相关论文。