返回简章2025-10-29 更新

AI工程师（Model Post-training）(J12381)

上海

硕士及以上

计算机类·电子信息类

使用简历深度优化功能，快速提升简历质量

职位介绍

我们能提供的成长平台 1.深度项目参与：一对一导师指导，加入真实AI Post-Training项目，接触强化学习和多模态优化前沿。 2.充足资源支持：访问数百张GPU集群、亿级别专利数据和文献数据集；使用闭源API（如GPT-5、Claude 4.1）进行对比和数据合成。公司PatentGPT模型（8B/70B）作为坚实基础。 3.学习成长环境：开放团队文化，资深同事辅导，提供技术分享和共同成长机会。 4.AI-First工具链：使用业界前沿AI开发工具，提升你的编码和研究效率。 5. 全链路式培养：你将进入“AI工程集训营”，用两周时间沉浸式掌握公司核心技术栈与开发规范等。随后开启为期5个月的跨岗轮训，深度参与从数据平台、模型训练、部署上线到产品集成与模型评测的全流程实战，系统化塑造AI全栈开发能力。如果您对AI Post-Training充满热情，并渴望在高挑战环境中快速成长，我们期待您的加入！你将有机会参与：参与大语言模型的后训练优化工作，包括指令微调（SFT）、强化学习人类反馈（RLHF）、直接偏好优化（DPO）等前沿对齐技术的研究与实现。协助构建高效的训练流程，提升模型在复杂任务中的表现和安全性。我们提供的实践领域包括但不限于： 1. 后训练技术优化与落地：协助设计与实现大模型对齐（如 RLHF、DPO、RLAIF 等）的实验流程，优化模型对用户指令的遵循能力与安全性。参与奖励模型（Reward Model）的构建与调优，处理稀疏反馈下的学习问题，提升模型对齐精度。研究并应用高效的后训练范式（如低秩适配 LoRA、参数高效微调 PEFT 等），降低模型训练的算力消耗与收敛成本。 2. 支持智能体训练与进化：辅助构建基于强化学习的智能体（Agent）训练平台，探索在线/离线RL结合，利用数据飞轮实现Agent的自主学习。参与将业务知识抽象为奖励模型和环境模拟，应用于垂直领域如专利检索。 3. 多模态模型优化：协助优化多模态大模型的后训练（如Transformer、Diffusion Models），包括合成数据生成、跨模态检索和图像/文本理解，提升模型在复杂场景中的性能。 4. 工程实践与工具开发：参与将后训练技术应用于垂直领域（如专利分析、智能问答等），协助将业务需求转化为模型优化目标。开发后训练辅助工具（如数据预处理脚本、训练日志分析工具），提升研发效率。 5. 前沿技术探索与知识沉淀：跟踪 NeurIPS、ICML 等顶会在模型后训练、对齐领域的最新研究，参与技术原型验证。撰写技术文档与分享报告，沉淀后训练技术经验，推动团队知识共享。我们对你的期待： 1. 熟练掌握Python编程，具备使用PyTorch或TensorFlow进行模型训练的经验。 2. 对AI大模型、强化学习或Post-Training有浓厚兴趣，具备基本理解（如了解Transformer、RL基础算法）。 3. 了解基础AI概念，如LLM调用（OpenAI、Deepseek等）、Prompt设计或向量数据库（Pinecone、Weaviate等）。 4. 扎实的机器学习理论基础，理解深度学习、强化学习、自然语言处理等核心概念。 5. 具备良好的数学基础（线性代数、概率统计、优化理论等）和算法思维。 6. 具备快速学习能力和团队协作精神，能在导师指导下高效适应AI-First开发模式。优先条件 1. 有个人AI项目或GitHub作品（如Agent Demo、RL实验、模型对齐Prototype）。 2. 使用过LangChain、CrewAI、PyTorch/TensorFlow等框架，或参与过多模态学习/强化学习相关课程项目。 3. 了解大模型对齐技术（如RLHF、DPO）或多模态模型（如Qwen-VL），有初步实践经验。 4. 参与过校园科研、竞赛（如Kaggle、AI挑战赛）或开源社区（Hugging Face），有技术分享经验。 5. 具备抽象思维和问题解决能力，能从业务场景中提炼AI问题，并设计简单实验验证。 6. 在（如NeurIPS、ICML，EMNLP，ACL）等国际会议发表过人工智能领域相关论文。

职位来源

智慧芽信息科技(苏州)有限公司

民营企业 · IT软件 · 成立15年

在招职位

AI工程师 （Model Post-training）(J12381)

AI工程师（Model Post-training）(J12381)