logologo
寻找工作
返回简章2026-03-20 更新

大模型算法工程师

武汉
本科及以上
计算机类·数学类
使用简历深度优化功能,快速提升简历质量
职位介绍
一、岗位职责: 1、责对话与生成类模型的SFT(有监督微调)与RLHF(基于人类反馈的强化学习)全流程:数据构建→标注与质检→模型训练→离线/在线评测→上线迭代。 2、设计Prompt,并且利用爬虫、模型生成等手段采集优质训练样本,对模型进行SFT,提升模型效果。 3、设计与实现对齐训练链路:偏好数据采集与清洗、奖励模型(RM)训练、策略优化(PPO/DPO/GRPO 等),形成可复用的训练与评测流程。 4、面向真实业务进行生成效果优化:提示工程、COT、拒答边界、引用/事实核对、风格与长度控制,降低幻觉与违规率。 5、负责训练与部署工程化:多卡/多机并行(DeepSpeed)、混合精度(INT8/FP16/FP8)、vLLM推理加速与量化(LoRA/QLoRA)。 6、完成模型效果的评测:离线自动评测、人评流程与指南、线上 A/B;沉淀难例集与回归集。 7、构建数据闭环:从日志与用户反馈挖掘难样本与偏差案例,持续更新 SFT/偏好/对抗数据,迭代 RM 与策略。 8、与产品/后端/数据/安全合规协作,输出技术方案与上线手册,保障稳定性、可观测性与合规性。 二、任职要求: 1、计算机/数学/统计等相关专业***及以上,1 年+ NLP/生成模型相关经验。 2、 代码与数理基础扎实,熟练常见的机器学习算法,深度学习算法,理解 Transformer、优化器、并行与显存管理。 3、熟悉 SFT/RLHF 方法论与实现:数据对齐、RM 训练、PPO/DPO/GRPO 等策略优化,能定位训练不稳定与崩塌问题。 4、具备生成质量优化经验:提示策略、思维链/结构化输出、事实核对与幻觉治理、拒答与红线规则。 5、有训练与推理工程化实践:FSDP/ZeRO/DeepSpeed、LoRA/QLoRA、vLLM/TensorRT-LLM、监控与日志。 6、良好的沟通协作与问题拆解能力,结果导向与自驱学习能力强。