返回简章2026-03-20 更新

大模型算法工程师

武汉

本科及以上

计算机类·数学类

使用简历深度优化功能，快速提升简历质量

职位介绍

一、岗位职责： 1、责对话与生成类模型的SFT（有监督微调）与RLHF（基于人类反馈的强化学习）全流程：数据构建→标注与质检→模型训练→离线/在线评测→上线迭代。 2、设计Prompt，并且利用爬虫、模型生成等手段采集优质训练样本，对模型进行SFT，提升模型效果。 3、设计与实现对齐训练链路：偏好数据采集与清洗、奖励模型（RM）训练、策略优化（PPO/DPO/GRPO 等），形成可复用的训练与评测流程。 4、面向真实业务进行生成效果优化：提示工程、COT、拒答边界、引用/事实核对、风格与长度控制，降低幻觉与违规率。 5、负责训练与部署工程化：多卡/多机并行（DeepSpeed）、混合精度（INT8/FP16/FP8）、vLLM推理加速与量化（LoRA/QLoRA）。 6、完成模型效果的评测：离线自动评测、人评流程与指南、线上 A/B；沉淀难例集与回归集。 7、构建数据闭环：从日志与用户反馈挖掘难样本与偏差案例，持续更新 SFT/偏好/对抗数据，迭代 RM 与策略。 8、与产品/后端/数据/安全合规协作，输出技术方案与上线手册，保障稳定性、可观测性与合规性。二、任职要求： 1、计算机/数学/统计等相关专业***及以上，1 年+ NLP/生成模型相关经验。 2、代码与数理基础扎实，熟练常见的机器学习算法，深度学习算法，理解 Transformer、优化器、并行与显存管理。 3、熟悉 SFT/RLHF 方法论与实现：数据对齐、RM 训练、PPO/DPO/GRPO 等策略优化，能定位训练不稳定与崩塌问题。 4、具备生成质量优化经验：提示策略、思维链/结构化输出、事实核对与幻觉治理、拒答与红线规则。 5、有训练与推理工程化实践：FSDP/ZeRO/DeepSpeed、LoRA/QLoRA、vLLM/TensorRT-LLM、监控与日志。 6、良好的沟通协作与问题拆解能力，结果导向与自驱学习能力强。

职位来源

博科国信(武汉)科技有限公司

民营企业 · IT技术服务 · 成立13年

在招职位