logologo
寻找工作
2026-03-20 更新

博科国信(武汉)科技有限公司

IT技术服务 · 民营企业 · 成立13年
简章详情

公司简介:

武汉博科国泰信息技术有限公司,主营为医疗行业提供信息与数字化解决方案。旗下有医疗集成平台、医疗信息集成平台,同时提供IT技术服务、软件开发。2024年国家级科技型中小企业、2024年市级上市后备“金种子”企业、2023年省级上市后备“银种子”企业等多项荣誉。2024年11月获得医疗信息化管理系统软件的售后服务(五星级)商品售后服务评价认证、2023年08月获得与医疗应用软件开发相关的云服务信息安全管理体系认证、2022年07月获得医疗信息化智能管理系统软件开发、销售与技术服务质量管理体系认证(ISO9001)等资质。

在招职位如下:

大模型算法工程师

工作城市:武汉
薪资:9k-14k
学历要求:本科,硕士,博士
岗位性质:全职
岗位描述:
一、岗位职责:
1、责对话与生成类模型的SFT(有监督微调)与RLHF(基于人类反馈的强化学习)全流程:数据构建→标注与质检→模型训练→离线/在线评测→上线迭代。
2、设计Prompt,并且利用爬虫、模型生成等手段采集优质训练样本,对模型进行SFT,提升模型效果。
3、设计与实现对齐训练链路:偏好数据采集与清洗、奖励模型(RM)训练、策略优化(PPO/DPO/GRPO 等),形成可复用的训练与评测流程。
4、面向真实业务进行生成效果优化:提示工程、COT、拒答边界、引用/事实核对、风格与长度控制,降低幻觉与违规率。
5、负责训练与部署工程化:多卡/多机并行(DeepSpeed)、混合精度(INT8/FP16/FP8)、vLLM推理加速与量化(LoRA/QLoRA)。
6、完成模型效果的评测:离线自动评测、人评流程与指南、线上 A/B;沉淀难例集与回归集。
7、构建数据闭环:从日志与用户反馈挖掘难样本与偏差案例,持续更新 SFT/偏好/对抗数据,迭代 RM 与策略。
8、与产品/后端/数据/安全合规协作,输出技术方案与上线手册,保障稳定性、可观测性与合规性。
二、任职要求:
1、计算机/数学/统计等相关专业***及以上,1 年+ NLP/生成模型相关经验。
2、 代码与数理基础扎实,熟练常见的机器学习算法,深度学习算法,理解 Transformer、优化器、并行与显存管理。
3、熟悉 SFT/RLHF 方法论与实现:数据对齐、RM 训练、PPO/DPO/GRPO 等策略优化,能定位训练不稳定与崩塌问题。
4、具备生成质量优化经验:提示策略、思维链/结构化输出、事实核对与幻觉治理、拒答与红线规则。
5、有训练与推理工程化实践:FSDP/ZeRO/DeepSpeed、LoRA/QLoRA、vLLM/TensorRT-LLM、监控与日志。
6、良好的沟通协作与问题拆解能力,结果导向与自驱学习能力强。

鼠鼠求职首页