logologo
寻找工作
返回简章2025-08-14 更新

大语言模型工程师-BCSC

江苏
硕士及以上
中文学类·计算机类
使用简历深度优化功能,快速提升简历质量
职位介绍
职位内容:

1. 大模型深度调优:

o 基于PyTorch/TensorFlow框架,实现并优化大模型(如Deepseek,LLaMA、Qwen等)参数高效微调(LoRA、QLoRA、Adapter)。

o 设计针对垂直领域(工业,物流,汽车软件开发…)的微调策略,解决灾难性遗忘、领域漂移等问题。

2. 训练与推理性能优化:

o 优化大模型训练Pipeline,包括混合精度训练(AMP)、梯度累积、ZeRO优化(DeepSpeed)等,提升多卡/多机训练效率。

o 探索模型推理加速技术(如vLLM、TGI、FlashAttention),实现动态批处理、量化推理(AWQ、GPTQ)或硬件适配(CUDA Kernel优化)。

3. 技术攻关与工具开发:

o 构建自动化微调工具链(基于Hugging Face、trl、peft等库),支持多任务调度与实验管理。

________________________________________

硬性技术要求

1. 技术基础:

o 熟练使用PyTorch框架,理解分布式训练(DDP/FSDP)、自动混合精度、梯度检查点等底层机制。

o 深入掌握Transformer架构细节(如KV Cache、位置编码、注意力变体),能手动实现基础模块。

o 熟悉大模型训练全流程(数据预处理→训练→评估→部署),有单任务微调/多任务学习实战经验。

2. 进阶能力(至少满足两项):

o 掌握至少一种大模型训练加速框架(DeepSpeed/Megatron-LM/ColossalAI),有多机多卡调试经验。

o 熟悉量化技术(FP8/Int4/Int8)或编译优化(TorchDynamo、Triton)。

o 理解RLHF技术栈(Reward Model训练、PPO优化),或具备多模态对齐(如LLaVA)经验。

________________________________________

技术栈匹配度加分项

• 熟悉大模型底层技术:CUDA编程、Kernel优化、模型并行策略。

• 掌握Prompt Engineering高级技巧(如Chain-of-Thought、Self-Consistency)。

• 有模型安全方向经验:对抗攻击防御、红队测试、输出对齐(Alignment)。

• 熟悉LangChain/LlamaIndex等应用框架,具备端到端AI产品落地经验。

________________________________________

我们提供的技术资源

1. 算力支持:

o 独占式使用A800/V100集群,支持百亿级模型参数微调。

o 提供定制化实验环境(Docker/K8S),内置监控与自动化运维工具。

2. 技术生态:

o 直接参与公司核心大模型微调,代码贡献将影响公司所有员工日常使用。

3. 成长路径:

o 挑战性课题:从零构建行业大模型、探索Agent技术、实现SOTA性能突破。