logologo
寻找工作
返回简章2026-05-23 更新

云弧计划-AI Infra研发工程师--27届全职

上海
硕士及以上
计算机类·电子信息类
使用简历深度优化功能,快速提升简历质量
职位介绍
拼多多集团27届云弧计划人才计划已经启动! 在本岗位,您将有机会深入基础设施技术本质,同时驱动大模型与业务高效落地,具体将参与: 1. 大模型训练与推理基础设施研发:参与构建和优化面向大规模分布式训练/推理的Infra 平台,支持文本、图像、视频、语音等多模态大模型、扩散模型的训练与推理。涵盖集群资源调度、训练框架优化、高性能通信、混合精度训练、显存优化等关键环节,确保模型的训练效率与系统稳定性; 2. 前沿Infra 技术探索与创新:持续跟踪并攻关大模型基础设施领域的前沿方向(如:超大规模异构集群管理、更高效的并行策略、MoE 训练/推理优化、量化与推理加速框架、多模态模型高效并行策略等),通过系统创新显著提升训练吞吐、降低推理成本、改善资源利用率; 3. 大模型基础设施应用落地与赋能:将先进的Infra 能力与公司大模型业务场景深度结合,主导技术方案的设计与实现,具体支持方向包括但不限于: • 训练效率提升:支持Pretrain、SFT、RLHF 等全流程训练任务,优化端到端训练性能; • 推理服务优化:构建高并发、低延迟的在线推理平台,支持多模态大模型的实时服务; • 成本与弹性优化:实现智能资源调度、Spot 实例利用、自动扩缩容等,显著降低大模型训练与推理的算力成本; • 稳定性保障:打造高可用、故障自愈的分布式训练系统,确保7×24 小时稳定运行; 4. 技术价值闭环:深度理解大模型训练与业务需求,利用平台海量算力与数据资源,推动Infra 技术创新落地,并通过性能指标、成本指标、实验验证等科学方法衡量技术价值,最终为大模型研发提效、降本,并支撑业务增长。