logologo
寻找工作
返回简章2026-04-05 更新

Infra系统架构师/研发工程师(上海)

上海
硕士及以上
不限专业
使用简历深度优化功能,快速提升简历质量
职位介绍
学历要求 硕士及以上学历 专业要求 计算机/电子/信息/通信/自动化/软件等相关专业 岗位职责 1. 构建统一的 AI 数据存传一体加速基座,支持键值存储、消息队列、对象文件缓存(Caching)与多模态记忆湖(Memory Lake)等多种数据形态,实现跨集群与集群内的高吞吐、低延迟访问与高速通信; 2. 设计并优化分布式多级缓存与数据平面调度架构(GPU 显存 / CPU 内存 / 本地外存 / 远端内存),重点支撑跨集群多模态数据传输与远程访问、模型加载加速、大模型 KV Cache 共享与迁移等核心场景,实现数据的动态迁移、热度管理与生命周期控制; 3. 探索 lock-free / wait-free 数据结构、用户态 I/O、kernel-bypass、io_uring 等极致性能优化技术,在 AI 训练与推理工作负载下突破系统吞吐与延迟瓶颈; 4. 与训练、推理及数据处理框架进行 Co-design,优化缓存放置与驱逐策略、流式传输与计算协同机制,实现存储与计算的深度融合。 应聘资格要求 1. 精通 Linux 环境下 Rust / C++ / Python 开发,具备多线程高并发系统设计与调优经验; 2. 深入理解分布式系统的一致性、数据复制与调度原理,能够在实际分布式存储或计算框架(如 Ray、Apache Spark、Ceph、TiKV、JuiceFS、Alluxio) 中进行系统级设计与性能优化; 3. 具备系统架构设计能力、工程抽象能力与落地能力,能够在复杂分布式系统中进行模块拆分、数据流建模与关键路径分析;能够建设 CI/CD、压测体系与性能回归体系,提升系统稳定性与迭代效率; 4. 具备扎实的性能分析与调优能力,能够使用 profiling、tracing 等手段定位瓶颈,并推动系统级优化落地;能够理解或搭建指标、日志与链路追踪系统,支撑大规模集群运行与问题定位; 5. 加分项:具备 AI 辅助编程与工程协作能力,能够结构化表达需求与系统设计,形成高质量技术文档,有效拆解任务并并行调度实习生与 AI agent,提升整体研发效率与产出质量;有开源项目或可验证的性能优化成果。