SRE工程师
北京
硕士及以上
计算机类
使用简历深度优化功能,快速提升简历质量
职位介绍
薪资面议
【岗位职责】
1.负责系统稳定性与可用性保障。负责生产环境及核心业务系统的稳定性;设计和实施高可用、容灾、弹性伸缩的系统架构方案;建立和完善监控、告警、日志体系,确保故障的快速发现、定位与恢复;参与重大故障的应急响应排查和复盘,推动改进措施落地;
2.负责自动化开发与运维效率提升。开发和维护自动化运维平台与工具,覆盖部署、配置管理、监控、成本优化等领域,致力于消除重复性手工操作,提升研发和运维的整体效率;管理和优化持续集成/持续部署流水线,实现安全、高效的软件交付;
3.负责业务系统/云平台的性能与容量管理。进行性能分析与调优,识别并解决潜在瓶颈;规划和执行容量评估与管理,确保系统/云平台能够平滑应对业务增长;通过混沌工程等手段,主动验证系统/云平台的韧性;4.负责站点可靠性工程实践。制定和优化SLO/SL,并以此驱动错误预算的管理和发布流程;参与系统设计评审,从可靠性、可运维性角度提出前瞻性建议;编写和维护系统文档、运维手册和应急预案。
【任职要求】
1.硕士及以上学历,计算机、网络安全、大数据等相关专业;
2.具备较强的沟通协调能力和团队合作精神,责任心和事业心强;
3.具备云计算、网络、信息安全、数据库、操作系统等相关认证资质证书优先;
4.具备主流的监控和日志工具栈,如Prometheus/Grafana/Alertmanager/ELK/EFK等优先;
5.具备Python/Go/Java/Shell等脚本独立开发能力优先。

