sre运维工程师
1.1-2万元/月
投递简历
四川-成都
5-10年
2025-12-10 20:59:19 更新
被浏览:691 次
浩鲸云计算科技股份有限公司
最近在线时间:2025-12-10 20:59:19
电话:158********
地址:南京市雨花台区安德门大街50号B座6楼
职位描述
产品范围:阿里公共云的云原生可观测性产品线及中间件相关服务,包括日志、监控、告警、消息队列等,具备完善的可观测体系构建实践经验,同时拥有一定的SRE背景,在高可用架构设计、容灾演练、变更管理、故障处理等方面有深入理解;SRE-稳定性工程师(中级1人):负责阿里公共云稳定性解决方案的架构实施与日常运维工作。
工作范围:
架构设计:结合具体业务需求,运用阿里云ARMS、OpenTelemetry、Prometheus、Grafana等观测类工具,规划具备高可用性与可量化特性的稳定性技术架构,覆盖系统健壮性、监控完整性及自动化响应机制,达成系统可靠性与交付敏捷性的平衡。
稳定性体系建设:掌握高可用架构设计方法,熟悉容灾演练流程、变更管控机制与故障应急策略,主导全链路容灾、灰度上线、资金安全保障等关键专项治理,推进红蓝对抗演练、突发事件响应、风险排查等能力的实际落地。通过自研或集成自动化平台,实现变更可管、风险可防、故障可恢复的稳定性工程闭环管理。
故障管理:参与应急处置,协调多团队联动,开展根因分析,快速恢复服务,并在事后组织复盘,推动系统层面的持续优化。
开发能力:熟练掌握至少1-2种编程语言,如Python、Java等,能通过脚本开发提升可观测平台的运维效率。
具备扎实的架构设计、性能调优与系统稳定性保障能力,深刻理解阿里云ARMS、OpenTelemetry、Prometheus、Grafana等观测工具的技术架构与适用场景,具备大规模落地实践经验。
在识别业务潜在风险时,能够综合技术可行性、运营成本、投入产出比等因素,推动切实可行的优化方案实施。具备完整的安全生产培训经历,具有较强的数据安全意识,对生产与非生产环境保持高度敬畏。
求职提醒:求职过程请勿缴纳费用,谨防诈骗!若信息不实请举报。
该公司的其他职位
您可能感兴趣的职位
搜索更多相似职位 >
推荐企业
职位专题
微信求职找工作
手机扫一扫
随时随地找工作