Cloudflare 网络波动后，后端服务降级预案怎么补

CDNCloudflareSRE后端运维外部依赖降级预案

Cloudflare 状态页里连续出现两个信号，一个是北美东西部网络性能问题，影响 Network 和 Argo Smart Routing；另一个是 Workers Builds 延迟。对很多企业来说，这类事件不一定会让官网彻底打不开，但足够把登录、接口回源、静态资源、构建发布和监控告警搅在一起。

我一直觉得，外部云服务波动最麻烦的地方在自己这边。系统里哪些地方依赖它，团队经常说不清。值班群里很容易变成一句话，可能是网络。然后大家开始翻日志，越翻越乱。

先把依赖画成一张运维图

很多系统架构图画的是业务模块，用户中心、订单、支付、CMS、数据报表，看着很清楚。出故障时更有用的是另一张图，外部依赖图。DNS、CDN、对象存储、边缘函数、第三方登录、短信、邮件、支付网关、地图接口、构建平台，都要放进去。

这张图不用漂亮，能帮值班工程师判断就行。比如静态资源走哪条 CDN，API 是否经过 WAF，图片是否依赖边缘处理，前端发版是否绑在 Workers Builds 或类似构建服务上。图画出来以后，团队才知道某个区域网络抖动时，哪些业务要先降级。

监控不能只盯自己机房

外部依赖出问题时，内部服务器可能全绿。CPU 正常，数据库正常，应用日志也没报错，用户却在浏览器里等半天。这个时候只看内网监控会误判。

建议补三类探针。第一类从不同地区访问首页、登录页和核心接口，记录延迟和状态码。第二类直接探测外部依赖，比如 CDN 回源、对象存储下载、第三方 API 响应。第三类从用户侧采集真实性能数据，把白屏时间、资源失败和接口超时拉出来看。三类数据放在一起，值班人员才不会被单点指标带偏。

降级要提前写进系统

如果页面资源加载慢，能不能切备用域名；如果边缘路由不可用，能不能走普通回源；如果构建服务排队，能不能先冻结非必要发布；如果图片处理失败，能不能直接返回原图或占位图。这些动作要写成开关，不能靠临时改代码。

优易云在做企业官网、业务后台和小程序接口时，一般会把开关放到配置中心或后台管理里。值班人员能看到开关说明、影响范围和回滚方式。说真的，半夜出问题时，能点一个有说明的开关，比翻一份三年前的文档靠谱多了。

发布链路也要有刹车

Workers Builds 这类构建延迟提醒了一件小事，发布系统本身也是业务依赖。很多团队只给线上接口做高可用，却把构建、镜像仓库、前端托管、缓存刷新放在单一路径里。结果业务还没坏，发版先卡住。

更稳的做法是把发布链路分成日常发布和应急发布。日常发布可以走完整流水线，应急发布要保留最小可用路径，比如只更新静态配置、只回滚到上一版本、只切换流量权重。别把所有动作都绑在一个按钮上。

复盘要落到清单

外部网络波动过去以后，团队不要只写一句供应商故障。更有用的是把清单补齐，哪些接口受影响，哪些监控发现得晚，哪些开关没有，哪些用户提示太含糊，哪些供应商状态页应该订阅到告警群。

外部依赖永远会抖。企业能做的是把抖动挡在核心流程外面，至少让用户知道发生了什么，让值班工程师知道该动哪个开关。