从“高可用”到“高韧性”:企业如何构建不“怕”故障的架构?

近日,全球知名网络服务商Cloudflare发生业务中断,导致包括ChatGPT、X(原Twitter)在内的大量网站和服务出现访问异常,引发全球用户关注。这并非个例。根据Gartner的预测,到2025年,99%的云安全故障将归因于客户自身的配置错误。当这种普遍存在的配置风险,与数字基础设施日益集中于少数超大规模供应商的趋势相结合时,其破坏力将被急剧放大。一个本地故障可能引发全球范围的连锁反应,导致关键服务同时瘫痪——这正是过度集中性风险所带来的现实威胁。

集中性风险:系统性脆弱的根源

Akamai亚太地区及日本安全技术和战略总监Reuben Koh对此指出:“问题的核心在于集中性风险。”现代技术栈的复杂性意味着没有服务商能够完全避免故障,但当关键基础设施过度集中于少数几家中心化的超大规模供应商时,单个配置错误或硬件故障的影响范围将被急剧放大。

1

Akamai 亚太地区及日本安全技术和战略总监 Reuben Koh

Reuben Koh强调,行业一味追求100%的正常运行时间并未触及核心问题。“我们必须预设故障必然发生,并以韧性为核心采用不同的架构设计。”Uptime Institute的调研也印证了这一点:尽管技术不断进步,但重大中断的频率和成本仍在持续上升。

从“高可用”到“高韧性”:架构设计的根本转向

在Reuben Koh看来,企业必须建立多层次的容错机制,摆脱对中心化可用区的依赖,转向更灵活、去中心化的模式。尽管许多企业已采用多云战略,但多数仍停留在将不同应用简单部署在不同云的阶段,尚未实现真正的架构级容错。

“优雅降级”应成为系统设计的核心原则,使系统在出现故障或承受压力时能够灵活应变而非彻底崩溃。他以Akamai自身架构为例进一步说明:“Akamai的架构天生具备韧性。 我们的分布式边缘架构从设计之初就以韧性为核心,全球平台杜绝单点故障,通过跨区域负载均衡和智能路由技术,确保即使特定节点出现故障,流量也能无缝导向可用节点。”这种大规模分布式设计能够实现故障隔离与并行修复,从而有效抵御全球企业正在经历的这类系统性冲击。

AI时代:容错空间收窄,分布式韧性成刚需

展望未来,随着AI工作负载和实时推理成为数字常态,性能与运行时间的容错空间将进一步收窄。IDC预测,到2027年,全球AI解决方案支出将超过5000亿美元,其中实时推理负载将占据重要比例。

Reuben Koh警告:“依赖单一中心化供应商处理关键任务型AI,将成为企业难以承受的高风险策略。”Forrester研究同样表明,用于AI推理的端点在遭遇网络波动时,其响应错误率可能飙升数倍,直接导致业务决策失误。

在高度互联的数字生态中,韧性已不再是可选项,而是企业生存与竞争的基石。构建具备内在韧性的去中心化架构,不仅是技术层面的必然演进,更是企业应对集中性风险、保障业务连续性的核心战略。

上一篇:Fortinet CISO预测2026年安全行业:AI重构攻防,CISO以弹性掌舵

下一篇:加紧突破低空智联网建设难题,保障低空运行安全