从“高可用”到“高韧性”：企业如何构建不“怕”故障的架构？

责编：gltian ｜2025-11-25 11:09:26

近日，全球知名网络服务商Cloudflare发生业务中断，导致包括ChatGPT、X（原Twitter）在内的大量网站和服务出现访问异常，引发全球用户关注。这并非个例。根据Gartner的预测，到2025年，99%的云安全故障将归因于客户自身的配置错误。当这种普遍存在的配置风险，与数字基础设施日益集中于少数超大规模供应商的趋势相结合时，其破坏力将被急剧放大。一个本地故障可能引发全球范围的连锁反应，导致关键服务同时瘫痪——这正是过度集中性风险所带来的现实威胁。

集中性风险：系统性脆弱的根源

Akamai亚太地区及日本安全技术和战略总监Reuben Koh对此指出：“问题的核心在于集中性风险。”现代技术栈的复杂性意味着没有服务商能够完全避免故障，但当关键基础设施过度集中于少数几家中心化的超大规模供应商时，单个配置错误或硬件故障的影响范围将被急剧放大。

Akamai 亚太地区及日本安全技术和战略总监 Reuben Koh

Reuben Koh强调，行业一味追求100%的正常运行时间并未触及核心问题。“我们必须预设故障必然发生，并以韧性为核心采用不同的架构设计。”Uptime Institute的调研也印证了这一点：尽管技术不断进步，但重大中断的频率和成本仍在持续上升。

从“高可用”到“高韧性”：架构设计的根本转向

在Reuben Koh看来，企业必须建立多层次的容错机制，摆脱对中心化可用区的依赖，转向更灵活、去中心化的模式。尽管许多企业已采用多云战略，但多数仍停留在将不同应用简单部署在不同云的阶段，尚未实现真正的架构级容错。

“优雅降级”应成为系统设计的核心原则，使系统在出现故障或承受压力时能够灵活应变而非彻底崩溃。他以Akamai自身架构为例进一步说明：“Akamai的架构天生具备韧性。我们的分布式边缘架构从设计之初就以韧性为核心，全球平台杜绝单点故障，通过跨区域负载均衡和智能路由技术，确保即使特定节点出现故障，流量也能无缝导向可用节点。”这种大规模分布式设计能够实现故障隔离与并行修复，从而有效抵御全球企业正在经历的这类系统性冲击。

AI时代：容错空间收窄，分布式韧性成刚需

展望未来，随着AI工作负载和实时推理成为数字常态，性能与运行时间的容错空间将进一步收窄。IDC预测，到2027年，全球AI解决方案支出将超过5000亿美元，其中实时推理负载将占据重要比例。

Reuben Koh警告：“依赖单一中心化供应商处理关键任务型AI，将成为企业难以承受的高风险策略。”Forrester研究同样表明，用于AI推理的端点在遭遇网络波动时，其响应错误率可能飙升数倍，直接导致业务决策失误。

在高度互联的数字生态中，韧性已不再是可选项，而是企业生存与竞争的基石。构建具备内在韧性的去中心化架构，不仅是技术层面的必然演进，更是企业应对集中性风险、保障业务连续性的核心战略。

上一篇：Fortinet CISO预测2026年安全行业：AI重构攻防，CISO以弹性掌舵

下一篇：加紧突破低空智联网建设难题，保障低空运行安全