“任何可能出错的事情最终都会出错,而且是在最糟糕的时候”。
——墨菲定律
2024年7月19日发生的CrowdStrike导致Windows系统蓝屏事件已被很多新闻报道和上百个备忘录所覆盖。简而言之:网络安全供应商CrowdStrike对其EDR产品发布了一个微小但有缺陷的配置更新,导致850万套微软Windows系统崩溃。这次故障使全球的航空公司、医院、银行、电视广播公司和其他企业陷入瘫痪,数百万旅客、病人和消费者受到影响,更不用说数以万计的IT专业人员了,他们不得不利用周末时间对每台受影响的计算机手动应用修复程序以使其恢复正常。
我们这里不是为了批评CrowdStrike,也不是要对导致这次惨败的错误进行详细的取证分析。这起事件是任何技术供应商都可能遭遇的人为错误和技术故障的后果,在未来数月或数年内还会经常困扰其他技术供应商和企业。相反,我们希望从这次故障中汲取一些经验教训,以帮助您的企业更好地抵御此类事件,并在防御措施失败时更好地做好恢复准备,因为防御措施最终不可避免地都会失败。
类似CrowdStrike的事件还会再次发生
“不可避免”这个词是这里的关键一课:认识到尽管我们的同事、合作伙伴、供应商、政府、监管机构和打击犯罪机构尽了最大努力,但此类事件仍会发生。网络犯罪分子每天都会发布超过25万个新的恶意软件实例。善意的员工也会犯错误。软件漏洞在未被发现的情况下潜入世界。硬件组件磨损和故障。大自然给我们带来的飓风、野火、暴风雪和洪水等。迟早会发生故障,就像潮汐一样不可避免。
我们队伍中的风险管理专业人员直观地了解这一现实。他们是最近从监管机构、网络安全标准制定者和保险行业三个不同方向出现的一些并行发展的主要推动者。思考一下:
- 全新的合规标准,如欧盟的《数字运营弹性法案》(DORA),以及对现有合规标准的修订,如欧盟的《网络与信息系统指令2022/0383》(NIS 2)。
- 现有网络安全标准的新版本,如美国国家标准与技术研究院(NIST)网络安全框架(CSF)2.0版(又称NIST CSF 2.0)。
- 企业获得网络保险资格的可保性标准不断变化。
这些机构历来都非常重视网络安全防御,如终端保护、强身份验证和安全意识培训。但在过去的一两年里,它们更加强调基于备份、灾难恢复和事件响应计划等支柱的恢复。这反映了世界上更广泛的认识,即真正的网络弹性需要两者兼备。
这对安克诺斯来说并不是新闻;我们是从另一个方向提出这一概念的,20年前,我们作为备份供应商起步,8年前推出了与备份集成的网络安全。长期以来,我们一直认为,监管机构、标准机构和保险公司正在推动的防御与恢复相结合,对于保持企业的正常运行时间和数据完整性至关重要。
企业应如何应对CrowdStrike事件
因此,如果您是网络安全、IT运营或风险管理负责人,正在为升级恢复基础设施进行业务论证(例如,首次投资云灾难恢复服务,或正式制定事件响应计划),不妨理解下这句话:“建立更好的网络恢复能力不仅能提高我们避免类似CrowdStrike故障这样的痛苦事件的机会,还可以改善我们的合规状况,使我们更好地与网络安全框架中列出的行业最佳实践保持一致,并提高我们获得具有价格竞争力的网络保险的能力。”
这就是从事件中得到的总体结论,尽管我们尽了最大努力,但事情偶尔还是会完全脱离轨道。作为一家技术供应商,就如何应对 CrowdStrike停机事件我们提供了一些战术建议:
- 在将更新发布到所有系统之前,建立一个在受保护的“沙盒”环境中测试更新的流程。这可能需要禁用自动更新,并在测试后才推出更新。如果不具备此类控制措施(如CrowdStrike在此次事件之前的做法),则应将重点放在回滚功能上。
- 维护最新备份并实施回滚和恢复程序,以减少潜在的系统或应用程序升级问题。
- 赋予系统管理员远程启动恢复所有仍在正常运行的受影响系统的能力。
- 为远程用户提供明确的指导,帮助他们手动恢复受损严重、无法远程修复的系统。
- 考虑部署像安克诺斯一键恢复这样的功能,让不具备IT技能的员工也能简单快速地恢复自己的系统。