微软的Azure团队在调查11月19日困扰其众多客户的全球多因素身份验证中断事件后发现了根本原因。三个原因导致Azure,Office 365,Dynamics和其他微软用户无法在当天大部分时间进行身份验证。
在11月19日的14个小时里,微软的Azure Active Directory多重身份验证(MFA)服务因流量过大而滞停。由于Office 365和Dynamics用户通过此服务进行身份验证,因此他们也受到了影响。
第一个根本原因显示为MFA前端与其缓存服务的通信中的延迟问题。第二个是处理来自MFA后端服务器的响应的竞争条件。微软官员表示,这两个原因是在11月13日星期二的一些数据中心开始的代码更新推出中引入的,并在11月16日星期五之前在所有数据中心完成。
由第二个引发的第三个确定的根本原因导致MFA后端无法处理来自前端的任何进一步请求,即使它似乎在微软的监控下表面看起来是正常工作。
欧洲,中东和非洲(EMEA)和亚太地区(APAC)的客户首先受到这些级联问题的影响。随着时间的推移,西欧和美国的数据中心受到了冲击。即使工程师应用了一个允许前端服务器绕过缓存的修补程序,问题仍然存在。官员们承认,除此之外,遥测和监测工作没有按预期进行。
Microsoft确定了许多旨在改进MFA服务的下一步措施,包括审核其更新部署程序(目标完成日期:2018年12月); 监督服务的审查(目标完成日期:2018年12月); 对遏制过程的审查将有助于避免将问题传播给其他数据中心(目标完成日期:2019年1月); 以及服务运行状况仪表板和监控工具的通信流程更新(目标完成日期:2018年12月)。
微软官员向受影响的客户道歉,但未提及任何计划的经济补偿。微软11月19日发布的Azure状态历史文章详细介绍了导致MFA崩溃的事件。