Величезний збій, який стався в Amazon Web Services, призвів до того, що мільйони користувачів по всьому світу залишилися без доступу до важливих сервісів. За даними інженерів компанії, причина криється в одному єдиному збої, який спровокував каскадну реакцію в системі.
Згідно з інформацією від Amazon, збій тривав 15 годин і 32 хвилини. Компанія Ookla, яка займається моніторингом мережі, зафіксувала понад 17 мільйонів повідомлень про проблеми з сервісами 3,500 організацій. Найбільше скарг надійшло з США, Великобританії та Німеччини, зокрема на Snapchat, AWS та Roblox.
Основною причиною збою став програмний баг у системі управління DNS, що належить DynamoDB. Ця система відповідає за моніторинг стабільності навантажувачів, періодично створюючи нові конфігурації DNS для кінцевих точок у мережі AWS. Виникнення так званої “умовності гонки” призвело до небажаних збоїв.
У даному випадку умовність гонки виникла в компоненті DNS Enactor, який постійно оновлює таблиці доменів у індивідуальних кінцевих точках AWS для оптимізації навантаження. Під час роботи система зіткнулася з високими затримками, що призвело до необхідності повторних спроб оновлення. У той час, як один з енакторів намагався наздогнати, інший продовжував генерувати нові плани, що врешті-решт призвело до збою всього DynamoDB.
