Publié le 2025-10-25 12:22:00. Une panne majeure ayant paralysé de nombreux services en ligne lundi dernier, dont l’origine est désormais connue, a été causée par une interaction complexe entre deux systèmes automatisés. Amazon Web Services (AWS) a publié jeudi son analyse post-mortem, expliquant les causes profondes de cet incident qui a touché des entreprises mondiales.
- La panne, survenue lundi, a perturbé l’accès à de nombreuses applications et services populaires dans le monde.
- Elle a été déclenchée par deux systèmes automatisés tentant de modifier simultanément les mêmes données, conduisant à une erreur critique.
- AWS a présenté ses excuses et s’est engagé à tirer les leçons de cet événement pour renforcer sa fiabilité.
Lundi, un incident chez Amazon Web Services (AWS) a provoqué une panne d’une ampleur considérable, impactant des services aussi variés que la commande de nourriture, les systèmes bancaires mobiles, les réseaux hospitaliers, les systèmes de sécurité et les appareils domotiques connectés. Des entreprises de renom telles que Netflix, Starbucks et United Airlines ont vu leurs services en ligne momentanément indisponibles. L’origine du problème, détaillée dans un communiqué publié jeudi par la société, trouve sa source dans une « condition de concurrence critique » : deux systèmes automatisés se sont retrouvés en compétition pour mettre à jour la même entrée dans le système DNS (Domain Name System), l’équivalent de l’annuaire d’Internet. Cette simultanéité malheureuse a entraîné la création d’une entrée vide, perturbant ainsi la résolution des adresses et rendant inaccessibles de nombreux services AWS.
Dans son analyse post-mortem, Amazon a précisé que cette erreur initiale s’est rapidement transformée en un problème beaucoup plus grave, mobilisant ses équipes d’ingénieurs pour une correction d’urgence. Les experts estiment que l’analogie avec un annuaire téléphonique est particulièrement pertinente : « Les gens sont là, mais si vous ne savez pas comment les contacter, vous avez un problème. Et cet annuaire téléphonique a disparu », explique Angelique Medina, directrice du service de surveillance du réseau ThousandEyes Internet Intelligence de Cisco, à CNN. Le professeur Indranil Gupta, de l’Université de l’Illinois, a comparé cette situation à un travail collaboratif sur un bloc-notes partagé : un étudiant rapide et un étudiant lent tentent d’écrire simultanément, le plus rapide effaçant parfois le travail du plus lent, aboutissant in fine à une page blanche. Cette « page vide » a provoqué l’arrêt de la base de données AWS DynamoDB, déclenchant un effet domino sur d’autres services essentiels comme EC2 (serveurs virtuels) et Network Load Balancer.
Suite à cet incident, Amazon a annoncé la mise en place de plusieurs modifications. L’entreprise travaille à corriger ce « scénario de condition de concurrence critique » et à ajouter des tests supplémentaires pour son service EC2. « Nous nous excusons pour l’impact que cet événement a causé sur nos clients », a déclaré Amazon dans son communiqué. « Nous savons que cet événement a affecté de manière significative de nombreux clients. Nous ferons tout notre possible pour tirer les leçons de cet événement et en tirer parti pour améliorer encore notre disponibilité. » Les pannes à grande échelle, bien qu’inévitables, soulignent l’importance de la réactivité et de la communication transparente des entreprises envers leurs clients, comme le rappelle Indranil Gupta.