Comment une typo a temporairement démoli l'Internet
Selon votre lieu de résidence et les sites Web que vous visitez Les meilleurs sites sur Internet Les meilleurs sites sur Internet Une liste énorme des meilleurs sites sur Internet, dans quatorze catégories pratiques. Ceux-ci sont considérés comme les sites haut de gamme qui vous procureront ce dont vous avez besoin. En savoir plus, vous avez peut-être remarqué le comportement d'Internet mardi (28 février 2017). De nombreux sites Web ont été perturbés et des millions de personnes ont été touchées. Et maintenant, grâce à Amazon admettant la vérité, nous savons comment cela s'est passé…
Selon Amazon titré rudement “Résumé des perturbations du service Amazon S3 dans la région de la Virginie du Nord (US-EAST-1)” une seule faute de frappe était responsable de la prise d'Internet. Et non, ce n'est pas une faute de frappe. Une petite erreur d'un ingénieur malheureux a tué Internet pendant plusieurs heures.
Avez-vous essayé de l'éteindre et rallumer?
Comme Amazon l'explique, à 9h37, un ingénieur d'Amazon “exécuté une commande destinée à supprimer un petit nombre de serveurs pour l'un des sous-systèmes S3 utilisés par le processus de facturation S3”. Jusqu'ici, tout va bien, car ce membre de l'équipe faisait exactement ce pour quoi il était payé.
“Malheureusement, l'une des entrées de la commande a été mal saisie et un ensemble de serveurs plus volumineux a été supprimé.”. Ces serveurs “pris en charge deux autres sous-systèmes S3,” dont une “gère les métadonnées et les informations de localisation de tous les objets S3 de la région”. Ce qui a créé un problème sérieux.
Amazon a ensuite essayé de l'éteindre et de le rallumer. Malheureusement, “S3 a connu une croissance massive au cours des dernières années et le processus de redémarrage de ces services et d'exécution des contrôles de sécurité nécessaires pour valider l'intégrité des métadonnées a pris plus de temps que prévu.”. Il a donc fallu jusqu'à 13h54 pour que tout recommence à fonctionner correctement.
Afin d'éviter une répétition des performances, Amazon est “apporter plusieurs modifications à la suite de cet événement opérationnel”. Cela comprend l'introduction “sauvegardes pour empêcher le retrait de la capacité,” “Auditer nos autres outils opérationnels pour s'assurer que nous avons des contrôles de sécurité similaires,” et faire “modifications visant à améliorer le temps de récupération des sous-systèmes S3 clés”.
Nous vous avons dit que les typos importaient toujours
Une fois, je me suis dit que les fautes de frappe importaient toujours, même en ligne et dans les messages texte. Pourquoi les fautes de frappe toujours importantes, même les messages en ligne et en texte original [Opinion] . C'est naturel, une partie de la vie, une courbe d'apprentissage que nous utilisons pour nous améliorer. Les fautes de frappe ne font pas exception. Ils arrivent souvent, et si l'écriture forme un… Lire la suite. Cet incident malheureux le confirme, car il démontre l’impact dévastateur d’une faute de frappe solitaire. OK, nous ne sommes donc pas tous des ingénieurs Amazon chargés de maintenir Internet opérationnel, mais il n’ya toujours pas d’excuse!
Avez-vous été touché par la panne Amazon mardi? Quels sites avez-vous remarqué en train de mal tourner? Que pensez-vous du fait qu’une seule faute de frappe ait détruit Internet? Que doit faire Amazon pour éviter une répétition des performances? Veuillez nous en informer dans les commentaires ci-dessous!
Crédit d'image: Marco Verch via Flickr
En savoir plus sur: Amazon, Cloud Computing, Web Server.