Amazon, AWS Sitelerinin Neden Çöktüğünü Açıkladı!
Geçtiğimiz günlerde internetin önemli bir kısmının çökmesine yol açan sorunun nedeni, Amazon tarafından açıklandı!
Amazon Web Services (AWS) üzerinde yaşanan arıza, internetin geniş bir kısmını bir süre için erişilmez hale getirmişti. Sorunun Amazon'un ABD'deki S3 sunucularında yaşandığı biliniyordu, ancak nedeni tam olarak açıklanmamıştı. Artık sorunun nedenini de biliyoruz.
Amazon'un açıklamasına göre S3 sunucularında yaşanan bir yavaşlık üzerine, bir çalışan takımı birkaç sunucuyu çevrimdışı hale getirerek sorunu onarmaya çalıştı. Ancak bu sırada bir komutun yanlış yazılması sonucunda amaçlanandan daha çok sunucu devreden çıktı. Bu hata sonucunda US-EAST-1 bölgesindeki tüm S3 nesneleri için gerekli olan iki alt sistem, devre dışı kaldı. Bunun ardından iki sistemi yeniden başlatma ihtiyacı doğru ve yeniden başlatma işlemi, "meta verisinin bütünlüğünün kontrol edilmesi", firmanın açıklamasına göre "beklenenden uzun sürdü".
Sorundan dolayı özür dileyen Amazon, aynı sorunun tekrar yaşanmasını engelleyecek birkaç değişiklik yaptı. Firma yaptığı açıklamada "kapasitenin bir kısmının kaldırılmasının" her zaman yapılan bir iş olduğunu ancak aracın bir defada çok fazla kapasiteyi kaldırmaya izin verdiğini, bunu değiştirdiklerini ve kapasitenin artık daha yavaş biçimde kaldırılacağını, buna ilave olarak minimum kapasiteyi kaldırmayı engelleyecek güvenlik önlemleri aldıklarını söyledi.
Amazon, AWS Service Health Dashboard'un yönetim konsolunda da bir değişiklik yaptı ve böylece araç, birden çok bölgede çalışır hale geldi.