Baza danych Google została wyłączona dwa tygodnie temu z racji wysokich temperatur w Londynie. Jak się okazało, w wyniku pomyłki, zamiast wyłączyć jedną wadliwą strefę, wyłączono wszystkie. Brak dostępu do usług trwał ponad 18 godzin.
Baza danych Google w opałach
19 lipca bieżącego roku baza danych Google została wyłączona w obawie o sprzęt. Tego dnia w Londynie zanotowano najwyższą temperaturę w roku, czyli 40,2 stopni Celsjusza. Jak wyjaśnia Google, doszło do incydentu, w którym nieumyślnie zmodyfikowano trasowanie ruchu dla wewnętrznych usług. Wyłączona miała ulec tylko jedna strefa”europe-west2-a”, jednak omyłkowo wyłączono wszystkie trzy -„europe-west2”.
Kiedy temperatury sprzętu sięgały niebezpiecznych granic, a systemy chłodzenia miały liczne awarie, inżynierowie wyłączyli pewną część bazy danych, aby przeprowadzić naprawy chłodzenia. W teorii powinna przestać funkcjonować tylko jedna, wyłączona strefa. Tak też zapewniało Google, że „usługi regionalne są tak zaprojektowane, aby przetrwać awarię pojedynczej strefy”.
Jak się okazało, coś poszło nie tak. W wyniku błędnej modyfikacji wewnętrznego systemu przestały działać wszystkie trzy strefy. Nie funkcjonowało wiele usług Google w tym m.in. Google Compute Engine, Persistent Disk, a także Google Cloud Storage. Co więcej, uniemożliwiło to klientom dostęp do danych z regionalnych usług pamięci masowej m.in. GCS i BigQuery. Usługi chmurowe wyłącznie były nieaktywne przez 18 godzin i 23 minuty.
Ma być bezpieczniej i chłodniej
Firma już podjęła kroki, aby w przyszłości uniknąć takich problemów. Przede wszystkim przeprowadzono naprawę, a także testy automatyki awaryjnej, która ma zapewnić większą odporność w krytycznych sytuacjach. Ponadto Google zbada i opracuje bardziej zaawansowane metody, które pozwolą zmniejszyć obciążenie termiczne w ramach pojedynczej przestrzeni centrum danych. Wszystko po to, aby zmniejszyć awaryjność i konieczność całkowitego wyłączania sprzętu.
Co więcej, wewnątrz firmy zostaną sprawdzone wszelkie procedury, narzędzia, audyty, aby jeszcze lepiej przygotować się na przyszłe problemy. Oczywiście baza danych Google posiada liczne kopie zapasowe, a więc klienci nie muszą martwić się o stracenie danych. Podobnie Oracle Cloud zostało zaskoczone 40 stopniami Celsjusza, powodując liczne problemy i usterki.
Źródło: TechRadar