Zrobił zdjęcie na prośbę lekarza

Nie tylko wysokie temperatury. Mały błąd spowodował wyłączenie usług Google

2 minuty czytania
Komentarze

Baza danych Google została wyłączona dwa tygodnie temu z racji wysokich temperatur w Londynie. Jak się okazało, w wyniku pomyłki, zamiast wyłączyć jedną wadliwą strefę, wyłączono wszystkie. Brak dostępu do usług trwał ponad 18 godzin.

Baza danych Google w opałach

19 lipca bieżącego roku baza danych Google została wyłączona w obawie o sprzęt. Tego dnia w Londynie zanotowano najwyższą temperaturę w roku, czyli 40,2 stopni Celsjusza. Jak wyjaśnia Google, doszło do incydentu, w którym nieumyślnie zmodyfikowano trasowanie ruchu dla wewnętrznych usług. Wyłączona miała ulec tylko jedna strefa”europe-west2-a”, jednak omyłkowo wyłączono wszystkie trzy -„europe-west2”.

Kiedy temperatury sprzętu sięgały niebezpiecznych granic, a systemy chłodzenia miały liczne awarie, inżynierowie wyłączyli pewną część bazy danych, aby przeprowadzić naprawy chłodzenia. W teorii powinna przestać funkcjonować tylko jedna, wyłączona strefa. Tak też zapewniało Google, że „usługi regionalne są tak zaprojektowane, aby przetrwać awarię pojedynczej strefy”.

Baza danych Google. Zdjęcie podglądowe nie przedstawiające stanu faktycznego.

Jak się okazało, coś poszło nie tak. W wyniku błędnej modyfikacji wewnętrznego systemu przestały działać wszystkie trzy strefy. Nie funkcjonowało wiele usług Google w tym m.in. Google Compute Engine, Persistent Disk, a także Google Cloud Storage. Co więcej, uniemożliwiło to klientom dostęp do danych z regionalnych usług pamięci masowej m.in. GCS i BigQuery. Usługi chmurowe wyłącznie były nieaktywne przez 18 godzin i 23 minuty.

Ma być bezpieczniej i chłodniej

Firma już podjęła kroki, aby w przyszłości uniknąć takich problemów. Przede wszystkim przeprowadzono naprawę, a także testy automatyki awaryjnej, która ma zapewnić większą odporność w krytycznych sytuacjach. Ponadto Google zbada i opracuje bardziej zaawansowane metody, które pozwolą zmniejszyć obciążenie termiczne w ramach pojedynczej przestrzeni centrum danych. Wszystko po to, aby zmniejszyć awaryjność i konieczność całkowitego wyłączania sprzętu.

Co więcej, wewnątrz firmy zostaną sprawdzone wszelkie procedury, narzędzia, audyty, aby jeszcze lepiej przygotować się na przyszłe problemy. Oczywiście baza danych Google posiada liczne kopie zapasowe, a więc klienci nie muszą martwić się o stracenie danych. Podobnie Oracle Cloud zostało zaskoczone 40 stopniami Celsjusza, powodując liczne problemy i usterki.

Źródło: TechRadar

Motyw