Давайте коротко розглянемо деякі операції AWS як AIGC Startup SRE, я сподіваюся, що це зможе допомогти всім З самого початку онбордингу і до того, що наш основний кластер — це USE1, я почав займатися підготовкою. Це головні речі, які я роблю 1. Кілька наших основних баз даних були створені в декількох місцях, формуючи резервні копії USE1, Tokyo та SG. Таким чином, в крайніх випадках, ми втрачаємо частину даних, але також можемо забезпечити продовження служби 2. Реконструюйте наш тестовий кластер SG з оригінального EC2 K3S на стандартний кластер AWS EKS. Це дозволяє швидко прогріти кластер у разі катастрофи та повторно використовувати наявні компоненти AWS. Мінімізуйте витрати на явні зміни 3. Коротко розберіться з СОП, включаючи оголошення користувачів, перемикання DNS, блокування версій тощо Ще сьогодні, приблизно через 10 хвилин після інциденту з AWS, я виявив, що в наших контейнерах були нові капсули, які не можна було налаштувати. Після підтвердження зі службою підтримки AWS, що це проблема USE1, я зрозумів, що події ECR мають бути пов'язані з рештою подій, тому вирішив почати обробляти події рівня Tier1 за власним планом (для SRE такі речі краще помилитися, ніж пропустити) Т+0 хв, я опублікував оголошення для всього персоналу і почав переходити в аварійний режим. Я призначив публічне зібрання. Усі люди можуть приєднатися в будь-який час Т+2 хв, я підтвердив, що подія поступово розширюється, як я і очікував, і видав дві інструкції, 1. Заборонити будь-яке злиття/фіксацію коду в усіх напрямках (головним чином для запобігання тому, що новостворені ресурси спричиняють обертання подів для трафіку), 2. Підготуйте, будь ласка, оголошення для учнів операції T+3 хв, я почав слідкувати за СОП, запустив відновлення бази даних у регіоні SG та каскадував для створення залежностей типу OpenSearch/Redis тощо T+5 хв, ми почали офіційно підтверджувати конкретні проблеми основних залежностей і підтвердили, що це стосується нещодавно запущеного основного сервісу T+10min, буде опубліковано оголошення про призупинення нашої послуги та відповідне оголошення для решти послуг T+10хв, я попросив ще двох людей допомогти з налаштуванням нового ECR та очищенням існуючих ресурсів у тестовому середовищі одночасно, а також синхронізацією технічного то, в крайньому випадку, у нас може бути рішення зберегти досвід і втратити дані. T+15min, ми нарешті підтвердили, що створені на даний момент ресурси та напрямок вхідного трафіку не сильно постраждають. Перехід очікується, але ми продовжуємо готувати відповідні ресурси T+30min, наша перша база даних відновлена T+40min, наша друга база даних відновлена T+1h, усі наші пов'язані основні інфрачервоні, RDS/ES/Redis перебувають у режимі очікування, а параметри оптимізації, такі як master-slave, встановлюються відповідно до виробничої архітектури. Паралельно ми також починаємо запускати нові послуги в нових кластерах На щастя, зрештою, збій AWS не вплинув на всі наші сервіси. Нам не доводиться мати справу зі складними роботами з ремонту даних після перемикання трафіку Приблизно через T+2h до T+3h я офіційно повідомив про це весь персонал, і надзвичайний стан було скасовано. Щоб бути в безпеці, ми все одно будемо закриті для функцій сьогодні ввечері. Озираючись назад на весь цей інцидент, я міг би зробити більше 1. Розкрийте крайній випадок СОП, який я підготував для себе всім співробітникам. Це гарантує, що навіть якщо мене немає в мережі, хтось може зайняти моє місце 2. Ми можемо провести кілька попередніх тренувань 3. Накази можуть бути більш рішучими Ось і майже все, трохи поділитися, сподіваюся, це зможе допомогти всім