Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Давайте коротко розглянемо деякі операції AWS як AIGC Startup SRE, я сподіваюся, що це зможе допомогти всім
З самого початку онбордингу і до того, що наш основний кластер — це USE1, я почав займатися підготовкою.
Це головні речі, які я роблю
1. Кілька наших основних баз даних були створені в декількох місцях, формуючи резервні копії USE1, Tokyo та SG. Таким чином, в крайніх випадках, ми втрачаємо частину даних, але також можемо забезпечити продовження служби
2. Реконструюйте наш тестовий кластер SG з оригінального EC2 K3S на стандартний кластер AWS EKS. Це дозволяє швидко прогріти кластер у разі катастрофи та повторно використовувати наявні компоненти AWS. Мінімізуйте витрати на явні зміни
3. Коротко розберіться з СОП, включаючи оголошення користувачів, перемикання DNS, блокування версій тощо
Ще сьогодні, приблизно через 10 хвилин після інциденту з AWS, я виявив, що в наших контейнерах були нові капсули, які не можна було налаштувати.
Після підтвердження зі службою підтримки AWS, що це проблема USE1, я зрозумів, що події ECR мають бути пов'язані з рештою подій, тому вирішив почати обробляти події рівня Tier1 за власним планом (для SRE такі речі краще помилитися, ніж пропустити)
Т+0 хв, я опублікував оголошення для всього персоналу і почав переходити в аварійний режим. Я призначив публічне зібрання. Усі люди можуть приєднатися в будь-який час
Т+2 хв, я підтвердив, що подія поступово розширюється, як я і очікував, і видав дві інструкції, 1. Заборонити будь-яке злиття/фіксацію коду в усіх напрямках (головним чином для запобігання тому, що новостворені ресурси спричиняють обертання подів для трафіку), 2. Підготуйте, будь ласка, оголошення для учнів операції
T+3 хв, я почав слідкувати за СОП, запустив відновлення бази даних у регіоні SG та каскадував для створення залежностей типу OpenSearch/Redis тощо
T+5 хв, ми почали офіційно підтверджувати конкретні проблеми основних залежностей і підтвердили, що це стосується нещодавно запущеного основного сервісу
T+10min, буде опубліковано оголошення про призупинення нашої послуги та відповідне оголошення для решти послуг
T+10хв, я попросив ще двох людей допомогти з налаштуванням нового ECR та очищенням існуючих ресурсів у тестовому середовищі одночасно, а також синхронізацією технічного то, в крайньому випадку, у нас може бути рішення зберегти досвід і втратити дані.
T+15min, ми нарешті підтвердили, що створені на даний момент ресурси та напрямок вхідного трафіку не сильно постраждають. Перехід очікується, але ми продовжуємо готувати відповідні ресурси
T+30min, наша перша база даних відновлена
T+40min, наша друга база даних відновлена
T+1h, усі наші пов'язані основні інфрачервоні, RDS/ES/Redis перебувають у режимі очікування, а параметри оптимізації, такі як master-slave, встановлюються відповідно до виробничої архітектури. Паралельно ми також починаємо запускати нові послуги в нових кластерах
На щастя, зрештою, збій AWS не вплинув на всі наші сервіси. Нам не доводиться мати справу зі складними роботами з ремонту даних після перемикання трафіку
Приблизно через T+2h до T+3h я офіційно повідомив про це весь персонал, і надзвичайний стан було скасовано. Щоб бути в безпеці, ми все одно будемо закриті для функцій сьогодні ввечері.
Озираючись назад на весь цей інцидент, я міг би зробити більше
1. Розкрийте крайній випадок СОП, який я підготував для себе всім співробітникам. Це гарантує, що навіть якщо мене немає в мережі, хтось може зайняти моє місце
2. Ми можемо провести кілька попередніх тренувань
3. Накази можуть бути більш рішучими
Ось і майже все, трохи поділитися, сподіваюся, це зможе допомогти всім
Найкращі
Рейтинг
Вибране

