المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
دعنا نراجع بإيجاز بعض عمليات AWS بصفتها AIGC Startup SRE ، وآمل أن تساعد الجميع
منذ بداية الإعداد لاكتشاف أن مجموعتنا الرئيسية كانت USE1 ، بدأت في القيام ببعض الاستعدادات.
هذه هي الأشياء الرئيسية التي أفعلها
1. تم نسخ العديد من قواعد البيانات الأساسية الخاصة بنا احتياطيا في أماكن متعددة ، لتشكيل نسخ احتياطية من USE1 و Tokyo و SG. بهذه الطريقة ، في الحالات القصوى ، نفقد جزءا من البيانات ، ولكن يمكننا أيضا ضمان استمرار الخدمة
2. إعادة بناء مجموعة اختبار SG الخاصة بنا من EC2 الأصلي K3S إلى مجموعة AWS EKS القياسية. يتيح لك ذلك تسخين نظام مجموعة بسرعة في حالة وقوع كارثة وإعادة استخدام مكونات AWS الموجودة. تقليل تكلفة تغييرات البيان
3. قم بفرز إجراء تشغيلي موجز ، بما في ذلك إعلانات المستخدم ، وتبديل DNS ، وحظر الإصدار ، وما إلى ذلك
مرة أخرى اليوم ، بعد حوالي 10 دقائق من حادث AWS ، اكتشفت أن هناك كبسولات جديدة في حاوياتنا لا يمكن إعدادها.
بعد التأكد من دعم AWS أنها كانت مشكلة USE1 ، أدركت أن أحداث ECR يجب أن تكون مرتبطة ببقية الأحداث ، لذلك قررت البدء في التعامل مع أحداث مستوى Tier1 وفقا لخطتي الخاصة (بالنسبة ل SREs ، من الأفضل أن يكون هذا النوع من الأشياء مخطئا بدلا من تفويته)
T + 0 دقيقة ، أصدرت إعلانا لجميع الموظفين وبدأت في الدخول في وضع الطوارئ. أقمت اجتماعا عاما شاملا. يمكن لجميع الأشخاص الانضمام في أي وقت
T + 2 دقيقة ، أكدت أن الحدث يتوسع تدريجيا كما توقعت ، وأصدرت تعليمتين ، 1. حظر أي دمج / التزام بالتعليمات البرمجية في جميع المجالات (بشكل أساسي لمنع الموارد التي تم إنشاؤها حديثا من التسبب في دوران الكبسولة للتأثير على حركة المرور) ، 2. يرجى إعداد إعلان لطلاب العملية
T + 3 دقائق ، بدأت في متابعة إجراء التشغيل التشغيلي الموحد ، وبدأت استعادة قاعدة البيانات في منطقة SG ، وتتاليت لإنشاء تبعيات مثل OpenSearch / Redis ، وما إلى ذلك
T + 5 دقائق ، بدأنا في التأكيد رسميا على المشكلات المحددة للتبعيات الأولية والمصب ، وأكدنا أن الخدمة الأساسية التي تم إطلاقها حديثا قد تأثرت
T + 10min ، سيتم إصدار إعلان تعليق الخدمة والإعلان المتأثر لبقية الخدمات
T + 10min ، طلبت من شخصين آخرين المساعدة في إعداد ECR الجديد وتنظيف الموارد الموجودة في بيئة الاختبار في نفس الوقت ، ومزامنة CTO ، في الحالات القصوى ، قد يكون لدينا قرار الحفاظ على التجربة وفقدان البيانات.
T + 15 دقيقة ، أكدنا أخيرا أن الموارد التي تم إنشاؤها حتى الآن واتجاه حركة المرور الواردة لن تتأثر بشكل كبير. التحويل معلق ، لكننا نواصل إعداد الموارد ذات الصلة
T + 30min ، تمت استعادة قاعدة بياناتنا الأولى
T + 40min ، تمت استعادة قاعدة البيانات الثانية
T + 1h ، جميع البنية التحتية الأساسية المرتبطة بنا ، RDS / ES / Redis في وضع الاستعداد ، ويتم تعيين خيارات التحسين مثل العبد الرئيسي وفقا لبنية الإنتاج. وفي الوقت نفسه، بدأنا أيضا في إطلاق خدمات جديدة في مجموعات جديدة
لحسن الحظ ، في النهاية ، لم يؤثر تعطل AWS على جميع خدماتنا. لسنا مضطرين للتعامل مع أعمال إصلاح البيانات المعقدة بعد تبديل حركة المرور
بعد حوالي T + 2h إلى T + 3h ، أبلغت جميع الموظفين رسميا وتم رفع حالة الطوارئ. لكي نكون في الجانب الآمن ، سنظل مغلقين للظهور الليلة.
إذا نظرنا إلى الوراء في الحادث برمته ، كان بإمكاني فعل المزيد
1. الإفصاح عن إجراءات التشغيل القياسية في الحالة القصوى التي أعددتها لنفسي لجميع الموظفين. هذا يضمن أنه حتى لو لم أكن متصلا بالإنترنت ، يمكن لشخص ما أن يأخذ مكاني
2. يمكننا القيام ببعض التدريبات المتقدمة
3. يمكن أن تكون الطلبات أكثر حسما
هذا كل شيء تقريبا ، القليل من المشاركة ، آمل أن يساعد الجميع
الأفضل
المُتصدِّرة
التطبيقات المفضلة

