Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

NadeshikoManju@薫る花は凛と咲く7月5日播出
Un desarrollador de Python durante el día Un desarrollador de Java por la noche Organizador @pythonhunter__ cofundador @containerd mantenedor de CTL de PyCon China. Súper fan de @yurucamp_anime
Repasemos brevemente algunas de las operaciones de AWS como un SRE de inicio de AIGC, espero que pueda ayudar a todos
Desde el comienzo de la incorporación para descubrir que nuestro clúster principal era USE1, comencé a hacer algunos preparativos.
Estas son las principales cosas que hago
1. Se ha realizado una copia de seguridad de varias de nuestras bases de datos principales en varios lugares, formando copias de seguridad de USE1, Tokyo y SG. De esta forma, en casos extremos, perdemos parte de los datos, pero también podemos asegurar la continuidad del servicio
2. Reconstruya nuestro clúster de prueba SG desde el EC2 original K3S a un clúster estándar de AWS EKS. Esto le permite preparar rápidamente un clúster en caso de desastre y reutilizar los componentes de AWS existentes. Minimizar el costo de los cambios de manifiesto
3. Resuelva brevemente un SOP, incluidos los anuncios de usuario, el cambio de DNS, el bloqueo de versiones, etc.
Hoy, unos 10 minutos después del incidente de AWS, descubrí que había nuevos pods en nuestros contenedores que no se podían configurar.
Después de confirmar con AWS Support que se trataba de un problema de USE1, me di cuenta de que los eventos de ECR deben estar relacionados con el resto de los eventos, así que decidí comenzar a manejar eventos de nivel de nivel 1 de acuerdo con mi propio plan (para SRE, este tipo de cosas es mejor equivocarse que perderse)
T + 0 min, emití un anuncio de todo el personal y comencé a entrar en modo de emergencia. Organicé una reunión pública de todos. Todas las personas pueden unirse en cualquier momento
T+2 min, confirmé que el evento se estaba expandiendo gradualmente como esperaba, y emití dos instrucciones, 1. Prohibir cualquier fusión/confirmación de código en todos los ámbitos (principalmente para evitar que los recursos recién creados provoquen que la rotación de pods afecte al tráfico), 2. Por favor, prepare un anuncio para los estudiantes de la operación
T + 3 min, comencé a seguir el SOP, comencé la recuperación de la base de datos en la región SG y me conecté en cascada para crear dependencias como OpenSearch / Redis, etc
T + 5 min, comenzamos a confirmar oficialmente los problemas específicos de las dependencias ascendentes y descendentes, y confirmamos que un servicio central recién lanzado se vio afectado
A + 10 minutos, se emitirá nuestro anuncio de suspensión del servicio y el anuncio afectado para el resto de los servicios
T + 10min, le pedí a otras dos personas que ayudaran a configurar el nuevo ECR y limpiar los recursos existentes en el entorno de prueba al mismo tiempo, y sincronizar el CTO, en casos extremos, podemos tener la decisión de preservar la experiencia y perder datos.
T + 15min, finalmente confirmamos que los recursos creados hasta ahora y la dirección del tráfico entrante no se verán muy afectados. El cambio está pendiente, pero seguimos preparando los recursos pertinentes
T+30min, nuestra primera base de datos está restaurada
T+40min, nuestra segunda base de datos está restaurada
T + 1h, todas nuestras infraestructuras centrales asociadas, RDS / ES / Redis están en espera, y las opciones de optimización como maestro-esclavo se configuran de acuerdo con la arquitectura de producción. Al mismo tiempo, también estamos comenzando a lanzar nuevos servicios en nuevos clústeres
Afortunadamente, al final, la caída de AWS no afectó a todos nuestros servicios. No tenemos que lidiar con trabajos complejos de reparación de datos después de cambiar el tráfico
Después de aproximadamente T + 2h a T + 3h, notifiqué oficialmente a todo el personal y se levantó el estado de emergencia. Para estar seguros, todavía estaremos cerrados para presentar esta noche.
Mirando hacia atrás en todo el incidente, podría haber hecho más
1. Revelar el SOP del caso extremo que preparé para mí mismo a todos los empleados. Esto asegura que incluso si no estoy en línea, alguien puede tomar mi lugar
2. Podemos hacer algunos simulacros avanzados
3. Los pedidos pueden ser más decisivos
Eso es casi todo, un poco de compartir, espero que pueda ayudar a todos
3.06K
Hablemos de ello violentamente
Con el advenimiento de la era de la IA, las bases de código y las arquitecturas continuarán corrompiéndose a un ritmo sin precedentes.
Esto significará que la estabilidad es cada vez más difícil de lograr. Muchos detalles de estabilidad y mejores prácticas que antes se pasaban por alto se amplificarán en la era de la IA. Cada vez más startups se encuentran con sus propios cuellos de botella arquitectónicos antes de lo esperado o cuando llega el momento de pagar la deuda técnica
Otro significado de la estabilidad que se vuelve cada vez más difícil es que cada vez hay menos personas que pueden hacer estabilidad. En el caso de la codificación de vibración, cada vez hay menos personas que pueden calmarse y hacer estabilidad
83
Populares
Ranking
Favoritas