DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

NadeshikoManju@薫る花は凛と咲く7月5日播出

Um desenvolvedor Python durante o dia Um desenvolvedor Java à noite Organizador @pythonhunter__ cofundador da PyCon China @containerd mantenedor do CTL. Super fã de @yurucamp_anime

Vamos revisar brevemente algumas das operações da AWS como um AIGC Startup SRE, espero que possa ajudar a todos Desde o início do onboarding até descobrir que nosso cluster principal era o USE1, comecei a fazer alguns preparativos. Estas são as principais coisas que faço 1. Vários de nossos bancos de dados principais foram copiados em vários lugares, formando backups USE1, Tóquio e SG. Desta forma, em casos extremos, perdemos parte dos dados, mas também podemos garantir a continuação do serviço 2. Reconstrua nosso cluster de teste SG do próprio EC2 original K3S para um cluster padrão do AWS EKS. Isso permite que você aqueça rapidamente um cluster em caso de desastre e reutilize componentes existentes da AWS. Minimize o custo das alterações de manifesto 3. Classifique brevemente um SOP, incluindo anúncios do usuário, troca de DNS, bloqueio de versão, etc Hoje, cerca de 10 minutos após o incidente da AWS, descobri que havia novos pods em nossos contêineres que não podiam ser configurados. Depois de confirmar com o AWS Support que era um problema do USE1, percebi que os eventos do ECR devem estar relacionados ao restante dos eventos, então decidi começar a lidar com eventos de nível Tier1 de acordo com meu próprio plano (para SREs, é melhor estar errado do que perdido) T + 0 min, emiti um anúncio para todos os funcionários e comecei a entrar no modo de emergência. Eu marquei uma reunião pública geral. Todas as pessoas podem participar a qualquer momento T+2 min, confirmei que o evento estava se expandindo gradualmente como eu esperava, e emiti duas instruções, 1. Proibir qualquer mesclagem/confirmação de código em toda a linha (principalmente para evitar que recursos recém-criados façam com que a rotação do pod afete o tráfego), 2. Por favor, prepare um anúncio para os alunos da operação T+3 min, comecei a seguir o SOP, iniciei a recuperação do banco de dados na região SG e coloquei em cascata para criar dependências como OpenSearch/Redis, etc T+5 min, começamos a confirmar oficialmente os problemas específicos das dependências upstream e downstream e confirmamos que um serviço principal recém-lançado foi afetado T+10min, nosso anúncio de suspensão de serviço e o anúncio afetado para o restante dos serviços serão emitidos T+10min, pedi a outras duas pessoas para auxiliar na configuração do novo ECR e limpar os recursos existentes no ambiente de teste ao mesmo tempo, e sincronizar o CTO, em casos extremos, podemos ter a decisão de preservar a experiência e perder dados. T+15min, finalmente confirmamos que os recursos criados até agora e a direção do tráfego de entrada não serão muito afetados. A transição está pendente, mas continuamos a preparar os recursos relevantes T+30min, nosso primeiro banco de dados é restaurado T+40min, nosso segundo banco de dados é restaurado T+1h, todas as nossas infraestruturas principais associadas, RDS/ES/Redis estão em espera e as opções de otimização, como mestre-escravo, são definidas de acordo com a arquitetura de produção. Ao mesmo tempo, também estamos começando a lançar novos serviços em novos clusters Felizmente, no final, a falha da AWS não afetou todos os nossos serviços. Não precisamos lidar com trabalhos complexos de reparo de dados após a troca de tráfego Após cerca de T + 2h a T + 3h, notifiquei oficialmente todos os funcionários e o estado de emergência foi suspenso. Para estar no lado seguro, ainda estaremos fechados para apresentar esta noite. Olhando para trás, para todo o incidente, eu poderia ter feito mais 1. Divulgue o SOP de caso extremo que preparei para mim mesmo a todos os funcionários. Isso garante que, mesmo que eu não esteja online, alguém possa tomar o meu lugar 2. Podemos fazer alguns exercícios avançados 3. As ordens podem ser mais decisivas É quase isso, um pouco de compartilhamento, espero que possa ajudar a todos

Melhores

Classificação

Favoritos