Seviços

Portfólio

Blog

Contato

Internet - 24 de janeiro de 2014

Interrupção de hoje para vários serviços do Google

Hoje cedo, a maioria dos usuários do Google que utilizam os serviços registrados como Gmail, Google, Calendário e Documentos descobriram que eram incapazes de acessar esses serviços para aproximadamente 25 minutos. Para cerca de 10 por cento dos usuários, o problema persistiu por até 30 minutos a mais. Se o efeito foi breve ou durou a maior parte de uma hora, por favor, aceitem nossas desculpas, nós nos esforçamos para fazer todos os serviços do Google disponíveis e rápido para você, o tempo todo, e nós perdemos a marca de hoje.

O problema foi resolvido, e agora estamos focados em corrigir o erro que causou a falha, bem como a colocação de mais verificações e monitores no local para garantir que este tipo de problema não volte a acontecer. Se você estiver interessado na explicação técnica para o que ocorreu e como foi fixada, a ler.

Às 10:55 , esta manhã, um sistema interno que gera configurações-essencialmente, informações que indicam outros sistemas como se comportar-encontrou um bug de software e gerou uma configuração incorreta. A configuração incorreta foi enviado para viver serviços ao longo dos próximos 15 minutos, provocou pedidos dos usuários para que seus dados sejam ignorados, e os serviços, por sua vez, os erros gerados. Os usuários começaram a ver esses erros em serviços afetados às 11:02 horas da manhã, e naquele tempo o nosso monitoramento interno alertado site Confiabilidade Equipe do Google. Engenheiros ainda estavam depuração 12 minutos depois, quando o mesmo sistema, tendo limpo automaticamente o erro original, gerou uma nova configuração correta às 11:14 e começou a enviá-lo; erros subsided rapidamente começando neste momento. Por 11:30 a configuração correta estava ao vivo em todos os lugares e serviço de quase todos os usuários foi restaurada.

Com os serviços de mais uma vez a funcionar normalmente, o nosso trabalho está focada agora em (a) a remoção da fonte de falha que causou interrupção de hoje, e (b) acelerar a recuperação quando um problema ocorre. Nós vamos tomar as seguintes etapas nos próximos dias:
1. Corrigindo o bug no gerador de configuração para evitar a recorrência, e auditar todos os outros sistemas de geração de configuração fundamental para garantir que eles não contêm um bug similar.
2. Adicionando verificações de validação de entrada adicionais para configurações, de modo que uma má configuração gerados no futuro não vai resultar em interrupção do serviço.
3. Adicionando acompanhamento específico adicional para detectar e diagnosticar a causa da falha do serviço mais rapidamente.

Ben Treynor, Engenharia VP 

Compartilhe