Foi ISSO que derrubou o Facebook, Instagram e o Whatsapp da Internet
191.21k views3186 WordsCopy TextShare
Gabriel Pato
A queda da rede do Facebook no dia 04 de outubro tirou da internet todos os seus produtos - mas curi...
Video Transcript:
nós ficamos 6 horas em poder acessar o Facebook e todos os seus produtos que inclui aí o Instagram o WhatsApp e o Messenger e as causas e as consequências dessa 6 horas que eram as reflexões e umas lições bem interessante instabilidade de até queda nesse serviços não são ali grandes novidades a gente já viu coisa do tipo aconteceu no passado pelo menos parcialmente Mas até então nada tinha chegado perto da dimensão do problema que rolou naquela segunda feira do dia quatro de outubro eu quis vir aqui bater esse papo com você para te contar o que rolou no Facebook e prata e causado o incidente tão complicado desse comentário aqui pela história que foi publicada pelo próprio Facebook em uma nota mas também com base em que a gente como usuário e o que outras empresas que monitoram a internet puderam observar que tava rolando aí nesse dia a Ótimo dia também quero falar de consequências bem interessantes que aconteceram em toda a internet por conta dessa queda do face bora lá então [Música] o Olá seja muito bem-vindo eu sou Gabriel pato e você tá no canal da galera que curte tecnologia aí rack você deve imaginar o Facebook processo número absurdamente grande de requisições aos seus conteúdos e operações são gigantes assim exigem uma infra especial que é bem complexa ver se tem diversos data Centers ao redor do mundo são centrais de processamento que controlam e possibilitam toda a operação dos produtos deles manutenções nessas rotas ou nesses data Centers são bastante comuns faz parte da rotina deles tem que desativar um pedaço dessa infraestrutura para fazer a manutenção Como por exemplo o aplicar atualizações e fazer melhorias e quando isso vai acontecer esse pedaço da rede que vai receber essa manutenção é desativado ela é desconectado é retirado do ar e é muito louco porque a gente como usuário nem percebe com essas coisas estão acontecendo isso porque todo o processamento que seria feita nesse segmento que foi desativado é direcionado para algum outro datacenter que esteja com operação normal ou seja tudo segue no ar operando normalmente e nem costuma notar que alguma coisa mudou só que foi uma operação de manutenção de rotina que O Pesadelo do Facebook no dia quatro de Outubro teve a nossa eles não aprofunda em muitos detalhes Mas eles contam time Commando foi usado em uma manutenção de forma equivocada o backbone de que se comando acabou derrubando a conexão nos datacenters do Facebook que era o interconectado então eles não derrubaram só a rede que a receber a manutenção acabou que caiu tudo da rede do Facebook tudo no pãozinho só olha que eles comentam na nota aqui eles têm um sistema aqui é o dita esses comandos que estão sendo usados para ver se eles são perigosos e para que eles nem cheguem ao dar para ele possa causar algum dano desse tipo mais no dia quatro esse sistema falhou que acabou não impedindo a execução do comando que foi usado cara fala sério eu não queria mesmo ser o cara que acabou dando esse que eu mandei errado eu sei que o Face não vai responsabilizar o cara aí que a culpa não é só dele mas eu imagino que ele tenha sentido uma é uma bad ao ver tudo o que acabou acontecendo por conta desse então deixa aproveitar e deixar aqui meu abraço virtual aí a esse colega de profissão força tamo junto com isso então as redes dos Servidores do Face perderam as suas rotas de conexão o que já sou a trágica o suficiente mas acredite em tá pro cenário piorar porque conhece acontecimento começaram a rolar várias reações em Cadeia complicadíssimas a primeira reação e talvez o maior problema de todos que eles tiveram foi a queda do DNS do Facebook é bem provável que você no dia quatro tenha ouvido falar bastante aí o termo DNS por aí porque a queda dele era apontado é da mídia aí como sendo o motivo da Queda dos serviços no Face o DNS é um serviço responsável por traduzir os nomes que a gente quer fazer conexão como por exemplo facebook. com os respectivos endereços IP dos seus servidores e a informação que de fato o nosso sistema precisa para poder estabelecer uma conexão um DNS fora do ar essa tradução de nomes NPS não é o nosso sistema não consegue nem esboçar uma intenção de se conectar no site ou no serviço em questão então assim durante a queda do dia quatro a gente aqui como usuário a gente conseguia ver que o problema que rolava quando a gente tentava entrar em facebook. com era Justamente esse nosso sistema não conseguia sequer se conectar no DNS deles para fazer essa tradução e pegar o IP dos Servidores do Face para gente conseguir se conectar e começar a Navegar mas eu comentei queda do DNS e na verdade foi uma reação ao comando mal executado na manutenção deles né se liga que interessante apesar de bastante trágico como uma queda do DNS e se relaciona com aquele comando mal executado o serviço de DNS do Facebook ainda estava operando eles não travaram para os Stories continuavam execução mas como aquele comando mais executado cortou as conexões internas entre os servidores do Face os servidores DNS perceberam que estavam sem essa comunicação entre os servidores e alto declaravam e inoperantes e é aqui que a pior reação de todas e o que que tem um sistema de gestão e mantém as rotas da sua rede com um residente da internet ver se tem vários servidores DNS espalhados pelo e a sua configuração derrota vai encaminhando usuários ao servidor DNS que vai responder a cada um deles e um servidor DNS do fez estiver fora do ar o sistema de gestão de rotas dele desliga na internet todas as rotas que estavam levando os usuários até esse servidor e agora está inoperante para que as próximas tentativas de acesso sejam levadas por rotas que estão chegando até um servidor DNS esteja operando normalmente e as estratégia é ótima eles tem vários servidores DNS espalhadas pelo mundo quando um cá e a rota dele é cortada e os usuários continuam conseguindo acessar porque as rotas que continuam existindo eu continuo levar os usuários aos servidores que estão no aí de novo nesse tipo de situação usuários nem perceberiam o problema Por mais que um DNS esteja fora do ar os outros dão ponta e a navegação seguiria funcionando numa boa sorte no dia quatro pontos dos Servidores DNS no Face foram afetados por esse problema do Black Bunny e se declararam inoperante e o sistema de gestão de rotas automaticamente então acabou desligando todas as notas possíveis que ligavam a internet aos servidores DNS do Face em todo mundo essa série de instruções de retirada de rotas é propagado aos provedores de infraestrutura da internet e por meio de um protocolo chamado bgpi esse comportamento atípico da rede do Face foi observado e logado por empresas que mantêm infraestrutura na internet ele tem mulheres que se tá vendo aqui tipo senão já tinha postado lá no meu Insta num dia foi gerado a partir de dados de uma organização e armazenar e disponibilizar esses registros de anúncios bgp a gente vê aqui então que as diversas rotas que existiam e possibilitavam o acesso da internet a um dos prefixos DP usados pelos servidores DNS do Face de repente do nada começaram a ser feito tiradas o que agora a gente já sabe então que foi por conta do sistema de gestão automática de rotas do Face que foi desativando as rotas dos Servidores DNS conforme eles percebiam que não tinha a interna até que não sobrou mais nenhuma rota disponível nesse ponto aqui qualquer tentativa de acessar produtos que usam domínios do Facebook do WhatsApp do Messenger não teria qualquer chance de funcionar sem os servidores DNS disponíveis agora o caso para o Instagram foi um pouquinho diferente porque eles usam servidores DNS da Amazon que por estar em outro lugar outra rede outra administração não caíram ou seja se você tentasse entrar em instagram.
com a tradução desse nome no endereço IP dos Servidores Instagram continua funcionando numa boa mas como internamente a aplicação Instagram precisa se conectar a outros servidores e outras estruturas no Face a obrigação não consegui a funcionar e não conseguia te entregar a experiência então está gradativamente por fora do Brasil e por curiosidade se você tentou entrar no facebook. com durante a queda do dia quatro você provavelmente se deparou com uma tela do seu navegador dizendo que teve um erro ao tentar enviar uma consulta DNS mas se você tem tô também entrar instagram. com Muito provavelmente se deparou com uma o erro 500 que significa que o seu navegador até conseguiu se conectar com algum servidor web do insta e enviar uma requisição pedindo ali a página no Instagram mas como no Instagram e teve seus problemas de comunicação interna eles não conseguiram processar essa resposta e retornavam então apenas um erro quinha agora se o problema do DNS já foi caótico para gente aqui como usuário se tem que ver a treta que isso significou para o lado da equipe do Face isso porque a queda DNS Acabou disponibilizando também ferramentas internas que aqui pelo Face ou isso atrapalhou muito a comunicação interna entre a equipe e impediu até os caras ao usarem ferramentas que teriam ajudado neles a diagnosticar EA operar toda a restauração da rede caras estavam impedidos de usar os próprios recursos internos dele e Vale lembrar que sem DNS até entrega de e-mails não era possível então a troca de mesa entre o time também foi prejudicado situação mas espera que tem mais sentem como tratar desse problema na distância o Face teve que enviar um time de Engenheiros até o datas e foi afetado Mas mesmo presencialmente lá o efeito da queda do DNS e atrapalhou muito a validação dos crachás dos funcionários nos escritórios e tá centro dos peixes também não tava rolando a catraca não tava funcionando e cara Data Center São muito rigorosos com controle de acesso e com segurança e pelo visto conseguiu acesso de novo os próprios servidores deles no próprio da central deles Foi algo muito trabalhoso e contribuiu bastante com a demora da Restauração quando finalmente tudo foi diagnosticado e corrigido e estavam ali prontos para voltar a operar surgiu a preocupação de que uma volta repentina da rede que poderia causar problemas nos data Centers isso porque como os produtos estavam fora do ar o processamento desse servidores deles tinham caído muito servidor estavam ociosos ali data Centers estavam operando com baixíssimo consumo de energia e com a volta dos produtos Eles teriam que voltar a praticamente a capacidade máxima tipo do 0 ao 100 totalmente do nada e isso poderia trazer é mas Onze equipamento mas por fim eles disseram aqui por tá já acostumado a fazer esses testes de estressar infraestrutura de um datacenter do nada acabou que eles conseguiram fazer o retorno acontecendo uma boa pelo menos Esse aspecto não foi um pesadelo para eles esse dia então após Quase 6 horas com todos os seus serviços fora do ar a equipe do Facebook conseguiu recuperar a rede e voltar suas operações pela pesadelo essa segunda-feira foi para o Facebook né agora um ponto interessante é ver as reações percebidas pelo resto da internet por consequência da queda no Facebook o primeiro.
Curioso É que muita gente começou a dizer que tava rolando um ataque Global a toda a internet porque muita gente ela percebendo que outros serviços também estavam fora do ar não era só o Facebook que tava offline e o mesmo resolvi várias inbox de inscritos perguntando disso quando comecei a comentar sobre essa queda nos meus Stories que a gente falando que vários outros sites estavam estáveis e até que algumas operadoras estavam com seus 3G ou 4G pés e tem condições de Navegar foi muita gente percebendo isso ao mesmo tempo então será que teve um ataque hacker aqui no meio Será que internet foi atacada que que aconteceu com todo o resto da rede ou é muito complicado a gente dá uma resposta precisa porque a gente teria que avaliar caso a caso cada provedor que está sendo afetado cada site destino que não tá carregando então é difícil dizer assim mas surgiram alguns dados aqui que podem sim justificar esses acontecimentos apresenta cloudflare mantém um serviço de DNS público gratuito usado por vários usuários ao redor do mundo que é o famoso 1. 1. 1 e derrotaram que quando a rede do Facebook caiu começou a rolar o mar chuva de consulta DNS e aos nomes de domínios dos produtos do Facebook esse gráfico aqui que divulgaram mostra que eles chegaram até 30 vezes mais solicitações de consultas DNS aos nomes do Facebook WhatsApp Instagram e Messenger do que Eles teriam de costume com serviços no ar eles especulam que isso se deu não apenas pelos usuários que tá se eu não voltar conectar vendo aí se fora do ar e tentando de novo Citando de novo mas principalmente por conta de softwares que tem como o comportamento padrão quando falha ao conectar o Facebook fica tentando de novo e de novo é bem curioso isso né Eu acho que é difícil cogitar a possibilidade do servidor do Facebook está fora do ar e aí vários softwares simplesmente problema uma nova tentativa porque isso é muito raro de acontecer cena que os programadores nem cogitam essa situação no caso da qual difere o serviço DNS deles até sentiu avançada mais e seguraram bem se realmente o repentino das requisições e conseguiram seguir operando numa boa agora a gente vai considerar que uma gigantesca parte dos usuários usam o DNS fornecido pelo seu próprio provedor local e muito desses provedores não tem aquele preparo pode-se então que essa falta de preparo para essa situação atípica é esse aumento repentino de consultas DNS tinha causado instabilidades nos DNS dos provedores por aí E como consequência os seus usuários acabam tendo dificuldades para fazer consultas de um para vários sites da internet e eles acabam tendo essa impressão de que a internet inteira tá com problema a cola de frete também apontou que não identificou ataque de negação de serviço acontecendo pela internet e acima do volume de costume do que já seria esperado ali para que horário e Vale ressaltar que que se tivesse enrolando grandes ataque de negação de serviço pela internet e seria percebido por vários outros professores por vários provedores de infraestrutura na rede e essa altura a gente teria bem mais relatos e bem mais dados por aí então realmente a história de tecido um grande ataque de negação de serviço a toda a internet não se sustenta muito agora Outro fator interessante e que talvez tentar é contribuído com essa chacoalhada na infraestrutura da internet toda foi a mudança do padrão de consumo dos usuários esse gráfico também da Ford fera aponta que o acesso a redes sociais concorrência do Facebook e também de mensageiros concorrentes do Messenger e do WhatsApp tiveram aumento durante a queda no Face mas não foi lá algo tão significativa assim eles notaram também acesso os Acima da média em Plata o pênis como a Steam EA Xbox Live porque se não tem rede social no ar Bora curtir Gamer né e por fim sites de jornais também tiveram uma ligeira alta Possivelmente porque os usuários estavam atrás aí de notícias para tentar entender tudo o que estava acontecendo agora também vale a gente lembrar que vários produtos e componentes fornecidos pelo Facebook são usados como parte de vários sites pela rede em site que usa aquele botãozinho no Facebook para logar autenticar os usuários alguns usam Face para ver colar não se usou para em da sistemas de comentários ou publicações do Face e notícias por aí então é claro que no Facebook fora do ar esses componentes que não estavam funcionando e a navegação dos estados que usavam eles Foi sim prejudicado e olha essa cidade aqui interessante existe o recurso que tá em teste no Chrome chamado Network error log Coelho site que você está visitando pode pedir para o seu navegador Chrome Envia um relatório de erro de rede para algum endereço para ele definida pelo site caso esse usuário tenha qualquer problema de rede durante o carregamento é muita página pode Perry usa isso no site dos seus clientes para entender melhor os problemas de rede que esses usuários estão passando que esse gráfico que eles divulgaram deixa nítido o drástico aumento da quantidade de uma hipótese de erro de rede recebidos durante a queda do Facebook isso o que que a gente tá vendo foi só do Chrome e reportando atual de frete que não conseguiu carregar algum componente usado em um site de seus clientes pode flagra marido também a performance de 400 sites que utilizavam esses recursos do Face e como parte aí das suas páginas o gráfico que eles produziram com essa análise Deixa claro que enquanto Face tava fora do arco navegadores dos usuários levou de 1.