sabe como as grandes empresas fazem para manter as suas aplicações online mesmo com milhares de usuários utilizando simultâneamente Pois é garantir a aut disponibilidade e a confiabilidade das aplicações fazem você se diferenciar no mercado de tecnologia seja desenvolvedor seja profissional de infraestrutura devops não importa garantir alta disponibilidade vai te diferenciar no mercado e existe uma disciplina que tem Exatamente esse objtivo que é a sre ou engenharia de confiabilidade de site e hoje eu quero trocar uma ideia com você exatamente sobre isso então bora [Aplausos] [Música] lá Fala aí beleza seja muito bem-vindo seja muito bem-vinda
a mais esse vídeo no canal eu sou Fabrício Veronez e hoje eu vou falar com você sobre uma disciplina de extrema importância para quem trabalha com aplicações que precisam de alta disponibilidade e habilidade nós vamos falar sobre site reability Engineering ou sre mas antes dá um like no vídeo pro YouTube entender que esse conteúdo é de qualidade Vale a Pena Ser distribuído e não deixa também de se inscrever no canal caso você não seja inscrito não seja inscrita e aciona o Sininho Porque toda semana tem conteúdo como esse aqui e se você quiser aprofundar o
seu conhecimento em devops em Cloud mas de forma acelerada onde eu conduzo você nessa jornada aí embaixo na descrição do vídeo tem o link onde você preenche o formulário com as suas informações a gente entra em contato com você para falar sobre a formação devops pro o meu treinamento que tem mais de 150 horas Onde você vai aprender docker kubernetes pipeline CCD vai ter acesso ao grupo com mais de 2.000 alunos e encontros semanais tudo isso para acelerar o seu aprendizado em devops Cláudio então o link tá aí embaixo é só você acessar preencher a
gente entra em contato com você beleza mas vamos lá antigamente nós tínhamos problemas ou indisponibilidades de uma aplicação quando ela ficava completamente fora do ar mas Hoje simplesmente se o sistema demora a responder o cliente já reclama ou desiste de usar uma aplicação existe um termo para isso que é o Slow is the new Down não O Lento é o novo indisponível então não se trata mais só de você deixar a aplicação no a ela precisa estar performando e ter a disponibilidade e existe uma disciplina criada justamente para resolver esse problema que é o site
reability Engineering ou sre Mas afinal o que é sre sre ou engenharia de confiabilidade de sites é a disciplina criada pelo Google para garantir que os sistemas funcionem de forma estável m mesmo sobre grande pressão ou demanda como por exemplo uma black friday ou outro evento de grande Impacto Já pensou como funciona para adquirir ingressos no rocking Rio por exemplo e outros eventos Pois é é mais ou menos isso aí o papel do S vai muito além do monitoramento de sistemas e de simplesmente abrir e fechar chamados a gente entra mais fundo trazendo automação e
uma análise contínua de tudo que tá rodando para prever e resolver problemas antes mesmo que eles aconteçam porque afinal de contas o que a gente quer no final é usuário feliz com a experiência que tá tudo funcionando como se espera certo então algumas tarefas vão fazer parte do dia a dia de um sre a primeira é garantir a confiabilidade do sistema Isso significa que independente do volume de acessos o sistema aí precisa est Sempre disponível e funcionando com corretamente além disso a automação de processos é essencial os SRS identificam aquelas tarefas repetitivas e demoradas e
entram de cabeça na criação de automações isso libera tempo e esforço para que o foco esteja sempre em resolver problemas mais críticos e otimizar o processo Outro ponto super importante é que o sre também tem um papel chave na gestão de incidentes quando algo acontece errado o sre Age rapidamente para restaurar o sistema e garantir que ele volte ao normal o mais rápido possível E é claro parte do trabalho é identificar a causa raiz do problema para evitar que isso aconteça de novo agora você pode estar pensando mas Fabrício o que você tá falando aí
eu pensei que era devops então sre devops parecem a mesma coisa e estão bem relacionados mas tem as suas particularidades é se e devops compartilham a ideia de melhorar a colaboração entre desenvolvimento e operações além de automatizar o processo para tornar tudo mais eficiente mas os focos são diferentes enquanto o devops tem um foco maior em acelerar e automatizar o processo de entrega de software o sre ele tá mais preocupado com a confiabilidade e estabilidade do sistema em produção esses dois mundos se complementam e não é raro você vê times de devops e sre trabalhando
juntos cada um trazendo o seu olhar para melhorar a entrega e a confiabilidade dos sistemas quando nós falamos de sre existem alguns termos e conceitos que são fundamentais para entender como a prática funciona no dia a dia o primeiro deles são os famosos SLS sli slo e s eles podem parecer complicados no começo mas são fáceis e é o seguinte o SL i é o service level indicator é uma métrica que representa o desempenho de um serviço de acordo com algum critério específico ele indica por exemplo o tempo de resposta de uma aplicação ou a
disponibilidade do sistema o slo ou service level objetive é o objetivo que estabelecemos para essa métrica por exemplo podemos dizer que o nosso objetivo é ter uma taxa de sucesso de 99 9% para as requisições do sistema E aí a equipe vai correr atrás para garantir esse valor o sla service level agreement é o acordo que fazemos com o cliente ou o usuário final ele define o nível de serviço que nós garantimos se não cumprimos esse acordo pode rolar eh penalidades e até multas esse nível de serviço ele é muito mais comercial do que realmente
técnico se você quiser saber mais sobre sli slo e sla tem um vídeo aqui no canal e eu vou deixar o Card aí para você assistir depois desse vídeo Relaxa você clicando aí não vai pro vídeo direto vai entrar e na sua playlist Você vai assistir em seguida então clica nele aí beleza outro conceito importante é o error Budget ou orçamento de erro ele estabelece o quanto de falha é aceitável no sistema sem comprometer a experiência do usuário isso equilibra a necessidade de inovação com a estabilidade quando o sistema tá indo bem o time pode
ser mais ousado e lançar novas features mas se o sisteme estiver instável o foco deve ser em garantir a confiabilidade antes de pensar em novos lançamentos e o error Budget é usado para medir Exatamente isso agora também não podemos deixar de fora o blameless post morem Esse é um processo que acontece sempre que um incidente ou um problem acontece a ideia aqui é identificar a causa raiz do problema e documentar o que aconteceu mas sem apontar culpados o foco aqui tá em aprender com erro e evitar que ele aconteça de novo sem gerar aquela cultura
de medo ou culpa dentro do time E é claro que se for possível automatizar o processo de recuperação caso isso aconteça de novo a equipe de sre ela vai criar essa automação e por último mas não menos importante nós temos o toil que é todo o trabalho manual repetitivo e chato que não agrega valor estratégico no sre nós buscamos sempre reduzir o toil ao máximo automatizando tarefas e deixando a equipe focar no que realmente importa garantia confiabilidade e escalabilidade do sistema agora vamos falar sobre as ferramentas e práticas que ajudam o sre a garantir que
os sistemas estejam sempre estáveis confiáveis e escaláveis a primeira coisa é a observabilidade a observabilidade permite que você entenda o que tá acontecendo no sistema em tempo real isso vai muito além de só métrica e log é sobre conseguir visualizar o estado do sistema e do seu ambiente como um todo então você vai utilizar aqui ferramentas como grafana Prometeus elastic dat dog e por aí vai beleza mas não adianta Só observar a ação e o ambiente outra parte importante do trabalho do sre é automatizar o máximo possível então ferramentas como terraform anb e pipelines são
fundamentais aqui e é claro que outras ferramentas como docker kubernetes e Cloud entram aqui também mas além de ferramentas é importante você ficar de olho em alguns padrões de resiliência então entender o que é o circuit Breaker que interrompe aquisições Quando acontecem falhas frequentes prevenindo que o sistema sobrecarregue e caia é muito importante também tem o r TR policy que faz novas Tentativas Em requisições que falharam mas tudo de forma controlada para evitar sobrecarga também no sistema esses padrões são implementados em ferramentas de service Mech como ISO Então vale a pena você entender como funciona
e como implementar e sabe aonde você você aprende essas ferramentas para implementar tanto em devops como em sre na formação devops pro com mais de 150 horas de conteúdos sobre kubernetes docker ISO e outras ferramentas desse ecossistema não deixa de clicar aí embaixo nos comentários para preencher o formulário e a gente entra em contato com você para trocar uma ideia bom então é isso eu espero que esse conteúdo tenha ajudado você a entender mais o que é sre o objtivo da sre e como isso vai ajudar você a criar aplicações escaláveis e de grande porte
se esse conteúdo te ajudou Comenta aí embaixo coloca nossa #rumo aelite e não deixa também de dar um like no vídeo pro YouTube entender que esse conteúdo é de qualidade Vale a Pena Ser distribuído e que outras pessoas que querem saber mais sobre sre assistam esse vídeo não deixa também de se inscrever no canal acionar o Sininho caso você ainda não tenha feito E compartilhe esse vídeo nas suas redes sociais para trazer mais gente aqui para assistir Beleza então é isso a gente se vê no próximo vídeo valeu