bom boa noite aí todo mundo eu espero que vocês estejam bem ã troquei aqui a câmera e a e as coisas mas acho que ficou ficou bom tá dando para enxergar de boas vamos fazer o conteú dininho dessa forma hoje numa outra tela eu acho que vai dar boa e aí a gente vai avançando tá então já são aí 19:36 5 minutinhos aí de tolerância pra galera aí chegando então conforme a galera for chegando a gente já vai interagindo e já vou começar aqui então conversando com vocês beleza bom é o seguinte meu povo e
a gente vai falar sobre estatística básica tá vamos falar sobre estatística básica é primeira primeira não é a segunda vez que a gente tá ministrando esse curso aqui na Twitch tá é a segunda vez primeira vez foi ano passado no finalzinho do ano ali perto de Setembro setembro outubro e agora a gente tá voltando com esse curso porque foi um curso muito bom foi um curso que acho que Clareou bastante as ideias aí da galera que às vezes não manjava né o que que era estatística como que funciona os primeiros passos e a gente tá
fazendo repeto ã mudando um pouquinho algumas coisas melhorando Enfim então cada ano que passa a gente vai ficando melhor né nessa parada e o objetivo aqui é realmente fazer uma abordagem para pessoas iniciantes na área de dados então se você aí já tem uma graduação em estatística por exemplo não vai ter nenhuma novidade a ideia que é realmente pegar na mão A ideia é ajudar aí a galera que que tá dando os primeiros passos na sua jornada em dados e não necessariamente só na área de dados né se você é por exemplo da área de
produto da área de Tecnologia da área de marketing da área do comercial da área do financeiro e etc você também vai conseguir aproveitar bastante esse material aqui com certeza Beleza então espero que seja muito positivo aí para vocês tá bom contar rapidamente sobre mim acho que a maioria aí me conhece se você não me conhece digita não aí no no chat para eu saber se tem gente aí que nunca tinha ouvido falar de mim mas basicamente eu trabalho com dados aí desde 2014 né no meu estágio mas como CLT Zinha desde 2016 passei por diferentes
empresas no mercado de trabalho passei por diferentes posições desde analistas ali analistas eh analistas de de negócio né ou cientista de dados também parte de analista de de CRM também já fui enfim e nos últimos 3S anos aí eu tenho atuado como liderança dentro da área de dados né Eh tanto em startups mas também empresas maiores né minha primeira posição de gestão de liderança foi na uma das maiores empresas de varejo aí do do Brasil que é Via Varejo e também tive oportunidade de ser diretor de dados ali no na gamers Club famosa gzin construindo
área de dados do zero construindo time do zero construindo Parque de Tecnologia do zero foi uma experiência muito bacana e também ali na idwall e como gerente de dados de data Science Mais especificamente data Science Analytics liderando um time bem grande tá bom e a minha formação que já estão perguntando no chat minha primeira formação né minha minha meu baixarel é em estatística e por isso desafio de falar sobre estatística sendo estatístico sempre dá um pouco de ansiedade pra gente falar da nossa formação mas o formado em estatística e tem uma pós-graduação em Big Data
e data Science na UFPR né minha formação estatística é aqui na minha cidade natal cidade que eu cresci nasci e também estou vivendo hoje que é Presidente Prudente Então sou formado em estatística na UNESP de Presidente Prudente tá bom bom então é isso galera de forma bem rápida e nos últimos três meses aí estou dedicado exclusivamente a minha iniciativa de ensino de educação tá bom então é é muito importante aí reforçar isso que hoje estamos aí dedicados 100% a essa iniciativa aqui que vocês estão apreciando hoje e um mérito aí que eu acho que é
muito legal a gente trazer é que embora eu esteja na Twitch desde 2019 a gente conseguiu Partner no último mês então somos parceiros da twit aí desde março de 2024 então é uma coisa muito uma conquista que pra gente representa bastante coisa bastante esforço bastante engaja ento aí e apoio da comunidade Demorou e sou parceiro do Instituto Eron shorts então vocês vão ver o logo do Instituto aqui sempre eu carrego o logo do Instituto aon Schwartz depois conheça mais sobre o Instituto aon Schwartz conheça mais sobre o aon Schwartz também que acho que vale muito
a pena Tá super alinhado com o nosso objetivo aqui do projeto Demorou Bom vamos lá vamos para alguns combinados aqui tá bom vamos para alguns combinados e a gente sempre vai começar às 19:30 hoje é só o primeiro dia de curso a gente vai ter curso hoje amanhã quarta quinta e sexta será uma semana recheada de conteúdo voltado à análise de dados estatística Tá bom a gente sempre vai começar à 19:30 vamos até aproximadamente 22 horas meu objetivo não é passar das 22 horas porque a gente sabe que o trabalhadorzinho a trabalhadorzinho brasileira aí proletariado
tem que dormir para descansar porque amanhã tem mais trabalho então a gente também não quer ã desmotivar ninguém aí no curso e não deixar ninguém mais cansado do que já tá beleza e vamos fazer uma pausinha aí às 15 pras 9 pra gente poder respirar esticar um pouquinho os braços esticar as pernas para poder eh também continuar focado depois tomar uma água né e e assim vai a gente vai desligar as notificações Beleza então já desliguei a notificação dos subs da das nossas assinaturas aí mas a gente vai eh contar podem continuar eh apoiando o
nosso canal podem continuar liberando aí as assinaturas que contribui muito é o que sustenta hoje o nosso canal tá bom Um Outro ponto aqui na Twitch a galera que tá chegando a gente tem os eh as propagandas né os ads os famosos advertising Então sempre que tiver um Ed a gente vai pausar para dar uma respirada deixar o Ed passar para ninguém eh perder nenhuma parte do conteúdo tá bom Outra coisa galera evitem spamar a mesma coisa no chat se você fez uma pergunta ou se você falou alguma coisa e por algum motivo eu ignorei
ou não falei etc não fique batendo nisso mesma tecla sempre tem algum motivo por trás beleza Eh seja porque essa pergunta tá fora do contexto seja porque eu já falei dessa pergunta ano passado se tem tem n fatores beleza Eh então não fiquem spamando a mesma coisa ali Como se eu tivesse obrigação de responder tá Outro ponto a gente vai banir qualquer tipo de comentário bizarro que apareça no chat sem aviso beleza aqui não tem tiro de advertência aqui Apareceu alguma coisa bizarra alguma discriminação algum tipo de racismo sexismo etc não tem aviso os moderadores
estão aí para passar realmente o ban sem eh nenhum tipo de aviso Demorou e por último Galera vocês vão ter acesso a todo material que a gente produz digitando exclamação PPT Então dentro do exclamação PT aí que vocês não precisa todo mundo do chat digitar pessoa digita já vai aparecer o link vocês acesso a todo o conteúdo tanto o material quanto também alguns dados que a gente tá fornecendo tá bom continuando aqui galera um aviso extremamente importante que deve ser uma das dúvidas aí a gente tem no último dia Isto é na sexta-feira a gente
tem nosso sorteio então além de você tá fazendo acompanhar aqui um conteúdo que é gratuito que é de qualidade que é tru da tru que é verdadeiro né é com uma pessoa que tem experiência além de tudo isso você também vai poder concorrer a livros no último dia tá bom então aproveite aí para acompanhar todos os dias porque no último dia você consegue e fazer participar do nosso sorteio além disso a gente também Vai disponibilizar certificados para quem for inscrito no nosso canal Então você tem interesse em ter uma certificação aqui com a gente seja
sub do nosso canal que a gente vai disponibilizar na nossa lojinha uma recompensa para você poder fazer a provinha de certificação tá bom do nosso do nosso curso então vai custar alguns pontinhos para você juntar esses pontinhos é só assistir a Live é só participar que esses pontos vê beleza e se você também tem outras formas de você ganhar pontos seja doando e contribuindo aí financeiramente pro nosso projeto Mas também você pode fazer aí a sua inscrição para ganhar pontos e também durante as transmissões você ganha pontos em dobro tá bom então considere ser sub
considere ser assinante do nosso canal Tá bom mais um ponto aqui que eu acho que é importante galera nosso foco é o básico bem feito a gente vai sempre tá carregando essa bandeira a gente não vai avançar e em coisas extremamente complexas E se eu não eu vou abordar o que tem no material então não adianta ficar falando para eu abordar outras coisas outros temas falar de outras coisas que não estão no material o que tiver no material vai ser a dado Beleza então a ideia aqui é fazer realmente o básico bem feito e que
a gente possa colocar aqui um conteúdo que ajude você nos primeiros passos em análise de dados em ciência de dados e você depois poder ir atrás de um conhecimento mais complexo em outras literaturas beleza Eh que mais e se tiver algo que eu não tô abordando se tiver algo que você explicaria diferente tem algo que você falaria né de forma mais complexa etc fica a dica aí Produza um material o Bruno tá perguntando né sobre os tipos de assinatura não muda o que muda é a contribuição o valor da contribuição as recompensas digamos assim é
a mesma independente do tipo de assinatura tá bom é isso Belê E aí galera por fim pra gente poder já começar efetivamente com o nosso trabalho aqui com a apresentação e tal eu gostaria de deixar esse esse recado de que a gente precisa do seu apoio tá então a gente faz cursos nossos cursos aqui são 100% gratuitos é uma um conteúdo que a gente faz com muito carinho muita dedicação todo mundo aí que tá na nas lives aí acompanham e vem como a gente se dedica nisso dia a dia então considere apoiar uma iniciativa dessa
uma iniciativa que está querendo cada vez mais trazer conteúdo de qualidade para a comunidade de forma gratuita tem várias formas de apoio você pode apoiar com o próprio apoia-se de forma recorrente lá na plataforma do apoia tem o Live pics para você mandar mensagens aí durante as nossas transmissões você pode ser assinante aqui da Twitch também tem várias formas de você ser assinante aqui na Twitch você pode utilizar seu Amazon Prime para ser assinante da Twitch você pode também aí utilizar assinaturas de um período mais longo de 3 meses 6 meses meses e assim por
diante tá bom temos o nosso canal no YouTube que também tá começando a ficar cada vez mais recheado com conteúdo e conteúdo também exclusivo ou antecipado então considere dá uma olhada lá no nosso YouTube e pra galera aí mais Dev galera que já tá na área de desenvolvimento considere também o github sponsors Beleza github sponsors tem bastante coisa lá e tem tem uma uma forma muito legal de você apoiar nosso projeto e todo o nosso código sempre tá disponível no github tá então dá uma olhadinha lá beleza eu vou pedir um favor para vocês um
favor para todo mundo que tá no chat Isso é irrestrito se aparecer uma pergunta no chat que você sabe a resposta por exemplo té como é que eu acesso vai ficar gravado por exemplo vai ficar gravado todo mundo já sabe que vai ficar gravado certo mundo que assistiu até aqui já sabe que vai ficar gravado responda essa pessoa tá para eu não precisar parar aqui e falar vai entendeu ah T vai ter certificado vocês já sabem como é que funciona o certificado Então responda essa pessoa aí no chat tá quem puder não tô pedindo para
todo mundo mas quem puder faça essa gentileza porque eu não preciso parar para fazer isso Bel Diferentemente de uma sala de aula que isso viraria uma baderna né Eh fica mais fácil quando a gente tá no chat aí e uma pessoa pode ajudar a outra Belê Beleza então vamos lá galera a gente vai a gente vai começar hoje falando sobre introduções estatística vamos falar sobre o que é para que serve Qual que é a diferença de uma população Qual que é a diferença de uma população para uma amostra vamos entender o que que é um
conjunto de dados vamos entender também os tipos de variáveis que existem e no mundo dos dados eh Quais são as medidas de resumo o que são medidas de resumo né e e algumas delas vamos falar sobre gráficos também representações gráficas também vamos falar sobre a probabilidade distribuição normal e intervalo de confiança essa é a nossa enta então a gente sai desde a estatística descritiva a parte conceitual e a gente chega eh até a parte ali de intervalo de confiança e teste de hipótese tá bom eh disso que consiste o nosso curso aqui hoje tá ã
E aí vamos lá podemos começar podemos d-lhe Então tá bom salve PX Bom demais então o seguinte galera primeira coisa que a gente tem que pensar em estatística é realmente que a gente vai ter sempre a gente sempre vai estar olhando para um grupo de objetos né E esse grupo de objetos pode ser absolutamente qualquer coisa pode ser um grupo de pessoas pode ser um grupo de animais pode ser um grupo de máquinas pode ser absolutamente qualquer coisa beleza e aí a partir deste deste grupo A gente pode começar a realizar algumas perguntas sobre este
grupo como por exemplo quantas pessoas a gente tem nesse grupo que a gente chama de população que é o todo né o grupo completo Eh quantas pessoas que existem nessa população eh 12 pessoas quantas pessoas azuis quatro pessoas azuis Qual que é a taxa de vermelhos e amarelos taxa de 33% né então durante o nosso dia a dia durante a nossa rotina a gente sempre tá realizando estatística a gente sempre tá calculando Alguma coisa Alguma estatística e o que a gente tem que ter muito claro nossa cabeça é que estatística ela é um resumo dos
dados Se isso tiver Claro na sua cabeça já Vai facilitar para caramba então estatística é um resumo dos dados eu estou pegando essa essa população inteira aqui estou pegando a população inteira que tem uma diversidade aqui de cores né e estou Resumindo esta população em um único número por exemplo 12 então o número 12 é por uma estatística que a gente tá tirando que é a quantidade de pessoas Então é um resumo é um resumo que a gente tá trazendo Ah eu posso fazer uma uma outra pergunta como por exemplo a quantidade de um determinado
tipo de pessoas que tem ali né um tipo de figura que tem ali então pessoas azuis a gente tá pegando quatro pessoas azuis a gente sabe que existem quatro pessoas azuis eu fiz uma contagem nessa população para ter quatro pessoas azuis Beleza então a estatística em si ela é isso ela é um resumo da nossa população ok eh vai fazer um resumo na nossa população A ideia é sumarizar as características do nosso conjunto de dados ou da nossa população Ok então a estatística a disciplina de estatística é um conjunto de ferramentas utilizadas para cálculos que
vão auxiliar a gente a resumir esses dados a sumarizar esses dados e por consequência entender fazer algumas afirmações sobre este dado esses dados podem ter origem de uma população como a gente tá dizendo aqui eu posso olhar para a população brasileira e calcular alguma estatística em relação da população brasileira ou eu posso também gerar algum experimento então eu posso ter por exemplo algum tipo de planta algum tipo de cultivo e dentro deste cultivo desse tipo de cultivo eu vou coletar alguns dados desse tipo de cultivo com base na experimentação aplicando algum tipo de inseticida por
exemplo pesticida ou um tipo de adubo e eu tô fazendo um experimento controlado né Por exemplo eu posso também coletar dados de sistemas isso é a coisa mais comum que existe hoje por exemplo a gente tem eh por exemplo muitos sistemas aí de e-commerce sistema de Internet a própria Twitch aqui quando vocês estão digitando exclamação presente quando vocês estão digitando exclamação join tudo isso está sendo coletado por sistemas né está sendo alimentado nos sistemas e a gente também tem uma outra fonte de de informação que são as pesquisas de opiniões então você pode fazer por
exemplo uma pesquisa de campo perguntando opinião pública sobre alguma coisa ou o próprio Censo do IBGE que vai coletar informação de todas busca coletar informação de todos os domicílios brasileiros Então são essas esses tipos de de formato que a gente pode coletar os dados tá bom a gente aplica né a estatística em diferentes mercados o a estatística ela não está restrita ao ambiente acadêmico eh de medicina ou ambiente ali de tecnologia eh ela está presente em tudo desde ali testes de vacina por exemplo mas também no próprio marketing da empresa onde você trabalha e até
mesmo dentro da indústria para fazer det detecção de problemas na linha de produção então é uma uma disciplina que é bastante utilizada independente do cenário independente do contexto independente da indústria beleza por isso que é extremamente importante conhecer estatística independente do Da onde você estiver com o tipo de trabalho que você tiver tenho certeza que vai te te te ajudar te auxiliar aí nas suas tomadas de decisões Belê então agora finalmente a gente vai falar sobre população versus amostra então a população em si galera a população é o todo é o todo quando a gente
define o nosso público então quando eu estou falando de homens entre 20 e 25 anos que TM uma graduação ou são estudantes e etc eu estou definindo quem é a minha população Então quem é a minha população São Regras né ou filtros ou características que definem o perfil da minha população eu posso falar da população brasileira eu posso falar da de uma população menor então por exemplo eu posso falar da população do meu canal quem me segue temos 20.300 seguidores aqui essa é a minha população beleza minha população do canal telmi são os 20317 seguidores
que tem aqui na Twitch beleza e a amostra o que tem que ficar muito e aí esse é o pulo do gato é que a amostra é uma fatia da minha população Então as pessoas que estão aqui no chat hoje a gente tem aí em torno de 270 pessoas no meu chat hoje as pessoas que estão no chat são uma fatia da população do canal telm beleza é uma fatia da amostra é uma fatia da população do canal telmu beleza é um pedaço é só uma amostra é uma amostra da população como um todo 281
certo 281 pessoas que são uma amostra das 20317 tá claro isso galera beleza Tá super Claro aí que a amostra é um pedaço da nossa população é um subgrupo exato uma partição certo e a gente pode escolher vários tipos de amostra a gente pode selecionar eu vou pegar uma pessoa e eu escolhi a pessoa vermelha eu escolhi por que que você escolh ah porque é a única pessoa vermelha eu quero conversar com ela pronto eu tenho uma amostra beleza Ah eu vou pegar agora uma pessoa de cada vou pegar a vermelha vou pegar uma verde
vou pegar a Azul vou pegar esse grupinho aqui estão pertinho vou pegar eles e assim por diante beleza eu posso escolher a amostra que eu quiser tá você pode escolher a amostra que você quiser agora o que a gente tem que entender é que existem vários tipos de amostra certo então por que que a gente faz uma amostra o por que que a gente define uma amostra a gente define uma amostra porque dificilmente a gente vai conseguir conversar com todas as pessoas se eu quero saber a opinião de todos os meus 20317 Será que eu
vou conseguir realmente conversar com toda essa galera para saber o que que eles acham do canal tem gente que talvez nem lembre mais que eu exista né então eu tenho que desenhar por exemplo uma forma de inferir de coletar informações a partir de um pedaço e não do todo então quando a gente fala de Senso a gente tá falando de conversar com todo mundo quando a gente tá falando de pesquisa a gente tá falando de um pedaço só de uma parte da população como um todo beleza e aí que entra a nossa h fala sobre
amostras representativas o que que são amostras representativas amostras representativas são um pedaço da nossa população que conseguem representar o todo olha só que então do mesmo jeito que a gente consegue tirar uma ampola de sangue do nosso braço e essa ampola representar o que tá acontecendo no seu organismo como um todo é o que a gente faz com uma amra estatística não viesada ou representativa Imagine se a gente precisasse tirar toda todos sangue do nosso corpo para descobrir o que que está acontecendo para saber descobrir quais são as vitaminas que estão Ok quais aquelas que
não estão tão boas Qual que é o nível de colesterol e assim por diante não faz sentido a gente ter que tirar todo o sangue da pessoa então a gente tira uma amostra desse sangue uma amostra representativa por isso que te pedem para não comer que tenha jejum um pouquinho antes e assim por diante para garantir que é uma amostra representativa das condições normais digamos assim do seu corpo Beleza então espero que tenha ficado claro o que que são amostras representativas estamos junto aqui todo mundo tinha esse entendimento ou é novidade para quem é novidade
isso que eu tô falando boa Legal perfeito então na estatística no que a gente conhece como estatística eh a gente diz que a forma que mais garante que a gente vai ter uma amostra representativa é com base na amostragem aleatória é com base na amostragem aleatória tá bom a amostragem aleatória galera é uma maneira que a gente tem para garantir que todos os indivíduos da nossa população todos os elementos da nossa população todo mundo que pertence a população tenha a mesma chance de ser escolhido para compor a nossa amostra olha só que da hora então
eu tô falando que existe muitas pessoas e cada uma dessas pessoas tem a mesma chance de conversar comigo para trazer a sua opinião para trazer as suas características Essa é a ideia de uma amra aleatória é conseguir garantir que todos os elementos da sua população tenha a mesma probabilidade ou a mesma chance de serem Escolhida ao acaso para participar do seu estudo beleza tá claro isso E aí a sorte vai tomar conta disso a sorte vai tomar conta de Quais pessoas vão compor a minha amostra é possível garantir que não há vieses nas amostras aleatórias
é é difícil mas é E como você tem que ter por exemplo né um pré-requisito para você garantir isso balker é você ter a lista de todas as pessoas é você ter por exemplo antes a gente usava o que que era utilizado para fazer isso a própria lista telefônica porque tinha uma existia uma ideia de que a maioria dos brasileiros tinha uma linha telefônica fixa por exemplo né então com base na na listagem de telefonia você conseguia selecionar aleatoriamente as pessoas né eh e aí já tem um viés por exemplo Será que todas as pessoas
do Brasil estão na lista telefônica ou são aquelas que têm maior privilégio ou maiores Posses Para poderem ter uma linha fixa então aí já começa um viés então o viés oal vai est muito mais definido não na aleatoriedade mas no desenho do seu experimento percebe Olha que da hora então seu sorte pessoas do chat aqui para conversar que estão presentes hoje será que eu tô pegando realmente uma amostra que representa os 20.000 eu só tenho 278 aqui se eu escolher 20 desses 278 em relação aos 20.000 Será que eu tô pegando uma representação de como
é o perfil médio da minha da minha população talvez não beleza uma mostragem relatório pode ser representativa Essa é a ideia Ô Elis essa Essa é a ideia tá a mostragem aleatória é o que vai eh se aproximar mais da representatividade da sua população Tá bom pode ir mandando dúvidas se tiver eh a se tiver a ver com o que eu tô trazendo tica aí com certeza eu respondo tá bom beleza Ahã na minha amostra pode ser entendi ó vamos supor que tem 20 elementos sendo que nove são vermelhos nove amarelos dois brancos na minha
amostra pode ser que não venha nenhum branco mas ela tem probabilidade de escolher essa cor mesmo sendo probabilidade pequena como fazer nesse caso e ela teve a mesma chance de aparecer certo ela teve a mesma chance que aparecer dos outros então quando você repetir essa amostra várias e várias vezes uma vez duas vezes três 10 vezes você vai perceber que a taxa de brancos vai na média vai se manter a mesma da sua população tá a gente vai falar sobre isso que tipo a amostra a gente escolhe uma amostra ao acaso aí esse papo que
você tá trazendo tica a gente fala lá no teste de hipótese que é a chance da minha amostra não ser representativa beleza a chance da minha amostra não obter o verdadeiro valor da população tá a gente vai conhecer isso também pode acontecer de tirar uma amostra cagada exatamente mas é a vida Exatamente é o melhor dado que a gente tem né é o melhor dado que a gente tem como ter certeza de que a amostra representativa você nunca vai saber você nunca vai saber que a mostra é representativa ou não você nunca vai saber só
se você conhecer a população Só se você conhecer a população você nunca vai saber você vai ter que confiar na estatística por isso que chama confiança estatística belê o Ed roda uma Moa população Exatamente exatamente boa estamos de volta Então galera estamos de volta é o seguinte galera quando a gente tá falando de população a gente tem que pensar assim todos os trabalhadores brasileiros todos eles têm uma renda cada um tem uma renda se eles tivesse a chance de conversar com cada um e perguntar Mano quanto você ganha quanto você ganha quanto você ganha quando
você ganha a gente pegasse tudo isso e colocasse numa planilha a gente I poder calcular uma média e falar olha a renda média do brasileiro é de tantos 1000 Beleza a gente não tem hoje como fazer isso se eu quero saber qual que é a renda média do brasileiro eu não consigo fazer isso então o que que a gente faz a gente contrata uma pesquisa que vai a Campo que vai nas várias regiões do Brasil perguntar para algumas pessoas o quanto que elas ganham né E aí com base nisso a gente faz uma estimativa do
verdadeiro valor então o verdadeiro valor é o valor da população que a gente dá o nome de parâmetro beleza e a estimativa é o que a gente dá o nome de estimador beleza e aí a gente espera que o estimador seja próximo da estimativa beleza é isso tá claro isso galera por isso que eu tô com essa tela aqui tem parâmetro que tá descrevendo uma medida do conjunto de dados da população beleza e ele é fixo e normalmente desconhecido você não conhece por isso que você usa um estimador se você já conhece se você já
conhece não tem por você usar um ador não tem por você coletar uma amostra a gente normalmente vai pra amostragem porque a gente quer conhecer sobre a população e não temos uma uma forma de calcular em cima dos dados completos beleza tudo bem ent aquela questão de 2% para mais ou para menos é padrão não é exatamente isso a gente vai falar disso lá na na última na última Live beleza na última Live a gente vai falar disso demorou então tá bom então vamos lá Espero que tenha ficado Claro bom se a gente quer né
acabei de falar sobre isso se a gente quer descobrir a renda média dos trabalhos brasileiros como que a gente pode fazer né a gente pode perguntar para todo mundo não não dá não dá paraa gente perguntar para todo mundo então a gente vai pegar a população brasileira que tem carteira de trabalho ativa e a partir dessa população a gente vai fazer uma mostragem vai perguntar para uma parcela de todo mundo essa galera eh por exemplo usando se respondentes de uma enquete de salário no glassdor então por exemplo o glassdor é uma amostra se essa amostra
é representativo ou não é uma outra discussão porque a gente tá falando de quem tem acesso à internet então será que é esse público que a gente tá querendo ver mesmo do público tem acesso à internet e a galera que trabalha em canavial e a galera que trabalha na roça e a galera que trabalha eh no comércio que nem sabe o que que é Glass door Enfim então tem várias perguntas pra gente levantar Mas de fato é uma fatia Beleza eh e aí a gente tem a unidade amostral esse termo é extremamente importante tá galera
unidade amostral unidade amostral é o indivíduo é um ponto é um questionário pensa assim quando batem na sua porta para fazer algum tipo de pesquisa ou quando você é parado na rua etc Quando você vai se inscrever em algum formulário de farmácia em alguma qualquer coisa a unidade amostral é o indivíduo beleza é o seu dado Ok é uma linha do Excel isso é a unidade amostral tudo bem É a granularidade mais baixa que a gente tem em uma amostra é o indivíduo beleza seria um dado de amostra apenas um correto exatamente então para cada
carinha aqui para cada desenhinho desse ele é uma unidade amostral beleza Esse boneco é uma unidade amostral esse outro boneco é uma unidade amostral esse outro boneco é unidade amostral e assim por diante é a unidade não existe nada menor do que ele beleza é a unidade Ok beleza e aí a gente tem as variáveis a gente tem as variáveis que que são as variáveis são as características da minha unidade amostral então eu posso ter lá uma unidade amostral que é uma pessoa um CPF e esse CPF carrega informações dessa unidade amostral Como por exemplo
o endereço o estado a escolaridade o cargo salário gênero o sexo a idade o nome e social e assim por diante então eu posso ter uma porrada de informações para cada unidade amostral então uma unidade amostral é uma pessoa como se fosse uma pessoa é uma entidade poderia ser por exemplo Tô fazendo uma pesquisa com máquinas com notebook então cada unidade do meu do minha amostra é um notebook então eu vou ter o nome do notebook a quantidade de memória do Notebook o peso do notebook a tela a marca o modelo Vocês entenderam que isso
são características da minha unidade amostral Beleza tem as variáveis Seria a mesma coisa que features sim exatamente variáveis ou características né o da Computação chama de features o mundo da estatística chama de variáveis Belê Então tá bom Então olha só que legal temos aqui um exemplo temos um exemplo olha só que bacana eu peguei até o exemplo da Tica aqui eu não sei se a tica tá aí ainda mas olha só a gente tem o nome da pessoa certo a gente tem algumas outras informações Como por exemplo o estado de residência a gente tem a
escolaridade a gente tem o gênero a idade o cargo o salário e assim por diante tá então isso aqui galera é por exemplo uma planilha uma tabelinha igual se você não sabe o que que é uma tabela Você nunca viu uma tabela uma lista de compras é uma tabela beleza uma lista de compras é uma tabela Tá bom uma listinha de compra uma tabela tá Ou seja você tá anotando coisas na linha e por exemplo anotando o valor de cada coisinha é isso tá então aqui você tem o nome da pessoa o estado a escolaridade
gênero idade cargo e etc vamos entender isso daqui é uma amostra eu escolhi da minha cabeça algumas pessoas para compor esse dataset esse banco de dados aqui beleza então tudo isso daqui é o que a gente chama de amostra beleza e aí aqui a gente tem as variáveis beleza as variáveis e a gente tem aqui a unidade amostral Ficou claro isso daqui esse desenho Tá Claro para vocês agora o que que é a amostra que vai ter Ali vai conter várias pessoas vai ter as variáveis que são as características das pessoas e tem ali a
unidade amostral beleza tudo bem legal E aí eu posso ter uma outra unidade a mostrar ali embaixo e uma outra unidade qualquer Ok vocês estão vendo aí então agora que esse é o conceito mais básico que a gente tem sobre estatística que é o que compõe os nossos dados eu tenho ali os indivíduos e tem as características desses indivíduos só que essas características desses indivíduos ou as variáveis melhor dizendo elas podem ser de vários tipos diferentes a gente tem o nome que é um tipo que pode ser uma infinidade de nomes dif a gente tem
um estado que não pode ser tanto uma infinidade assim a gente tem 27 estados a escolaridade também tem níveis de escolaridade né É não é igual o estado que um estado é melhor ou pior do que outro agora já a escolaridade Eu tenho um nível eu tenho o nível da onde é iniciante depois um nível que já é de uma especialização de um mestrado doutorado isso tem uma ordem existe uma ordem e aí eu tenho por exemplo o gênero mesma coisa são níveis que não existe masculino maior do que feminino nem nada do tipo eu
são igual cores azul roxo amarelo não importa beleza eu tenho a idade aqui que eu já tô falando de alguma coisa numérica eu tenho o cargo que também aqui do jeito que tá aqui o cargo talvez faça sentido numa ordem talvez não se a gente tá falando de profissões e não cargo e por fim eu tenho o salário Tá bom então são vári vários tipos Diferentes né e aqui eu vou organizar com vocês para vocês entenderem todos os tipos de variáveis que a gente tem então quando a gente tá falando de variáveis eh de maneira
mais Ampla a gente tem dois tipos de variáveis a gente tem as variáveis qualitativas e a gente tem as variáveis quantitativas beleza variáveis qualitativas e variáveis quantitativas O que que é uma variável qualitativa é uma variável que ela é um texto se eu pudesse resumir assim ela basicamente é é um texto ou uma coisa que você não consegue realizar cálculos conta com ela não é um número tá como por exemplo a gente viu aqui né o nome é uma variável qualitativa o estado é qualitativa a escolaridade é qualitativa o g gênero qualitativo o cargo qualitativo
Então são variáveis que TM níveis beleza e elas podem ser nominais ou ordinais o que que é nominal nominal é quando a ordem não importa é o que eu falei da cor a cor não existe é uma cor que seja eh acima de outra certo eu posso ordenar pela ordem alfabética eu posso ordenar pela é ao contrário da ordem alfabética eu posso ordenar de aleatória enfim não existe uma ordem a ser seguida eu posso eh descrever por exemplo uma outra coisa eu posso falar sobre tipos de objetos que eu vendo teclado mouse cadeira dane-se são
é uma ordem que tanto faz como tanto fez e agora eu tenho por exemplo as variáveis ordinais variáveis ordinais como por exemplo aqui na Twitch eu posso ter o e não subs eu posso colocar uma ordem nisso tem uma relevância o subs S um nível a mais eu posso ter escolaridade eu posso ter que mais que eu posso ter alguma coisa ordinal assim para entender o tipo de assinatura se é Premium Plus se é por exemplo lá no grupo 1 grupo 2 grupo 3 por exemplo seria alguns outros casos de variáveis qualitativas ordinais tudo bem
tá claro isso essa primeira parte de variáveis qualitativas e os tipos que existem Então seria categórico exatamente a galera da Computação dá o nome de categórico né A galera gosta de dar um nome de categórico mas exatamente isso variáveis qualitativas são as variáveis categóricas beleza perfeito e agora vamos para quantitativas as variáveis quantitativas são aquelas que a gente consegue mensurar a gente consegue realmente calcular fazer cálculos beleza operações matemáticas então variáveis discretas O que que é uma variável discreta a idade por exemplo acho que é uma das mais tranquilas né da gente falar a variável
é uma variável a idade é uma variável discreta ninguém fala eu tenho 1,5 anos né a não ser as crianças né eu tenho 1 ano e 6 meses mas basicamente a idade a gente eh fez 18 anos né fez 19 anos e assim por diante então a gente considera como variável discreta uma variável que ela não tem ã as casas decimais ela é um número inteiro é em base de unidade igual a gente falou ali anteriormente Tá bom então a sua idade vai ser dessa forma ã que outra coisa que pode ser a quantidade de
de coisas que você tem na sua casa por exemplo é é numerável e inteiro né tipo quantos quantos Mouses você tem ou você tem o mouse Ou você tem dois ou você tem três Você não tem o mouse e meio né E então é basicamente isso é é um número discreto tá bom E aí a gente tem as variáveis contínuas que que são as variáveis contínuas são aquelas número de filhos excelente Edna Muito obrigado número de Sub exatamente número de seguidores perfeito número de posts número de views Nossa excelente obrigado vocês são demais e e
a gente tem variáveis que são contínuas como por exemplo ã o seu salário pode ser uma variável contínua se você ganha ali até o numeral em centavos quando você ganha um aumento Zinho lá um dissídio vai tá lá ou todo depois de de do de ter todas as aplicações de desconto em folha etc o que você recebe líquido vai ser um valor contínuo o seu peso pode ser um valor contínuo a sua altura pode ser um valor contínuo a quilometragem do seu carro pode ser um valor contínuo né Enfim então variáveis contínuas são aquelas que
você consegue entre um número e outro tem infinitos valores se eu tivesse que fazer uma definição mais formal seria isso entre o um e o dois existem infinitos valores Isso é uma variável contínua tá porque você pode sempre adicionar mais um zero depois da vírgula que um número ainda vai existir beleza Nossa tô falando para caramba tá boring galera tá dando para pegar as coisas tá ficando Claro tô indo bem do basiquinho por por enquanto nós estamos indo Demorou god god perfeito Então até coloquei aqui olha só que bacana coloquei uma tabelinha pra gente ver
pra gente entender eh quais são os tipos de variáveis que a gente tem e como que a gente organiza elas então com base vai ter exercício vai ter exercício com base naquelas variáveis anteriores que a gente mostrou aqui ó nessas variáveis aqui a gente tá trazendo como que a gente organiza elas aqui então as nominais eu tenho nome tenho estado eu tenho gênero as ordinais escolaridade e o cargo eu coloquei ali como uma interrogação né ah depois a gente pode pular paraas quantitativas ou numéricas né até coloquei ali ó alguém falou da categórica coloquei qualitativas
barra categórica olha só que legal eh mas olhando lá paraa quantitativa ou numéricas a gente tem as discretas e as contínuas a discreta idade e salário beleza Com base no anterior contínuas pode se dar pelo conjunto dos números reais Exatamente exatamente beleza e aí dependendo da variável você vai ter uma variável estritamente é é são os reais positivos por exemplo eh no caso de sal né você não tem um salário negativo quem tem salário não vai ter salário negativo vai ter sempre salário Positivo né Por menor que seja Tá bom mas você sempre vai est
olhando pros reais de alguma forma tá igual idade ninguém tem idade negativa peso também não tem peso negativo Tá mas outras coisas podem ser negativas né Por exemplo a precisão de um eh de um daquele esse negócio de velocidade ele vai pode ter um desvio negativo ali e no radar de velocidade por exemplo né enfim eh temperatura temperatura pode ser negativa e assim vai tá bom tudo bem galera aqui beleza então então agora a gente vai fazer exercício olha só que legal tô trazendo exercício para vocês é uma coisa que a gente não fez aí
no saldo bancário pode ser negativo exatamente boa você pode estar devendo pode estar no cheque especial cartão também né fatura de cartão assim por diante ã enfim galera olha só a gente tem aqui uns exercícios para fazer então dá uma exclamação PPT aí que a gente vai acessar os dados eu disponibilizei aqui ó uma porrada de dados e eu queria que vocês eh tentassem fazer aí um uma uma gincana e a gente tentar pensar aqui quais são os tipos de dados que tem aqui tá bom não precisa todo mundo dar exclamação PPT só só poucas
pessoas aí beleza então olha só que bacana a gente tem aqui são esses dados são Dados reais é o dado do nosso sistema de pontos então quem tá dando Join aí quem tá dando exclamação presente eh tá brincando junto com a gente nesse sistema de pontos eu exportei os dados do sistema de pontos para vocês verem aqui tá bom Então olha só eu tenho várias tem várias tabelas aqui dentro né Ó tem várias tabelas Eu queria que a gente passasse por algumas para vocês conhecerem tá bom vocês podem copiar essa essa planilha para o drive
de vocês é só clicar ali em file lá em cima e colocar eh cadê make copy tá bom pelo amor de Deus não Peça permissão para mim senão minha caixa de spam de de de entrada vai lotar Não precisa pedir permissão é só clicar em make a copy Clica ali em file make a copy tá beleza clique em file make a copy Belê Então olha só vamos lá eh a gente tem aqui essas três colunas na primeira base me fala aí a primeira coluna chamada ID customer vocês acham que ela é qualitativa ou quantitativa vamos
lá galera qualitativa ou quantitativa ó tá tá Tem muita gente aí falando Quali muita gente falando quant tá seguinte ela é qualitativa Beleza ela é qualitativa Por que que ela é qualitativa porque eu não vou fazer a média do id certo eu não vou calcular uma média do id eu não vou fazer uma não vou somar os ids não vou fazer uma soma dos ids é igual CPF CPF é um identificador nosso mesmo que seja um número ele tem um dígito confirmador ele tem uma máscara né que a gente chama e isso é uma uma
variável qualitativa não é uma variável quantitativa Beleza então ela está aqui ela está aqui na qualitativa agora me fala uma coisa ela é nominal ou ordinal do jeito que ela tá aqui nominal ou ordinal nominal perfeito porque não vai ter uma ordem certo não tem uma ordem de de priorização aqui perfeito não existe hierarquia perfeito excelente legal agora vamos pro nome Vamos ver se Vocês entenderam digita para mim tudo digita assim nome é é qual traço orinal ou quanti traço [Música] e discreto entendeu Então me fala do nome aí o nome vocês acham que é
o qu excelente excelente perfeito então é Quali nominal e points aqui e points faz a mesma coisa o points vai ser o quê quant discreta quant contínua quantitativo ordinal não existe boa beleza então Olha só o ponto galera não tem como o ponto você ganhar meio ponto beleza não tem como ganhar meio ponto aqui no nosso sistema nosso sistema ou você ganha um ponto ou você ganha zero pontos né ou um ou mais pontos então não existe meio ponto tá então ele é uma variável quantitativa discreta tá bom beleza quantitativa discreta perfeito sensacional eu quero
galera que depois aí vai ficar tarefa para vocês eu quero que vocês deem uma olhada aqui na o nas outras duas Abas tem uma aba chamada transações que vai ter coluna pacete E aí eu quero que vocês eh Façam aí como tarefa de casa coloque o nome de cada uma e de que tipo que elas são então ID customer a gente já viu o que que é né nome ID transaction data da transação points product quantity quero que vocês depois de uma olhada não seria contínua Não não é contínua é discreta é discreta porque como
eu disse e você não vai ter meio ponto você vai ter um ponto dois pontos zero pontos Beleza então uma variável e discreta tá bom sobre o id não podemos somar mas posso dar um count em linha certo sim você pode da mesma forma que cor você também pode saber quantas cores você você tem certo mas isso não torna a variável eh quantitativa ela é Quali a natureza da nossa variável é qualitativa não é quanti você pode fazer agregações você pode fazer Contagem podem fazer várias coisas beleza discreto igual int contínuo igual float perfeito perfeito
é isso estamos junto aqui até aqui tá tranquilo então vamos voltar aqui vamos avançar mais um pouquinho que aí já já a gente faz o nosso intervalo tá então a gente vai falar agora sobre medidas de resumo né E como eu disse reforçando o que eu disse lá atrás estatística galera é quando a palavra estatística ela já implica nisso em resumir dados tá quando a gente pensar em estatística a gente tem que pensar que a gente tá Resumindo num dado então quando alguém vier falar em verdade em verdade vos digo a taxa de desemprego é
de tantos por cento ou seja tá reduzindo o volume de um monte de dados de um monte de de informações em um único valor né Tem gente que chama isso de indicador tem gente que chama de de estatística tem gente que chama de enfim cada um pode chamar às vezes de um jeito diferente mas essa é a ideia é fazer o resumo a síntese do seu dado tá bom e Então a gente vai falar agora sobre estatística descritiva são valores que resumem e descrevem um conjunto de dados de forma concisa permitindo uma compreensão mais rápido
e fácil das características centrais e distribuição dos dados elas são amplamente utilizadas na estatística para apresentar informações significativas sobre con de dados Quem disse isso aqui foi o chat GPT tá bom E aí a primeira coisa que a gente vai conhecer a gente vai trabalhar primeiro com as variáveis qualitativas né vamos primeiro conhecer as variáveis qualitativas e a gente vai conhecer logo de cara o que a gente chama de tabela de frequência tabela de frequência que que é uma tabela de frequência é uma forma da gente identificar quanto cada nível ou valor da nossa variável
representa né ocorre no nosso conjunto de dados beleza e aí primeira coisa que a gente vai conhecer é o tal da frequência absoluta Ou seja eu tenho dataset com pessoas ali que a gente viu tem nome tem estado tem uma porrada de coisas beleza eu vou olhar para uma uma coluna uma variável e vou criar uma tabela de frequência desta variável entenderam então quando a gente tá falando de estatística a gente tem que escolher Tá mas qual variável que a gente vai calcular a estatística essa é a primeira pergunta qual variável que vai calcular a
estatística Ah vamos calcular a estatística da variável x da variável Z da variável f e assim por diante Beleza a gente denota isso por ni que que é NI é o número de ocorrências da iima do iimo nível da variável Nossa T você tá falando difícil vamos entender melhor olha só a gente tinha eu peguei um recorte naqueles dados anteriores peguei um recorte da dos dados que eu tinha mostrado e trouxe para cá então eu tenho aqui o nome e o gênero que que eu quero fazer eu quero criar uma tabela de frequência para o
gênero beleza quero criar uma tabela de frequência para o gênero então o que que eu fiz em uma linha eu escrevi o gênero na outra linha eu escrevi o outro gênero e na outra linha eu escrevi o outro gênero que é aqui o famoso na ou seja não se aplica ou não contém Beleza então o que que acontece a gente vai contar quantas quantas vezes cada gênero aparece Belê Então a gente vai pegar aqui o gênero feminino e contar Olha a Mariana é um a Tic é outra tá aqui as duas masculino TR e assim
por diante então número de vezes que uma variável ocorre não número de vezes que a variável ocorre a variável é auna inteira aa ser é a variável agora o que a gente tá contando é quantas vezes cada nível da variável ocorre Beleza cada opção da variável ocorre sacou tá mais claro então a gente tá contando aqui o quanto ocorre de feminino quanto ocorre de masculino quanto ocorre de na beleza seria nível por tipo seria eh nível seria é tipo cada valor possível exatamente não cada valor possível cada valor que você observou beleza eu acho que
isso é muito importante tá claro Ô p ô po não sei se é po PP poop é muito importante isso não é cada nível não é cada nível possível não é cada valor possível é cada valor que você observou tá claro isso pe pe Nossa eu não sei falar beleza tá claro isso então é cada valor que você observou a gente observou duas pessoas do gênero feminino três pessoas do gênero masculino e duas pessoas com na ponto acabou a gente observou isso ok Ponto Isso a gente chama de frequência absoluta beleza contando a ocorrência dos
valores observáveis da variável exatamente então no Esopo fechado um valor que não apareceu não é um nível ou viaj exatamente Exatamente exatamente você pode dar o azar lembra que a tica perguntou eu tenho três vermelhos dois brancos um azul e aí na minha amostra eu saquei a minha amostra E aí não Apareceu nenhum azul eu vou ter um nível dessa observação aqui não porque segundo a minha mostra o azul não existe então eu não sei da existência do azul Vocês entenderam então por isso que é é do que você observou Isso é o que a
gente tá falando aqui da tabela de frequência sacou beleza é um grupo e back com c sim Quem viu o curso de SQL Quem viu pandas etc é um grupo GR byy com count Group byy do nível da variável que você quer contando número de linhas ou contando ids ou o que for Ok mas no caso da bolinha tinha que tirar várias vezes como assim tica aí não você só vai fazer uma amostra você vai ter um dataset você vai ter um banco de dados você vai olhar para esse banco de dados beleza bom demais
vou avançar aqui galera para dar tempo seguinte agora a gente tem a frequência relativa que que é o que que é essa ideia de frequência relativa é só o nome que é bonito galera isso aqui é a proporção de ocorrência daquele nível em relação da minha amostra do todo da minha amostra Ou seja eu vou pegar a quantidade que eu observei daquele nível em relação a todo mundo da minha amostra e dividir um pelo outro então a gente vai ter agora alguma coisa mais ou menos assim ou seja ou seja eu posso afirmar que o
gênero feminino compõe qual representatividade dentro da minha amostra Vocês entenderam a pergunta o g feminino ele tem qual proporção dentro da minha amostra 28% ou 0,28 beleza é igual o percentual Exatamente exatamente Então galera a frequência relativa é uma forma da gente ter uma ideia de proporção beleza ou centual proporção percentual é a mesma porcaria beleza Bom demais então aqui a gente já começa ver alguma coisinha já já vou pausar Calma lá Calma lá agora aqui a gente já tá vendo uma coisinha que coisinha eu tô calculando uma estatística em cima da minha base de
dados em relação a cada gênero que eu posso tentar inferir em relação a minha população então se eu obtive 0,28 na minha a amostra eu espero que a minha população Não fuja muito disso então mesmo que eu tenha pego só aí e sete observações eu espero que se eu tivesse olhado para 100 200 1000 essas coisas esse 28% esteja mantido Esse é o poder da frequência relativa o dois não significa muita coisa eu tô olhando só em relação à Aquela aquele Pedaço o dois tá dizendo só em relação à aquele pedacinho agora quando eu pego
esse dois e faço uma proporção dele em relação ao que eu observei eu consigo olhar para 28% Vocês entenderam como que a gente anda de um lado pro outro tá claro isso galera então uma coisa tá me dizendo a frequência absoluta daquilo que eu observei e o outro a frequência relativa Tá bom então a relativa a a frequência relativa é uma forma que eu que eu chamo de normalizar eu estou normalizando estou padronizando porque 28% eu posso falar 28% agora de qualquer tamanho digamos assim e não só o número dois beleza tá claro 28 por
por é 28 em 100 certo ou no nosso caso 2 em 7 beleza do em se Então bora lá agora galera a gente vai falar sobre frequência absoluta acumulada então a gente viu aqui a frequência absoluta e a frequência relativa lembrando a frequência absoluta é nada mais do que uma contagem da ocorrência do de cada nível da minha variável no nosso data s no nosso banco de dados beleza e a frequência relativa é quando a gente relativiza isso em relação ao todo ou seja o quanto aquela porção representa do todo então a gente tá falando
do gênero feminino a gente tem ocorrência de duas unidades amostrais isso representa 28% da minha amostra beleza mesma coisa pro gênero masculino 40 2% da amostra é representada pelo gênero masculino e os naas ou dados faltantes são 28% Belê bom demais tranquilo e aí a frequência agora absoluta acumulada é quando a gente faz o acumulado de cada linha Tá bom então vamos vamos desenhar que fica mais fácil então a gente colocou ali ó frequência acumulada está ao lado da frequência absoluta então a gente foi acumulando a primeira linha não tem nada a segunda que então
se repete o mesmo número e aí aqui o número 5 ele é basicamente a soma do anterior com o próximo então a gente pega esse número soma com desta linha e traz para cá o número C Isso é o que a gente chama de frequência acumulada ok Um histograma pode representar essa frequência relativa à Não um histograma não um gráfico de barras tá Depois a gente vai falar sobre isso datador sobre os gráficos apropriados para cada esquema tá bom tudo bem aqui galera tudo bem sobre o que que é frequência acumulada então a gente só
foi acumulando aí no próximo a gente pegou o sete olhou aqui pro dois e somou com o cinco aí a gente tem o sete aqui o que que é legal disso é que agora eu consigo bater o olho rapidamente e já saber qual que é o tamanho da minha amostra aqui olhando para essa última linha tá olhando para essa última linha aqui eu sei que eu tô falando de uma amostra de tamanho sete tá E aí por fim nós vamos falar da frequência relativa acumulada e olha só que legal olha só que legal a gente
tem aqui o ó vamos lá vou vou vou voltar aqui para responder uma pergunta então que apareceu Olha só olha só eh realmente fico nessa dúvida de frequência relativa a usar gráfico de Barro do histograma Mateus aí e meda lutador quando você for pensar sobre os tipos de gráficos os tipos de gráficos que vai dvar você o que vai te motivar a escolher um gráfico ou outro não é a o número que você vai encontrar para representar a sua variável e sim a própria variável olha só presta atenção ou seja a sua variável é de
que tipo a sua variável é do tipo qualitativa Então os gráfico de barras por exemplo vai ser mais interessante para ela no lugar do histograma entendeu então não é o número que você vai colocar no gráfico mas sim o tipo da sua variável sacou porque lá você vai estar colocando no eixo do seu gráfico os níveis se é feminino masculino na isso Isso não é um histograma que traz o histograma vai fazer cortes no seu na sua variável anterior e fazer a frequência dela é diferente aqui a gente não vai fazer corte a gente já
tem os níveis prontos Então quem dita o tipo do gráfico não é o tipo do número que você tá obtendo aqui e sim o tipo da sua variável da própria variável a gente vai explorar isso mais na nos gráficos Mas para não gerar é desinformação vamos colocar assim ou deixar passar já vou trazer isso aqui para cá tá bom então é isso e agora por fim galera a gente vai falar da frequência relativa acumulada tá bom frequência relativa acumulada Por que que a frequência relativa acumulada é bacana pra gente ter alguma coisa por exemplo desse
estilo aqui dessa forma eu posso saber rapidão quantos gêneros preenchidos a gente tem qual que é a porcent de maneira bem direta de e gêneros que foram preenchidos olha só que bacana a gente tá pegando aqui ah você pode fazer essa conta de duas formas você pode sempre fazer igual do jeito que a gente fez esse triângulo aqui aonde você soma o anterior com o próximo para dar o cálculo Total Ou seja eu tô somando 28 com 42 e dando 71 ou eu posso utilizar a própria frequência acumulada e dividir pelo total que vai d
o mesmo valor tá então se eu pegar aqui o 2 e dividir por 7 vai dar 0.28 o 5 por 7 vai dar 071 o 7 por 7 vai dar 1 então o bacana da frequência acumulada que você consegue saber até aonde vai ali o seu os seus de forma acumulada a proporção dos níveis da sua variável e a pergunta que a TAM fez Pareto tem alguma relação com ela o Pareto em si não tá porque o Pareto que a gente fala de 802 mas a aplicação do Pareto a gente pode utilizar que que é
isso Você quer pegar por exemplo eh fazer um recorte na sua base de dados pegando os produtos que a receita corresponde a 80% olha só o que eu falei eu tenho uma lista de produtos e eu tenho por exemplo a quantidade de venda de cada uma a quantidade de vendas é o quê é a frequência vocês concordam Então imagina que eu tenho aqui produtos agora e eu tenho a quantidade vendida de cada produto isso é o qu isso exatamente curva ABC então eu tenho aqui por isso que eu usei esse exemplo então eu tenho aqui
por exemplo produto um produto 2is produto trê e a quantidade que eu vendi Isso é uma tabela de frequência para eu saber quantos desses produtos correspondem a 80% das vendas que que eu faço eu calculo a frequência relativa acumulada então eu começo do Top de vendas que ele vai ter uma representação alta Sei lá 10% o próximo somando vai dar 15 depois 18 depois 19 e assim por diante Vocês entenderam que eu acabei de falar então você começa do produto que tem maior representatividade pro menor e aí você Vai acumulando as porcentagens desses carinhas E
aí você faz uma fatia e pega a Aonde a soma desse conjunto de produtos representa 80% da sua receita o que a gente observa é que mais ou menos Sempre Mais ou menos sempre é né mas o que normalmente a gente vê é que 20% dos seus produtos correspondem a 80% da sua receita olha só o que eu acabei de falar normalmente a a gente observa no mercado e isso não serve só para venda serve para várias outras coisas 20% dos seus produtos vão corresponder a 80% das vendas por quê porque normalmente você tem o
seu campeão de vendas depois você tem o seu segundo campeão de vendas e assim por diante a gente não vende a mesma coisa de forma uniforme a gente não vende todos os produtos de forma uniforme né todos os produtos não saem na mesma proporção tem produto você tem que ter estoque maior tem produto tem que ter estoque menor e assim por diante então quando a gente tá falando de Pareto é que a gente observa que 20% do seu portfólio ele representa 80% da sua receita isso que a TAM tá chamando de Pareto como é que
você calcula isso utilizando essa tabelinha que a gente tá apresentando agora chamada tabela de frequências aonde você vai calcular a frequência de cada produto e depois a frequência acumulada a frequência relativa acumulada ó que God Beleza então fica aí um exemplo bacanérrimo para vocês já aplicando nisso tudo que a gente tá conversando Demorou aí agora a mesma coisa com a escolaridade ó que God escolaridade a gente tem isso aqui vamos fazer a mesma coisa então a gente tem aqui o eu coloquei em ordem como foi sugerido aí que acaba fazendo mais sentido quando a gente
tem ordinal por quê Porque a gente agora consegue ir vendo desse jeito Qual que é o percentual por exemplo de pessoas que ainda não completaram o ensino superior então batendo no olho aqui qual que é o percentual de pessoas na nossa amostra que ainda não completaram o ensino superior vamos lá galera vamos lá fala comigo não vamos fugir não não vamos fugir não bora Fala comigo 57% certo Por que 57 Olha só eu tenho 28% das pessoas tem o fundamental incompleto mais 14% tem o médio completo mais 14% que tem o superior incompleto ou seja
57% 57 P 14% das pessoas não tem o superior completo beleza tá claro isso tá God deu para ver uma aplicação prática aí de como que você representa os dados e acho que quando a gente fala de estatística galera o mais importante é vocês terem isso em mente essas ferramentas que eu tô apresentando galera é para ficar mais fácil para vocês explicarem as coisas no dia a dia é uma forma de você ganhar empoderamento nas discussões é uma forma mais fácil de você representar o seu dado ao invés de levar uma tabela assim que tenha
todos os dados né de escolaridade etc que que você tá levando você já tá levando uma tabela que resume isso pay olha só 57% aqui da nossa amostra ainda não tem o superior completo Belê de uma forma super simples de uma forma super eh bem tranquila de ser feito com Matemática Simples beleza Tá bom ou seja você agrega valor exatamente tá tudo bem dado sem resposta Hobby exatamente tá bom super tranquilo e a agora galera vamos fazer isso na prática aí na prática onde no Python no R no skl nós vamos fazer isso da maneira
mais igual os zincas faziam igual os as tecas faziam lá no Excel Então olha só que God olha só que eu é Excel exatamente pô papel e caneta seria mais God ainda olha só vamos lá eu tenho aqui eu tenho aqui essa tabela a nossa tabela Olha só nossa tabela aqui achei ofensiva olha só a gente tem essa tabela aqui de transações Vocês estão vendo minha tela né Vocês estão vendo aqui minha tela então eu quero saber eu quero fazer agora uma uma tabela de frequência quero fazer uma tabela de frequência com os produtos quero
quero fazer uma tabela de frequência PR os produtos Olha só eu tenho aqui os produtos e eu tenho aqui quantas transações né o número das transações e tal como que a gente faz isso o jargão Executivo Pois é eu é que eu quero interagir com vocês mano Então olha só dica de Excel o tzin aqui vai vai falar de Excel Como que você faz aqui para fazer isso como que você faz no Excel isso no sheets Você vai clicar aqui em cima ó tá vendo Onde tá meu mouse aqui ó no cantinho bem entre o
um e o a clicou pay quando a gente clicou ele selecionou tudo e tá selecionando a tabela inteira a nossa planilha inteira aí você vai clicar insert lá em cima ou inserir se tiver aí no de vocês tá inserir Tô ensinando Agora prador se liga aí mano ó você vai clicar em insert clicou em insert vocês tem que ter copiado isso aqui hein tem que ter copiado não vai falar no meu não dá certo se você tiver na minha tabela não vai dar vocês tem que est na tabela de vocês e aí vamos clicar ali
ó pivotable pivotable clicou em pivotable vai aparecer isso aqui a gente vai colocar New sheet ou seja ele vai criar uma aba nova pra gente clicou ali Create Pronto Olha só apareceu lá embaixo uma aba nova chamada tabela dinâmica eu vou chamar isso daqui de tabela prec produto porque a nossa tabela de frequência dos produtos certo o que que o que que compõe as linhas da nossa tabela aqui o que que compõe as linhas da nossa tabela que que é isso aqui galera que que é isso aqui que que é isso aqui ó me fala
isso aqui não são as linhas então cada linha vai ser o que meu povo fala comigo pelo amor de Deus no nosso caso aqui que eu quero fazer tabela de frequência dos produtos cada linha vai ser o qu cada linha vai uma linha exato uma variel C cada categoria da sua variável exatamente um produto exato um uma unidade veral não um produto então do mesmo jeito que cada um aqui foi um tipo um nível do meu da minha escolaridade aqui a gente vai ter em cada linha um produto Então a gente vai clicar aqui ó
no cantinho direito rows tá vendo ali ó linhas quem tiver em português aí vai aparecer linhas Então quem que você vai colocar aqui nas linhas quem que você vai colocar nas linhas você vai colocar justamente produto Olha só coloquei produto que que apareceu aqui ó que lindo maravilhoso que que tem aqui agora que que tem aqui agora cada linha Eu tenho um produto Beleza agora a gente tem que fazer o seguinte a gente tem que fazer as continhas que que a gente quer fazer que que a gente quer quer contar a gente quer contar a
quantidade de vezes que esses produtos aparecem certo isso é a frequência Então nós vamos vir aqui em valores e vamos colocar aqui para garantir que a gente tá pegando certo vamos colocar aid transaction o que que é o ID transaction é o o código do pedido é o código do pedido eu vou fazer uma contagem disso tá só isso então eu tô contando o quanto cada e tá aqui ó summarized by ou seja sumarizando por ou agregando por Contagem tá fazendo um Contagem posso até contar aqui ó desse jeito tanto faz tá nesse caso tanto
faz o Contagem O Nique tanto faz tá tanto faz aqui mas a gente tá contando que que é que que é isso aqui que a gente acabou de fazer Qual que é o nome disso aqui que a gente acabou de fazer galera fala comigo que cara que tem isso aqui frequência absoluta exatamente velho Então a gente tem aqui ó a nossa frequência ABS Ah não deixa eu eu mexer nisso que desgraça eu posso mexer aqui ah tá lá ó frequência ABS ele deixou tá lá perfeito como é que eu faço agora a frequência relativa como
é que eu faço a frequência relativa agora aqui ó frequência relativa como é que eu faço a frequência relativa eu tenho que esse cara aqui olha só coloquei uma fórmula Então como é que eu faço fórmula no Excel igual cliquei cliquei na célula aí depois eu aperto o botão de igual clico no valor aqui agora eu vou colocar dividido então eu tô selecionando ali igual B2 dividido por 57 271 que é o total agora que que a gente vai fazer eu vou apertar F4 aperte F4 aí por que que você vai apertar F4 você vai
apertar F4 para ele fixar o total beleza porque você não quer andar com o outro carinha você não quer andar quando você for andar com a célula você não quer andar e você já pode colocar aí um Yes para ele fazer para todas Ah não fez para todas clica ali na sua célula Vou até apagar aqui ó para mostrar se ele não fizer para todas Você vai clicar aqui ó Nessa bolinha da célula vai virar esse esse maizinho essa Mira você clica e arrasta e GG Belê então agora a gente tem aqui a frequência relativa
para deixar isso mais bonito você pode ir lá no cantinho esquerdo lá em cima debaixo de Tools clica em Format as percent ou seja formate para percentual E aí olha que beleza Olha que beleza galera Olha que God massa né então agora a gente tem a nossa frequência relativa Belê como é que eu faço a frequência acumulada agora galera como é que eu faço a frequência acumulada agora frequência acumulada vou chamar de frequência relativa acumulada tá bom relativa a cum tá bom fazer essas duas aqui então aqui tem a frequência relativa e a frequência relativa
acumulada vocês estão comigo tão apanhando aí do Excel acho que no Excel tem o consum não sei é aqui não tem não o ruim é ficar trocando as abas para ver a Live é duro mesmo é duro mesmo mas vai ficar gravado você assistir depois não tem problema então agora a gente vai fazer o quê na primeira a gente vai repetir ó Pay na segunda que que a gente vai fazer na segunda a gente vai pegar a de baixo e somar com a de cima e aí depois a gente pode clicar e arrastar olha só
que massa Olha que gostosinho E aí cadê a tam tam olha só que bacana que que você tem agora aqui você tem a a quantidade acumulada dos produtos que você mais vende começando pelo campeão de vendas e indo para os demais Então olha só a gente pegou uma base de dados que tem 57.000 linhas e a gente já descobriu que tem um produto que representa mais de 88% das vendas Deu para entender e esse dado aqui é dado real é um dado que veem do nosso chat que vem do nosso sistema de pontos beleza só
com primeira coisa que a gente conhece na estatística que é uma tabelinha de frequência para você calcular a frequência relativa frequência e absoluta frequência acumulada Belê galera tamo junto não seria interessante inverter a linha 4 com5 para ter a ordem quantidade de ocorrência vamos ver aqui né a gente pode fazer o seguinte ó vamos lá V vou me arriscar aqui você pode selecionar aqui em cima e clicar em funil no funil Oli ó Create Filter Lá em cima tem um funil Zinho pequenininho clica lá ó depois de ter selecionado a coluna A e B E
aí agora a gente pode ordenar dizer to a desse jeito ó Ah mas aí ele vai quebrar Ah não pronto agora foi pronto e aí como tá fórmula já era mas é só se ordenar lá dentro da da coisa mesmo ah poderia ó então clica ali em Edit aí aqui no canto direito a gente pode fazer um velos pode colocar aqui show ass Ah ele não fala ah tá pronto pronto só que aí ele vai colocar descending pronto agora foi melhor beleza perfeito tá lá Achei que ele não ia deixar ordenar aqui porque eu tô
calculando aqui a a o count God perfeito galera hoje é o primeiro dia a gente avançou então o que que a gente viu vamos fazer um resumo de tudo que a gente viu observações e linha nesse caso é a mesma coisa aqui a gente tá falando de uma outra coisa aqui a gente tá falando da tabela que já é o resumo do dado aqui no nosso caso a gente tá observando cada produto vendido então a entidade dessa tabela a unidade de amostral é o produto vendido e o seu valor e a data que ele foi
vendida Tá bom agora aqui o a unidade amostral é o indivíduo é o meu é o meu usuário né e assim por diante então aqui o Sumário dos produtos também aqui a tabela de frequência também e assim por diante Beleza então dependendo da do contexto que você tá dataset que você tá a sua entidade pode mudar tá bom então aqui a gente tem vários contextos Ok bom demais bom faltam aí só mais alguns segundos mas galera hoje era até aqui mesmo que eu queria trazer Tá Na verdade eu queria avançar um pouquinho mais mas eu
acho que tá bom aí amanhã a gente fala sobre outras estatísticas né E a gente vai aprender a somar Amanhã a gente vai aprender a somar vocês já sabem somar já ouviram falar de somas de somatório ou de Sigma amanhã vocês vão aprender a somar a gente vai conhecer essa esse símbolo aqui para vocês aprenderem A somar E aí vocês podem tentar fazer na mão também vou apresentar para vocês o somatório tem o código no Python aqui que representa a mesma coisa E aí a gente vai depois conhecer algumas outras estatísticas beleza eu tô indo
bem de boa para todo mundo pegar e entender eu espero que esteja ajudando aí tá E aí vocês podem brincar bastante com o que a gente trouxe nos dados que estão disponíveis beleza é isso para que que serve a frequência elver com uma se eu não te convencer até agora ô J Aí lascou Você não viu o poder disso de resumir o seu dado de você Saí de um dado de 60.000 linhas e resumir ele numa tabelinha de quatro linhas para saber quais são os produtos mais vendidos e qual a representação desses produtos no seu
dataset para você entender aonde que você continua postando e que outros produtos você precisa alavancar mais pô então a tabela de frequência né como um todo não só a frequência relativa e acumulada mas a tela de frequência como um todo é um resumo do do seu dado cara é um resumo do seu dado tem como fazer tabela de frequência acumulada em skl tem tem sim você pode usar Window function para fazer isso também tá bom é isso galera é é isso então por hoje a gente volta amanhã a gente não é é tranquilo acumulada Ô
Léo você precisa cara você precisa só de uma um comandinho drom function é só fazer Sum e e fazer um over partition byy tá eu posso mostrar isso cola na Live amanhã cedo que a gente pode mostrar justamente isso e vir um corte em RS para vocês aproveitarem e fazerem aí uma tabela de frequência acumulada no no skl Beleza mesmo horário amanhã 7:30 e a gente abre Live todos os dias às 9 da manhã também tá bom para falar de outras coisas Belê galera muito obrigado mesmo e eu espero espero de verdade que esteja sendo
produtivo para vocês a gente tá indo bem devagarzinho não quero perder ninguém Vocês sabem disso a gente quer fazer um trabalho true da true aqui né Bem bem bom mesmo então é de qualidade é é para todo mundo aprender Belê e a gente se vê amanhã novamente às 9 da manhã e quem quiser né participar 9 da manhã estamos junto e às 19 20 abrimos aí tá bom não a Live é sempre aberta para todo mundo galera a Live é sempre aberta para todo mundo tá bom todo mundo pode participar da Live deve participar da
Live tá bom é isso