fala incomparável bem-vindo ao canal da experium meu nome é Renan Giovanini e eu tenho uma pergunta para te fazer Como é que você sabe que o indicador que você usa para comparar períodos estratégia de marketing produção vendedores não tá te enganando Então imagina calcular uma métrica sem respaldo na parte estatística ou seja cuja conclusão que você tá tomando na verdade é fruto de uma aleatoriedade dos seus dados e não do fenômeno que você tá estudando e tomar uma decisão errada baseada nisso é complicado né E se tivesse uma forma simples objetiva e automática de eu
avaliar com precisão qual é a diferença real estatística entre dois grupos de dados falar se isso é relevante mesmo ou não melhor ainda a gente consiga implementar isso dentro do ambiente do Power bi sem utilizar nenhum software externo tudo automático e se aproveitando do dinamismo que o dax proporciona e é por isso que a gente vai aprender hoje sobre testes de hipótese é uma ferramenta estatística bastante importante que vou tentar abordar da forma mais intuitiva e simples aqui hoje para você colocar um pezinho nesse mundo que não é só importante pro mundo dos negócios mas
também em várias áreas ciência medicina imunologia medicamentos teste de qualidade enfim todas as áreas utiliza para tomar conclusões objetivas certeiras acerca dos seus conjuntos de dados e hoje a gente vai analisar se o método de pagamento influi ou não no valor que um cliente tá disposto pagar por um certo produto mas não para por aqui você pode avaliar se dois turnos de uma fábrica tem diferença no desempenho se uma campanha de marketing A ou B ela é mais efetiva do que a outra enfim as possibilidades são infinitas mas antes se você quer continuar tendo conteúdos
diferenciados como esse daqui já deixa o seu like se inscreve no canal ativa o Sininho e bora pro vídeo bem direto ao ponto aqui eu tenho os dados de e-commerce do Brasil entre 2016 e 2018 eu tô pegando aqui no site kegle tá mais próximo que eu vou ter de algo real para analisar se os testes que eu estô fazendo fazem sentido e aqui vai perceber que é uma base bem simples ele até deixa o modelo de dados aqui bem claro e percebe que eu vou ter primeiro essa tabela que é tabela de itens pedidos
ela vai ter o preço de cada item vai importante pra gente Além disso eu tenho a parte de pagamentos aqui em cima vou trazer da tabela de pagamentos vai passar pela tabela Central que agrupa os pedidos completos é meio que o header né o cabeçalho do pedido e eu vou chegar aqui na tabela do detalhamento de cada pedido posso ter mais de um item por pedido e percebe que esses itens estão relacionados a essa tabela dimensão de produtos certo então o que que eu quero avaliar se para um mesmo produto se o método de pagamento
variando faz com que o preço que a pessoa paga suba desça ou fique constante quero saber se há diferença no método de pagamento na hora da pessoa pagar por um produto perfeito Então vamos lá pro powerb eu já importei esses dados e Já criei aqui um relatório bem rápido sobre isso percebe aqui eu já importei todas as tabelas o que vai importar para mim Realmente são só essas poucas tabelas eu tenho aqui o Order items vai ser a tabela o coração do que eu vou analisar e eu vou ter aqui a je products eu já
trouxe a forma de pagamento daquela tabela de pagamentos para essa tabela de itens tá então a gente não vai precisar se preocupar muito com ficar trazendo informação mudando contexto enfim vai tá tudo aqui praticamente Então se a gente olhar aqui é uma tabela bem simples eu tenho e vários ids aqui né ID de pedido do produto e do vendedor para mim isso aqui não vai importar que é a parte do frete Vai importar mais Qual que é o preço de cada item eu vou ter o uma linha por item se ele fizer três pedidos no
mesmo item vão ser três linhas Tá eu já trouxe aqui a forma de pagamento e relacionada a essa tabela eu vou ter a tabela dimensão de produtos tá aqui ó GM products e percebe que eu vou ter Não só o ID do produto mas eu vou ter também a categoria dele e é com essa informação que eu vou tentar trabalhar primeiro aqui eu tenho só 74 valores de categoria diferentes completamente diferente do ID de produto eu tenho mais de 32.000 linhas aqui então uma informação mais chata de trabalhar vou tentar agrupar informação e ver se
por uma certa categoria de produto se faz diferença eu cobrar de uma certa forma ou de outra na hora do cliente eh gastar mais com certo produto tá legal Vamos tentar fazer dessa forma bom você vai ver que eu coloquei poucas medidas aqui nesse relatório só criei três por enquanto que é o faturamento itens vendidos e o preço médio por item percebe que o faturamento é simplesmente aqui a soma da coluna do preço já que cada linha é um item específico itens vendidos é só contagem de linhas da tabela de itens e o preço médio
por item é a divisão de um pelo outro outro e aqui eu consigo quebrar por método de pagamento e além disso por categoria de produto aqui de cara a gente já vê uma diferença né Essa coluna aqui vem lá da tabela de itens vendidos e quebrando aqui a gente percebe uma variação do preço médio por item para cima quando a pessoa utiliza cartão de crédito uma tendência isso tá acontecendo em 83.000 quase 84.000 itens vendidos em relação ao boleto são bem mais mas também são números estatisticamente relevantes Tá eu vou tentar deixar essa intuição aqui
percebe que aqui o número de itens vendidos vai te dar mais certeza sobre Aquele número que você tá calculando aquele indicador Vamos guardar isso agora vamos quebrar por categoria de produto então percebe aqui eu tenho PC portáteis eletrodomésticos etc cada uma dessas categorias eu vou ter um certo número de itens vendidos no boleto e no cartão de crédito e um preço médio também só arrastei e quebrei por categoria aqui embaixo percebe que eu fiz um histograma já já deixei preparado não é o foco do vídeo ensinar a fazer um histograma Eu Já ensinei em outro
vídeo há pouco tempo no Canal e dou um código pronto para você poder executar isso aqui em qualquer projeto mas aqui a gente vai usar para visualizar se o que a gente tá vendo nos números se reflete na distribuição já Começando aqui com boleto e cartão de crédito simplesmente isso não vou olhar produto por enquanto aqui eu tô esperando que eu tenha um valor médio de R 126 quando eu uso o cartão de crédito e um valor médio de R 104 quando eu uso o boleto tô enxergando isso aqui na distribuição até enxergo mas percebe
como a informação da Média ela é insuficiente pra gente descrever o conjunto completo de dados quando eu falo desse R 126 no cartão de crédito eu tô falando que ele tá em deixa até aumentar um pouquinho esse histograma e rapidamente eu já vou expandir aqui o histograma vamos olhar aqui como é que a informação da Média ela vai tá dentro do nosso histograma então olhando pro cartão de crédito esse 12 R 6 por item vendido ele vai est aqui na faixa entre 122 e 140 vai tá mais ou menos aqui ó certo já pro boleto
eu vou ter R 104 e por item vendido vai tá mais ou menos aqui nessa faixa tá legal percebe como informação da Média ela é insuficiente para descrever meu conjo de dados olha aqui o outras informações eu tenho aqui visualmente falando eu tenho a dispersão dos meus dados então aqui ó do boleto o os dados vão estar mais ou menos distribuídos dessa forma percebe que ele começa a ficar abaixo do cartão de crédito para faixas maiores de valores é o que eu estaria esperando né E já pro cartão de crédito ele tem uma distribuição mais
ou menos assim ó não deixa eu tentar fazer melhor aqui que ele começa abaixo do cartão do do boleto e ele começa a superar ele em faixas maiores então tenho uma grande dispersão nos meus dados E além disso eu tenho uma assimetria eh do meu da minha distribuição Olha como os Picos né a a moda do conjo de dados ela tá muito discrepante em relação à média certo e isso é importante também porque muitos testes estatísticos eles pedem tem a preferência que você tem uma distribuição galciana uma distribuição normal aquela curva em forma de sino
do seu conjunto de dados aparentemente não é o caso aqui não vai ser um problema porque a gente vai fazer um tratamento Depois desses dados para transformar eles nessa curva galciana mas por enquanto vamos tentar fazer os testes estatísticos da da forma que eles estão aqui beleza então qual que a conclusão que eu tiro aqui Realmente parece que o cão de crédito tende a ficar aci estaticamente falando do boleto no valor médio do item vendido essa diferen aqui a gente percebe na distribuição que ela é um pouco só que será que isso acontece para todas
as categorias de produtos então por exemplo se eu quebrar aqui filtrar por portáteis casa forno e café eu tenho só nove itens vendidos via boleto Olha como a distribuição fica meio capenga eu tenho lacunas nas minhas faixas Principalmente quando o método é boleto até que tá um pouco mais completa para cartão de crédito mas já fica algo difícil Será que essa diferença toda de c e quase R 150 entre 1 m e o outro é por causa só do método de de cobrança ou será que existem outras flutuações estatísticas aqui e eu não posso tomar
essa conclusão olha de novo como aqui no caso foi importante a gente ver que tem poucos itens vendidos que mais aqui agora vamos ver um que tem muitos itens instrumentos musicais ó já é uma distribuição um pouco mais confiável para você tomar alguma conclusão e percebe como reduziu até a diferença do valor médio entre os dois que mais aqui vamos ver outro que tem poucas ó PC gamer e não sei lá deixa eu pegar um outro aqui ó Seguros e serviços tenho só uma de cada então existem outras coisas que influem na minha conclusão intuitivamente
falando que são a o número de dados número de amostras que eu tenho em cada conjunto E o espalhamento entre eles fora a própria distância das médias será que eu consigo ter essa conclusão que eu tenho de forma intuitiva e subjetiva aqui de uma forma automática objetiva em que a gente consiga fazer isso de uma vez para todas as categorias ou qualquer outra quebra que você queira fazer vamos agora implementar o teste de hipótese então a ideia do teste de hipótese que a gente vai implementar hoje no power Bi é eu ter dois conjuntos diferentes
a princípio cada um com suas própria descrição estatística então tem sóa média desvio padrão e número de amostras eu quero saber se esses dois conjuntos são realmente diferentes e se a diferença média entre eles não é só fruto de uma aleatoriedade tá fica bem claro aqui no desenho aqui a gente percebe no primeiro desenho que o verde é bem diferente a distribuição dele em relação a Azul então Muito provavelmente há uma diferença relevante entre eles que já não é o caso do segundo desenho aqui já fica um pouco mais incerto Então é isso que a
gente quer detectar automaticamente Então a gente vai calcular essas três variáveis aqui e vai utilizar o nosso teste estatístico um dos mais simples que a gente tem que é o teste t que é justamente feito para você analisar duas categorias de amostras Tá bom então primeiro vamos calcular esses caras aqui média amostras e espalhamento fiabilidade o desvio padrão dos dados bom a gente já calculou duas daquelas três variáveis que é o preço médio e o número de amostras que é o itens vendidos Faltou só a medida de dispersão dos dados então desvio padrão o preço
que tá em Reais por unidade mesma unidade do próprio preço e que que eu vou calcular aqui eu vou utilizar a função Standard Dev certo o desvio padrão que eu vou aplicar só sobre a coluna de preços que vai ser ã Como é que chama Order items Price Ok simples assim vou dar um enter aqui e eu já calculei o meu desvio padrão vou até jogar ele aqui na tabela para ver como é que ele tá se comportando então aqui percebe que o desvio padrão realmente ele é bem alto até olhando em relação à própria
média Então olha para uma média de 126 ele tá com desvio padrão de 189 que a gente observa aqui né Realmente a a impressão que dá é que o desvio dos dados tá bem grande ainda que a gente possa tirar uma conclusão entre os dois grupos e E lembrando que desvio padrão ele é uma média do desvio entre cada amostra e a média do conjunto Não exatamente a média a média quadrática mas enfim Então realmente esse aqui já é uma variável que descreve também o seu conjunto de dados vamos jogar aqui O desvio nessa segunda
tabela Vamos tentar identificar produtos que tem um desvio também bem alto vou até tirar aqui a coluna de subtotal e vamos focar aqui só nesses dois conjuntos Então vamos ver aqui um cara que tem um desvio pequeno deixa eu ver aqui ó por exemplo esse aqui ó casa conforto percebe que o desvio padrão aqui é um pouco menor em relação à média claro então ele tem um desvio padrão de 100 para uma média de 133 no boleto e um desvio aqui de 107 em relação a uma média de 136 no cartão de crédito então percebe
como os dados realmente estão menos espalhados eu tenho mais certeza que a média se encontra naquela faixa de valores Então beleza calculei aqui o que eu precisava para finalmente implementar o meu test T bom se a gente fosse implementar no Excel isso daqui seria bem tranquilo você já tem uma função pronta para isso que é o test T que basicamente você só precisa colocar os seus dois conjuntos de dados na função e mais dois parâmetros que são mais as premissas do seu cálculo o primeiro parâmetro ele vai falar qual que é a cauda da distribuição
eu não quero aqui entrar em detalhe estatístico acho que não é o foco do vídeo mas a ideia aqui é você falar se você quer saber se existe uma diferença entre os dois conjuntos só isso ou se você quer saber se existe uma diferença entre os dois conjuntos e um conjunto é maior do que o outro certo pegou a diferença Então quando você fala de distribuição unicaudal dentro da parametrização do dstt você tá querendo saber se e a diferença ela tá num sentido único se um é maior que o outro no power bi Hoje a
gente vai implementar o teste bicaudal Ou seja eu quero saber se existe alguma diferença entre os dois não importa para mim por enquanto o sentido Ok e o outro parâmetro que a gente vai implementar aqui hoje é da abordagem homocedástico eu tô assumindo que os dois grupos TM uma mesma variância então se eu tivesse acesso a todas as possibilidades a todos os dados históricos eh tendendo ao infinito no número de amostras eu vou ter a mesma variancia entre os dois grupos tá bom não vai mudar muito pro nosso caso aqui mas é a forma como
a gente vai implementar tá que que a gente precisa realmente saber no power bi a gente tem uma função que vai retornar uma tabela estatística que a gente precisa que é a tabela eh T de students não precisa chegar eh ter esse nível de detalhe entender agora é legal você entender o que que dá para fazer e como é simples implementar usando sua fórmula depois a gente pode entrar no detalhe e explorar mais as nuances de desse teste de outros testes que você consegue também implementar no power bi no final lembra do que a gente
calculou do que que a gente precisa a gente precisa saber o número de amostras em cada um dos conjuntos a média de cada um dos conjuntos e o desvio padrão de cada um dos conjuntos só com esses seis valores três valores por conjunto você consegue calcular a probabilidade daqu conjunto ser diferente do outro estatisticamente falando aqui embaixo você vai ter toda uma fórmula gigante eu vou explorar mais ela de forma mais intuitiva lá no bi mas percebe que basicamente completando o que tá aqui você tem o resultado do seu teste de hipótese e eu vou
disponibilizar esse cálculo esse código para você na descrição do vídeo Tá legal bom vou agora fazer o cálculo no power bi colando a fórmula aqui primeiro eu quero falar o que que é esse P valel aqui para já ficar um pouco mais acostumado com linguajar da estatística que acontece a princípio eu não espero que exista uma diferença entre os pagamentos por cartão de crédito e por boleto não olhei os números não sei de nada que que seria a minha hipótese padrão inocente até que se PR contrário que não existe uma diferença essa hipótese padrão a
gente chama de hipótese nula na estatística e os testes de hipótese sempre vão partir de uma hipótese nula contra uma hipótese alternativa que é nesse caso existe uma diferença entre o pagamento por cartão de crédito e pro boleto o que o PV calcula é as chances dessa hipótese nula hipótese padrão estar correta ou seja quanto menor o PV maior a chance da hipótese alternativa estar correta tá isso aqui é um valor que é de 0 a 100% certo e aqui eu tô fazendo tô calculando o p value especificamente do teste t outros testes vão ter
out as formas de calcular esse valor Ok teste a nova que quadrado enfim pro nosso teste t a gente consegue calcular essa probabilidade basicamente olhando pros parâmetros que a gente vai calcular aqui então pro primeiro conjunto de dados vamos supor o cartão de crédito eu vou só completar a fórmula então o N1 e aqui seria o número de amostras eu vou colocar aqui um calculate itens vendidos só que especificamente para quando o deixa eu ver aqui our items quando o tipo de pagamento for igual a credit card Ok segregue o conjunto utilizando a calculate vou
fazer a mesma coisa PR média então aqui eu vou colocar preço médio por item e fazer a mesma calculate e assim por diante certo e vou fazer a mesma cois pro boleto tá bom pronto aqui eu já calculei os três parâmetros n média e desvio padrão para cão de crédito e para boleto e ele aqui já calculou para mim o valor P na minha medida eu vou simplesmente utilizar isso daqui dentro do meu minha tabela e eu vou transformar isso aqui em porcentagem então ó criando essa página focada para estudar o p value primeira conclusão
que a gente tira se eu não faço análise para nenhuma categoria específica tô olhando só os conjuntos de dados separados eu calculo um p value de 0% que é simplesmente olhar tudo que foi vendido no crédito e tudo que foi vendido via boleto e Verê se tem diferença entre os dois a gente chegou na mesma conclusão que a gente tinha lá só olhando a distribuição visual dos dados que era que realmente existe uma tendência nessas distribuições estarem mais deslocadas ok agora vamos olhar item a item já ordenado aqui lembrando né os itens que estão acima
são os que t o menor P value ou seja são os que T mais probabilidade de ter uma diferença de fato entre o método de faturamento então aqui ó Perfumaria de fato na nos itens de perfumaria o método de pagamento faz a pessoa tender a pagar mais via crédito do que via boleto olha o que aconteceu aqui na distribuição e percebe como que a gente tá vendo na distribuição se reflete na conclusão do teste de automaticamente outros itens relógio de presentes né o vermelho tá imperando sobre o azul em faixas mais altas cama mesa e
banho Olha como eu já ordenei como eu já priorizei criei uma lista em que a pessoa pode gerar um plano de ação uma campanha de marketing uma campanha para e por exemplo incentivar o uso do cartão de crédito ao invés do boleto colocar algum desconto enfim aumentar o número de parcelas então o cara já consegue aqui detectar o os itens de maior prioridade ele não precisa fazer isso para todos os 74 itens aqui se ele tiver isso disponível e na loja dele se a gente vai aqui pros piores por exemplo ó 98% e eu tenho
aqui o número Vai um número grande de itens vendidos telefonia fixa ó os conjuntos eles estão quase superpostos percebe que a média é muito parecida agora vamos ver um outro caso em que a média não é parecida por exemplo ó Claro que vai ter uma correlação entre a distância pequena e o valor do teste ser alto mas nem sempre isso vai acontecer vamos ver aqui por exemplo ó PC gamer aqui no caso provavelmente foi o número de itens que foi baixo que jogou para cima o seu teste t porque a média ela é o mesmo
padrão de que a gente vê em outros itens que tiveram P menor então percebe como ele também captura a informação do número de itens o número de amostra ser insuficiente pra tomada da conclusão agora percebe bem o meu problema o teste t ele foi projetado para funcionar melhor como falei antes em distribuições que tendem a distribuição galciana distribuição normal olha não sei se você perce percebeu mas gente acabou de abordar um conceito bastante complexo que geralmente é dado em várias aulas de estatística de matemática num curso padrão em apenas alguns minutos e você já consegue
não só entender de forma intuitiva Para que serve essa ferramenta e enxergar o valor e aplicar num Case real dentro de um projeto é claro que a gente não esgotou o assunto mas olha como rapidamente a gente conseguiu deixar dentro do seu kit de ferramentas uma análise bem poderosa pros seus relatórios e É Esse princípio que norteia o meu curso de Business Analytics que tá disponível lá na plataforma experion ou de forma vuls no Marketplace lá na Store também na experium o curso vai te dar a bagagem necessária para você analisar qualquer tipo de negócio
começando lá com a definição de metas o entendimento das Ferramentas de Business Analytics dentro da companhia passando por análise de custos análise de Ponto de Equilíbrio indo para relatórios financeiros análise pvm criação de indicadores e ente a parte estatística Então imagina ter um resumão de tudo que você precisa saber dessa mesma forma intuitiva rápida ágil que eu passei aqui e de quebra com Business Case baseado na Adventure works que você vai implementar aplicar todo o conhecimento que você aprender do curso módulo a módulo e não esquece que agora na Black November você pode ganhar 40%
de desconto no meu curso usando cupom Black então não perde essa oportunidade que é só no mês de novembro de fazer um curso que vai com certeza fazer toda a diferença na sua carreira e a gente olhou aqui que o Nossa distribuição não é exatamente uma distribuição normal ela tem uma cauda longa justamente pelo próprio fenômeno né preços Então você vai ter outliers vai ter preços maiores em alguns itens de uma mesma categoria E que menos pessoas vão por conta da questão do poder aquisitivo vão a comprar esses itens ele vai sempre ficar muito próximo
de um valor e ele para de repente porque preços são positivos Então você só vai ficar com eles acima de zero é por isso que você tem essa cauda Será que a conclusão que eu tomei tá mais correta possível a gente viu que já dá para utilizar alguma coisa já é uma conclusão já é uma forma de você filtrar melhor os seus dados e não ficar com 74 planos de ação aqui Mas vamos fazer melhor e se a gente calcular não os parâmetros dessa distribuição mas a gente achar alguma forma de atenuar os valores altos
e tentar chegar na distribuição normal bom uma das soluções apresentadas quando a gente tem esse problema de assimetria dos dados é a aplicação da função logarítmica no seu conjunto tá Ou seja eu preciso de alguma função alguma transformada matemática que vai pegar aqueles dados que estão em valores mais altos e trazer eles para mais perto do seu centro do seu conjunto de dados e você vai trabalhar com o logaritmo não precisa se assustar intuitivamente falando é isso tá eu não vou ter aqui por exemplo um crescimento proporcional dessa função percebe que essa função ela vai
atenu os valores ela vai desacelerando o crescimento dos valores é esse comportamento que eu preciso trazer pro meu modelo pro vídeo não ficar muito grande eu já fiz isso no relatório então percebe como fica diferente a distribuição assimétrica da distribuição com logaritmo aplicado Olha como tá muito mais próximo de uma função normal basicamente o que eu fiz foi aplicar o logaritmo em cima das medidas fiz mais Nada Além disso se você observar no histograma foi exatamente isso que eu fiz tá E aqui eu apliquei o log na hora de contabilizar as faixas e aqui no
P value eu fiz exatamente a mesma coisa eu não calculei o p value baseado naquelas naqueles parâmetros aquelas variáveis estatísticas eu calculei ele baseado nas variáveis com o log AP então Ó aqui você percebe que o número de itens vendidos né Isso aqui vai ser a mesma coisa mas o preço médio por item e o desvio padrão eu tô calculando pelo log nada mais é do que calcular fazer média Average x sobre o logaritmo do preço e o desvio padrão fazer um Standard deviation x sobre o logaritmo do preço acabou e eu vou ter aqui
um pivel um pouco mais preciso para avaliar se há uma diferença entre os dois conjuntos de dados cartão de crédito ou boleto e aqui ó vamos pegar aqui por exemplo relógios e presentes que posição que esse cara aqui tava antes ele tava em segundo lugar agora ele ficou em primeiro vamos ver quem mais aqui Perfumaria ó Mais legal ainda eu vou colocar aqui o p velue do teste anterior para ver a diferença então dá para observar aqui vamos ver um cara que tem bastante diferença ó por exemplo esse cara aqui ó construção ferramentas o p
value dele pro teste sem aplicar o logaritmo antes tava dando algo em torno de 4.4% se eu clicar nele agora eu percebo que existe uma diferença claríssima visual entre os dois conjuntos de dados mas se eu volto e procuro esse cara aqui construção e ferramentas esse aqui né percebe como a coisa fica até visualmente um pouco mais difusa ainda que eu consiga chegar na mesma conclusão analisando com cuidado Então esse aqui é um adendo tá é um a mais que você pode fazer para deixar sua análise mais precisa aplicar realmente ela sobre um conjunto de
dados normalizado Tá legal bom pessoal era isso e até a próxima [Música]