em pouco tempo você vai encontrar apenas dois tipos de profissionais aquele que sabe utilizar a inteligência artificial para otimizar o seu trabalho e aquele que vai ser substituído pela Inteligência Artificial muitas vezes quando se fala Inteligência Artificial você se depara com centenas de vídeos principalmente de programadores dizendo que não existe a menor possibilidade da Inteligência Artificial substituir o seu trabalho e aí para provar o seu ponto eles mostram diversos erros cometidos pelo ia chat DPT Gemini quando eles tentam executar uma tarefa só que existe um problema nisso tudo que eles não te contam o problema
não tá na Inteligência Artificial mas sim na maneira como eles criam os seus prompts para executar essa tarefa Deixa eu te explicar porque que isso acontece vamos dizer que eu sou um programador de Python paraa data Science pro Netflix e eu tô na minha mesa trabalhando Quando meu chefe chega e ele vem com uma tesque para eu realizar e ele fala preciso que você me faça uma análise mostrando quais clientes que vão cancelar os nossos serviços e abandonar a nossa empresa nos próximos meses se você é um cientista de dados essa é uma análise bastante
comum e a gente realiza esse tipo de análise o tempo todo ela se chama análise de churn e ela é muito importante para empresas que prestam serviços principalmente de assinatura como Netflix operadoras de celular como a Vivo academias entre muitas outras para saber quais Clientes estão deixando a empresa para que eles possam fazer o que a gente chama de um ponto de contato de tentar restabelecer esse contato para que o cliente não desista do plano só que aí que entra o problema quando meu chefe me passa essa tesque ele sabe que eu conheço a empresa
eu sei onde estão os dados eu sei como os dados precisam ser limpos Qual o contexto do serviço e principalmente eu sei qual que é o resultado final esperado ele não precisa me falar nada disso só que a ferramenta de Inteligência Artificial ela não sabe nada disso que eu te falei então dessa forma se eu chegar pra ferramenta de a dizendo a mesma coisa que meu chefe me disse e prover um banco de dados Sem dúvida ela vai fazer um péssimo trabalho isso porque ela não possui o contexto que eu possuo dessa forma quando eu
vou conversar com a inteligência artificial usando natural language eu preciso ter um conhecimento de engenharia de prompt para conseguir passar a esse contexto para que a ferramenta possa fazer o trabalho e Ela entenda exatamente aquilo que eu quero Ou seja eu preciso dar muito mais instrução do que o meu chefe daria para mim e é isso que a gente vai aprender nesse curso de prompt Engineering de hoje como passar prompts pra ferramenta para que ela execute a tarefa como um profissional uma coisa que você tem que lembrar é que no nosso dia a dia a
gente já usa prompt o tempo todo quando você faz uma busca no Google você faz isso criando um prompt mas para obter um bom resultado não pode ser um prompt qualquer o prompt não é apenas uma pergunta AL ória ela precisa ser bem elaborada para obter respostas precisas dessa forma os seus prompts precisam ter clareza fornecendo contexto suficiente para eliminar ambiguidade eles precisam ter especificidade garantindo que os detalhes sejam precisos e focados no resultado que você quer eles precisam ser abertos dando a máquina a capacidade de pensar por si mesma e um dos Segredos para
isso é você adotar uma Persona ou seja toda vez que eu falar com prompt eu falar quem eu quero que ele seja um programador um médico um dentista e assim por diante mas tem muito mais detalhes do que isso e eu vou te explicar na aula de hoje porque o chat de PT como qualquer ferramenta de Inteligência Artificial ele tem suas limitações e aí tem algumas coisas que você tem que ficar atento quando você for começar a criar os seus prompts o primeiro são os viesses Às vezes você pode refletir estereótipos ou compartilhar informações incorretas
que vão acabar criando um viés na resposta que ele vai te dar depois é o hallucination ele pode te dar respostas erradas mas com muita confiança certos programadores data Scientist também faz isso e por último o overfitting a sua precisão vai depender da qualidade dos dados para que esse chat de PT vai ser treinado não adianta você pegar jogar os dados ali sem estarem estruturados organizados limpos e prontos para análise você não faz isso com o cientista de dados você não vai fazer isso com a ferramenta de Ea E aí sabendo disso você pode começar
a utilizar o chat de PT o Gemini qualquer ferramenta para obter os resultad um ponto importante você tem que contar para ele Qual que é o output que você espera qual que é o resultado que você tá esperando você não pode simplesmente chegar e falar assim olha faça essa análise para mim não vai dar certo faça esse código para mim não vai dar certo você tem que ter muito bem estruturado na sua mente assim como o cientista de dados no meu trabalho eu tenho isso todo dia qual que é o resultado esperado Ou seja no
meu trabalho eu começo muitas vezes de trás paraa frente o que que eu quero atingir E aí eu vou caminhando para o que que eu preciso fazer para atingir aquilo dito isso vamos começar o nosso trabalho você pode usar tanto o Google Gemini como o chat de Piti para fazer esse trabalho junto comigo aqui a primeira ilusão que eu quero tirar da sua cabeça é que não basta você vir aqui e começar dar tarefas pro chatd PT se eu tenho tarefas de programação para websites por exemplo eu não vou conseguir fazer isso bem sem ser
um programador se eu tenho questões de data Science eu preciso ter bons conhecimentos de data Science para conseguir usar isso bem esse é o ponto principal alguém que não tem o menor conhecimento de programação não pode vir aqui e esperar dar tarefas de programação chat PT e ele fazer isso para você muito bem não adianta eu não ter conhecimento nenhum de machine learning e achar que o chat de PT vai fazer todo o trabalho de engenheiro de machine learning para mim não o que ele vai fazer é facilitar muito o meu trabalho mas eu ainda
preciso ter o conhecimento para dar as direções corretas E para isso eu tenho uma pasta aqui chamada Netflix que a gente vai trabalhar com ela e dentro dessa pasta Eu tenho um arquivo que eu vou enviar pro chat DPT e a gente vai começar a trabalhar com esse arquivo bom o que que eu tenho nesses dados deixa eu abrir os dados para você você lembra aquela análise que eu falei para você de chne que meu chefe pode chegar na mesa e falar Preciso que você faça uma análise de chne pra gente entender quem são esses
clientes na verdade já fiz isso diversas vezes inclusive eu automatizei um processo desse para quem tem real através de um dashboard a gente conseguisse ver porcentagem de clientes que teriam a maior que a gente chama de likely Hood ou seja propen de acabar churning ou seja deixando a empresa e aí a gente tinha mecanismos que aconteciam em tempo real automatizados para diminuir esse CH e consequentemente a gente fazia análises depois de rct para medir se as nossas interações tenham sido efetivas ou não mas o que que você precisa entender hoje basicamente a gente vai fazer
a análise Inicial que é entender se o cliente vai deixar a nossa empresa ou ou não para isso tem diversas maneiras que eu posso fazer isso tem ferramentas específicas que eu posso usar eu posso fazer um código em Python para fazer isso mas o que que a gente precisa fazer primeiro conhecer os nossos dados então o que que eu tenho nesses dados identificador do usuário que é único depois o nome do usuário aqui a gente tem personal identifiable information então ele não publica ele vai colocar user One user two three F geralmente ele vai te
dar só o ID sign in Quantas vezes o user sign in eu preciso entender sign in que que é quantas vezes ele entrou no Netflix eu preciso entender se essa esse campo que eu tenho aqui ele vai ser importante para mim ou não se não for importante é melhor eu deletar em vez de enviar pro chats de Pit para fazer análise depois aqui eu tenho um campo interessante movies watched today ou seja quantos filmes aquele usuário viu naquele dia então aqui eu tenho a data eu vejo que esse usuário 139 no dia 1eo de janeiro
de 2024 ele começou a assistir cinco filmes quantos TV shows ele começou a assistir Três TV shows E aí eu tenho quantos filmes ele completou ele só assistiu um filme inteiro e ele não assistiu nenhum TV show inteiro ou seja aqui eu tenho quantas vezes ele iniciou para assistir um filme e aqui quantas vezes ele terminou ele concluiu tanto um filme quanto o TV show quanto thumbs up ele deu naquele dia de filmes que ele viu muita gente usa o thumbs Up ou seja o positivo para salvar filmes para ver depois ou ele coloca ali
naquela lista e thumbs Down quantos ele não gostou e esse usuário no final do período todo daquele ano em algum momento ele cancelou o acesso na verdade o que que a gente tem aqui é quem cancelou o acesso em 2025 então o que que a gente tem dados de 2020 24 e eu quero ver se baseado nesses dados de 2024 eu consigo prever os usuários que cancelaram em 2025 mas o que que eu quero saber o que que leva um usuário a cancelar ou seja em inglês fazer o turn para isso eu vou pegar esses
dados eu vou tentar entender se essas variáveis aqui podem me ajudar numa análise normal do dia a dia a gente vai ter muito mais Campos e variáveis do que essas que a gente tem aqui por quê a gente tá trabalhando com algumas muitas vezes a gente vai ter dezenas de Campos e a gente vai entender como aqueles Campos eles acabam interagindo de uma maneira que eu vou descobrir se aquela variável vai influenciar ou não o que que eu tenho nesse caso aqui eu vou ter que analisar esses dados e entender agora isso então percebeu que
eu já tenho o contexto percebeu que não adianta eu jogar esses dados ali pro Gini ou pro chat de PT pedir para ele analisar me faça uma análise de churn não eu preciso entender o contexto disso aqui para poder falar com ele primeira coisa que a gente tem que trabalhar aqui com ciências de dados Qual que é a minha dependent variable ou seja qual que é a minha variável de saída o meu output variable nesse caso aqui é o canceled que que eu quero saber no final Quais as interações aqui que levam o usuário a
cancelar yes ou não cancelar no Na verdade eu tô buscando o Yes aqui eu quero levar o k leva ele a cancelar Então nesse caso esse aqui é a minha dependent variable E aí eu tenho Independent variable Ou seja que são as variáveis de input que são os fatores que eu acredito né que vão me ajudar a prever se elas influenciam ou não a variável dependente então eu tenho aqui Independent variables moves watch completed today movies watch today TV shows watch it today rates e assim por diante E aí eu tenho essas Independent variables E
aí eu tenho minha variável dependente minha dependent variable que é cancel ou seja cancelou ou não esse é o resultado final que eu quero saber legal então a primeira coisa que eu quero fazer aqui é fazer uma análise preliminar inglês preliminary analisis eu quero entender a distribuição dos dados eu quero entender distribuições das métricas como movies watch it today TV shows watch it today para usuários que cancelaram versus aqueles que não cancelaram E aí eu posso fazer uma correlation análises checar quão forte cada variável independente tem uma correlação com a variável dependente que é cancel
Legal vamos começar a fazer isso primeiro eu vou subir os meus dados aqui vou pegar upload from computer vou pegar aqui no meu desktop Netflix user data Netflix e vou clicar Open e agora eu vou ter que começar a dar as instruções pro chat DPT como eu faço um prompts desse da maneira correta em primeiro lugar se lembra eu tenho que fazer com que o chat de PT seja um cientista de dados então vou passar essas informações para ele então Primeira coisa eu falei você é um cientista de dados no Netflix e você precisa fazer
uma análise de ch aí eu falo na tabela acima temos os seguintes Campos E aí eu preciso des escrever cada campo para ele você percebeu que não é tão simples assim bom aqui eu passei o esquim da tabela para ele a gente chama isso aqui de esquema com todos os detalhes de cada campo então comecei aqui já as minhas primeiras instruções vamos continuar pronto eu dei as instruções para ele já então o que que eu falei primeiro você é um cientista de dados no Netflix você precisa fazer uma análise de ch na tabela acima a
gente tem os seguintes Campos listei os campos mostrei o esquema e agora eu preciso que você faça uma análise preliminar uma preliminary analis eu quero que você explore as distribuições de métricas movies watch it today TV shows watch it today etc para usuários que cancelaram o serviço Ou seja canceled equal Yes versus aqueles que não cancelaram cancel equal no a variável dependente que a gente falou é o cancel e as variáveis Independentes são date moves aí expliquei as outras você pode fazer essa análise preliminar baseado nos dados acima vamos ver se ele começa a conseguir
a fazer essa análise aqui aí eu dei as instruções para ele e aí ele vai começar esse workflow eu vou começar a dar mais instruções depois explicando o que que eu quero que ele faça né posso falar que ele faça um eda Posso explicar várias outras coisas que eu quero que ele faça aqui mas vamos começar por aí eu posso começar de uma outra maneira também tem diversas maneiras que eu posso estar começando com esse processo aqui com ele mas eu acho que essa aqui já é interessante pra gente ter o que que eu defini
aqui o objetivo que eu tenho Qual que é o objetivo eu quero descobrir o ch Então como essas métricas influenciam o ch eu vou colocar aqui o objetivo para tentar explicar claro que vão ter outras análises talvez eu não preciso colocar o objetivo final agora porque ele vai ter que inspecionar os dados gravar o dataset converter a variável de target para números binários eu vou falar assim se necessário aqui ó vou explicar aqui se necessário você pode convercer para um ou zero e assim por diante Mas vamos trabalhar dessa maneira vamos ver se ele não
conseguir resolver a gente continua então vou gravar meu arquivo novamente user data Netflix ele tá subindo eu tenho que esperar ele gravar inteiro e agora vamos lá e vamos ver o que que ele vai começar a fazer primeiro ele vai ler essa tabela e vai tentar entender o que que tá nela Pronto ele já leu a tabela conseguiu entender ver os dados que estão aqui e ele tá começando a análise se eu clicar aqui na análise você vai ver o código que ele tá gerando para essa análise ou seja load the data from relevant sheet
ou seja ele tá gravando os dados agora ele tá fazendo o display das primeiras linhas para entender a estrutura dos dados Então ele me dá todo o processo que ele tá fazendo em Python para entender o que que tá acontecendo aqui então ele gravou tá fazendo data preparation e aí provavelmente ele vai pôr request commands para checar a estrutura dos dados aí ele vai procurar valores que estão perdidos que não existem ali ou drop Rolls por exemplo dependendo da Estratégia que ele tiver utilizando E aí ele vai começar o eda que é o exploratory data
analyses que vai fazer essa prine análise então aqui ó os dados da análise preliminar foram apresentados permitindo Comparar as métricas dos usuários que cancelaram os serviços versus aqueles que não cancelaram caso você deseje visualizar os gráficos ou realizar uma análise mais profunda e algum aspecto é só me avisar então tá sim foi muito bom até o momento então o que que ele fez aqui ele começou a fazer o comparativo e trabalhar com a distribuição Você lembra que eu falei que eu quero a distribuição então ele calculou o min o count est deviation então ele tá
começando a fazer a distribuição desses dados para que eu possa entender aqui legal que que eu vou falar agora eu vou falar que eu quero visualizar os data distributions Então vou lá você pode me ajudar Can you help me visualize the data distributions percebeu o cálculo Inicial ele já fez para mim aqui vamos começar agora entender a visualização disso que que ele vai fazer provavelmente ele usou C Born aqui se eu abrir o código aqui vai estar Import C Born alguma coisa assim não consegui abrir a tempo né porque ele já fez Então ele me
deu as distribuições dos filmes completados naquele tempo então Ó aqui está uma visualização da distribuição dos filmes completados no dia pros usuários que cancelaram versus aqueles que não então se você quiser ver outras métricas me mostre aqui eu tenho uma maior quantidade de filmes que eles não vem então o que que acontece as pessoas que não cancelam geralmente consomem mais até aí é meio óbvio né vamos entender aqui que que eu vou falar eu vou falar me plot um histograma ou box plots de valores numéricos agrupados por cancel ou seja vou falar aqui ó plot
histogram or Box plots for numerical variables grouped by cancel Então vamos ver o que que ele vai fazer aqui se eu olhar o código aqui aí ele vai você vai ver que ele vai estar com seborn provavelmente aqui não foi cbor tá usando de alguma outra maneira aqui provavelmente eu ia pegar Portal um cbor usar o Mat plot Lib para começar a fazer isso ele tá fazendo data P Box plot aqui para realizar essa análise tá carregando ainda fazendo análise vamos esperar aqui olha criando histogramas e block plots para variável então ele mostra aqui faz
os settings dos Block plots e o output não carrega carregou vamos tentar de novo vamos ver se salvou essa imagem e vou ver se a imagem apareceu aqui legal carregou é que não carregou aqui então olha só ele me deu exatamente aquilo que eu pedi então eu tenho histogram de filmes assistidos naquele dia e eu tenho box plot de filmes assistidos por cancel versus aqueles que não cancelaram então legal ele já tá me dando os dados que eu quero aqui apesar de não ter gravado aqui posso até falar que não apareceu você poderia gerá-lo novamente
o único problema aqui é que Ele tá fazendo a análise toda de novo tá vendo mas ele usou uma outra método de análise Por que que ele tá usando uma análise diferente da que ele fez da outra vez Esse é um problema do chat de Pit talvez eu tivesse que dar umas instruções melhores aqui como eu falei que não apareceu ele entende muitas vezes que esse resultado não era o que eu esperava então ele vai fazer de novo de uma outra maneira deu o mesmo resultado igualzinho só que ele realizou uma outra maneira código mudou
um pouco na hora que ele fez essa análise Então pronto ó os gráficos foram gerados novamente você pode visualizar os histogramas e Box plots das variáveis numéricas agrupadas pelo status de cancelamento caso deseja ajustar ou explorar algo em particular é só me avisar legal vou aumentar aqui para vocês conseguirem ver melhor perfeito Vamos aumentar aqui vou clicar aqui para fazer um download e eu tenho o meu output de novo aqui bom interessantíssimo já tá indo no caminho que eu quero aí que que eu quero fazer agora quero checar a correlação entre a variável independente e
o turn Então vamos fazer isso vamos ver o que que ele vai fazer agora eu pedi Você poderia checar a correlação entre as variáveis Independentes Você lembra que eu falei diferença entre variável dependente e independente e o ch cancel eas me mostrar um gráfico olha só que interessante esse gráfico tá mostrando a correlação se ela é negativa ou positiva nesse caso entre as variáveis independentes e o ch cancelamento as barras indicam a força e a direção da correlação em cada variável com a probabilidade de cancelamento então o que que eu tenho aqui ele me deu
o correlation coefficient que que é isso é o coeficiente de correlação é um número que mede a força e a direção da relação entre duas variáveis ele é um valor que vai de men1 a 1 e ele é usado para entender como essas duas variáveis que eu coloquei aqui o CH e essas variáveis Independentes aqui se correlacionam uma correlação positiva quer dizer que as variáveis aumentam e diminuem juntas em uma relação linear uma relação negativa quer dizer que quando uma variável aumenta a outra diminui então isso aqui a gente vê que a gente tem uma
relação negativa maior aqui pra TV shows watched today e uma positiva nesse caso aqui para thumbs Down que que isso quer dizer quando aumenta o thumbs Down aumenta o ch quando diminui a quantidade de filmes e shows assistido no dia aumenta o turn entendeu olha que incrível essa análise que ele acabou de fazer para mim aqui de cara eu já tô começando a ter um entendimento muito bom dos meus dados percebeu eu não precisei criar uma linha de código ou fazer uma análise mas eu preciso ser um cientista de dados para saber das direções corretas
pro chat repit pronto a gente já fez a primeira parte que eu queria aqui e agora o que que eu quero fazer uma Trend analises eu quero que ele faça o plot das métricas ao longo do tempo para usuários que turn versus aqueles que não ch Então vou colocar aqui plotar as métricas ao longo do tempo para os usuários que abandonaram turn porque eu usei o termo turn já você vê eu tô dando instruções ch o que quer canceled equal Yes versus aqueles que não turn pronto vamos ver o que que ele vai fazer expliquei
para ele o que eu queria e ele tá começando a fazer meu código aqui novamente tá vendo ele tá convertendo os dados ele vai começar agora ch cancel e criar o grupo de churn baseado na data e assim por diante então ele tá escrevendo o código para mim e tá fazendo total sentido por quê Porque eu já fiz essa análise antes eu mesmo e foi o resultado assim mesmo só que eu percebi na minha análise que isso acontece depois de um certo tempo então por isso que eu pedi para que ele fizesse isso então A
análise que você faria como cientista de dado escreveria o código gastaria o tempo ele tá fazendo isso para mim então esse gráfico Aqui tá um pouco difícil de entender vamos dar uma olhada nesse gráfico aqui o que que ele tá me mostrando nesse gráfico aí é uma questão de interpretação Olha só cancelou equal Yes o que que eu percebo nesse gráfico aqui por que que tá um pouco complicado esse gráfico porque ele ao longo do tempo então o que que eu vejo aquela variável Independente de assistir um filme eu vejo que aumenta o cancelamento ao
longo do final do ano eu vejo aqui mais perto de novembro e dezembro só que o que que acontece com essas pessoas Elas começam a ver menos filme TV shows Olha o que aumenta o cancelamento de TV show com as pessoas aqui à medida que elas começam a ver menos TV shows então o que que eu percebo aqui por que que esses dados são importantes Jerry o que que eu percebo aqui quando as pessoas que T um padrão de assistir número X de TV shows ou x de filmes por dia ou por semana posso depois
agrupar por períodos específicos para ficar mais fácil de entender e eu começo a perceber que existe uma tendência dela começar a diminuir essa quantidade de filmes assistidos e provavelmente o thumbs Down a gente vai ver aqui também quer ver vamos lá TV shows ó só TV shows completed Olha o que diminuiu o número de TV shows completed e olha o que aumenta o cancelamento e olha Do thumbs Down overtime aqui o que acontece também olha como aumenta o número de thumbs Down então o que que eu quero dizer aqui você percebeu que existe um padrão
diferente entre os usuários que cancelaram e aqueles que não cancelaram os usuários que cancelaram eles têm esse padrão em amarelo aqui que a gente vê os usuários que não cancelaram tem esse outro padrão eles vem mais filmes eles não diminuíram a quantidade de filmes assistidos olha só a quantidade de TV shows watched Como diminui ao final do ano para quem pros usuários que cancelaram isso me dá insights fenomenais como cientista de dados eu olho esses dados aqui que que aconteceu com os shows piorou a qualidade dos shows no final do ano a gente mudou muito
a grade Depois dessa análise eu vou para uma segunda análise Qual que é o perfil desses usuários que cancelaram aí eu posso analisar o perfil deles analisar o padrão de filmes que eles assistiam durante o tempo o que que mudou durante aquele tempo posso depois realizar um panel group mas todas as as informações que eu preciso para começar isso já estão aqui eu vejo que eles começaram a completar muito menos filmes ou seja eles provavelmente não estavam gostando dos filmes é isso não sei aí eu vou ter que fazer uma outra pesquisa para saber por
que que eles não completaram os filmes isso é um outro ponto importante não tem como saber isso nesses dados aqui não existe essa possibilidade mas esses dados estão me dando o qu os indicativos de que eles pararam de assistir filme o que eu tô falando aqui que eles não completaram os filmes porque eles não gostaram é a minha hipótese que podem ter várias hipóteses e aí eu vou ter que testar essas hipóteses também legal excelente essa análise aqui do chat de PT fenomenal Agora vamos fazer um feature engineer que que eu quero eu quero criar
Rolling Average para entender das médias das métricas como a filmes assistidos hoje então vamos começar com filmes assistidos hoje eu vou falar aqui eu não sei falar isso em português vou falar Create Rolling Matrix para movies watch it today novamente ele tá realizando todo o código para mim plotting Rolling Average exatamente o que eu pedi e aqui tá o código das plotting Rolling Average e aqui novamente ele cria o gráfico para mim vamos abrir esse gráfico Olha que interessante novamente de filmes assistido hoje overtime Olha como a média vai diminuindo ao longo do tempo ou
seja esse pessoal que cancelou Ou seja a gente teve um aumento no cancelamento mais pra época do final do ano ou seja teve um cancelamento nesse ano de 2025 mas a gente teve uma mudança de comportamento logo antes dos dois meses que antecederam o cancelamento ou seja os cancelamentos aconteceram em janeiro e a gente teve essa média de cancelamento que aconteceu em janeiro essa mudança de comportamento acontecendo nos dois últimos meses do ano Olha o quanto aqui de TV shows watched today overtime Olha a média como despencou aqui depois de Novembro alguma coisa aconteceu aqui
e aí eu tenho que investigar rates teve uma pequena mudança não foi muito grande já filmes completados drasticamente caiu perto do final do ano e filmes com TV shows completados também drasticamente caiu ao final do ano thumbs up despencou ou seja notas positivas que eles deram pros filmes despencou no final do ano que me dá um indicativo de que eles não gostaram dos filmes ou das séries que eles assistiram e ó o thumbs Down ou seja avaliações negativas como cresceu nesse mesmo período que análise sensacional completamente feita aqui pelo chat de PTI Mas você percebeu
que se você chegar aqui Analise esses dados e me deu os resultados ele nunca vai te dar nada disso eu preciso conhecer ciências de dados estatística para conseguir direcioná-lo na direção correta mas essa análise que levaria muito mais tempo para mim tendo que codificar começar do zero fazer organizar os dados ele tá fazendo isso para mim rapidamente e pior não é só o chat de PTI ou Gemini tem ferramentas hoje por exemplo como tablô iem diversas outras ferramentas que eu consigo fazer algo muito parecido também bom vamos lá então como eu vi aqui o thumbs
Down isso já me deu os indicativos eu vou colocar calcule a diferença de métricas de engajamento thumbs Up e thumbs Down vamos fazer isso ele não só me dá o gráfico aqui que eu tenho que ele me dá essa mudança nas métricas de engajamento eu vejo o período que ela aconteceu u como ele me explica o que que é isso o gráfico mostra diferença de engajamento thumbs Up thumbs Down ao longo do tempo para usuários que cancelaram e não cancelaram isso pode ajudar identificar padrões de comportamento relacionados ao churn se precisar de mais análise outros
Bel são só avisar perfeito eu já tenho aqui o que eu tô querendo ver agora o que que eu quero entender ele eu não sei se ele vai entender essa pergunta eu quero saber se datas como finais de semana feriados Teve alguma variação ou seja isso vai me dar um time based feature de entendimento do que tá acontecendo nos dados que a gente entende as pessoas assistem mais filmes no final de semana no feriado datas específicas os cancelamentos quando aconteceram então o que que eu vou pedir aqui esses time base features eu vou falar me
crie features para finais de semana atividades de finais de semana e feriado vamos ver se ele vai fazer isso os dados foram enriquecido com novas variáis is Weekend fim de semana is Holiday feriado Olha que sensacional ele pegou as datas eu não precisei ir lá no calendário ver Que feriado era ou não era ele me falou assim olha eu peguei esses dados e eu já enriqueci esses dados mostrando que aquela data específica is Holiday tipo ou is Weekend se aquela data específica é um final de semana ou é um feriado que que eu vou fazer
aqui vou pegar aqui e vou ver a diferença no final de semana e feriado vou pegar aqui is Weekend is Holiday mesma coisa da análise anterior eu quero ver se tem alguma diferença durante aqueles períodos bom o que que ele tá tendo que fazer aqui ele tem que pegar o is Weekend is Holiday e converter em dados bolean ou seja ele tem que falar se é zero ou um ou is weeken z0 1 sim ou não is Holiday é é sim ou não eu vou pular essa parte aqui só pra gente não perder muito tempo
basicamente o que que eu elea fazer não leva muito tempo mas ele vai ter que pegar esse is Holiday mudar para zero ou um e is Weekend e mudar para zero um pronto eu pedi para ele converter esses valores na tabela que eu já enviei para ele para 0 e 1 então ele vai fazer isso para mim Imagina eu tivesse que fazer isso não manualmente mas for um find and replace trocar ele já faz tudo isso para mim agora eu posso fazer essa análise se eu quiser legal vamos ver se ele faz aqui não sei
se ele vai entender essa instrução tá um pouco difícil para eu explicar que que eu quero que ele pegue a date Matrix is weaken e checar a diferença between Yes é final de semana e não Against the dependent veral cancel não sei se eu expliquei da melhor maneira vamos ver no resultado do gráfico se ele consegue fazer isso se ele não conseguir ou se eu não conseguir explicar melhor eu preciso pensar numa maneira melhor de reformular essa pergunta senão ele vai me dar o resultado aqui não teve muita diferença no Weekend eu vejo que a
diferença é quase nenhuma que que eu vou fazer agora aqui eu vou pedir para ele começar a modelar os meus dados eu vou pedir para ele Fit and evaluate models e ele treinar o test split with cancel as a Target ou seja ele treinar o modelo com o cancelamento como a minha variável dependente vamos fazer isso agora eu preciso explicar para ele o que que eu quero bom eu expliquei o que que eu quero quero que ele comece uma modelagem dos dados e eu quero que ele faça avaliação desse modelo fazendo train test split com
o cancelamento né que a gente colocou o cancel como o target Vamos ver que que ele ele faz provavelmente ele vai usar o es learn Model para fazer isso vamos ver aqui aqui ó falei es learn Model selection train test split Então você percebeu eu tenho o conhecimento de ciências de dados o que que ele tá fazendo ele tá facilitando o meu trabalho esse trabalho que me levaria um tempão para fazer ele tá fazendo isso aqui muito rapidamente ó it Says that Might be two large current resources causing Memory a ou seja ele fal tá
muito grande esses dados aqui para eu fazer isso qual que é as recomendações que ele me dá D um Samp on the data sear to size Fit the mod game ou seja reduz o tamanho do sample que você tá usando faz total sentido isso tá com muito dado reduzir para um número menor né de dados que a gente tem aqui use a simpler Model logistic regression which requires less Memory perform dimensionality reduction tá select Fer features que que ele tá falando você tem muitas features muitos dados aqui para eu fazer isso e o que você
tá me pedindo vai levar muito tempo vai usar muito recurso do Servidor para fazer isso E aí ele fala reduza então vou falar para ele faça você isso pronto vamos ver se ele faz isso que eu pedi invés de eu ter que fazer todas as etapas vamos ver se ele consegue fazer ele mesmo porque basicamente seria simples para mim também teria que fazer o download dos datados que eu já tenho aqui reduzi o tamanho desse dataset ó ele falou ó tá dando Memory issues again Então tudo bem não tem problema o que eu teria que
fazer aqui abrir os meus dados pegar um sample desses dados e trabalhar com esse sample porque o dataset ficou muito grande então vou pedir vamos ver se ele consegue fazer só o Down sample do dataset vamos fazer isso aqui vamos ver se o jni faz pra gente isso vamos ver se ele faz isso também me dá a opção de mostrar o código ele tá importando os dados tá entendendo Os dados aqui tudo isso aqui eu estaria que tá fazendo manualmente pedi para ele salvar no arquivo csv vamos ver se ele consegue fazer isso pronto Legal
fez isso para mim vou salvar aqui perfeito então o que que eu falei para eles que eu criei agora sample no g9 né não falei foi no g9 mas que eu criei essa sample E aí vamos ver se ele consegue realizar agora aí ele falou agora sim eu gravei o arquivo e eu vou começar o teste pronto primeiro ele criou confusion Matrix acuracidade de 91% ótimo perfeito que que eu quero agora que ele faça o treinamento faça um train classifier Vou pedi para ele usar logistic regression ou Random Forest pronto percebeu eu tô dando as
instruções para ele como eu faria a diferência que ele tá executando para mim então eu faria todos esses passos que ele tá fazendo eu não teria como dar essas instruções se eu não tivesse conhecimento então aqui o que que aconteceu esse modelo de Random Forest ele foi treinado para ver se algo foi cancelado ou não cancelado ou seja se o usuário cancelou ou não e depois de analisar os resultados ele viu que teve 1089 acertos de não cancelado o modelo previu corretamente que algo não seria cancelado com cinco erros aqui que ele mostra cinco falsos
positivos ou seja teve cinco instâncias nesse caso que eu tava olhando e eu disse que algo seria cancelado mas na verdade não foi E aí 105 erros de cancelado o modelo disse que algo que não seria cancelado Mas acabou sendo então o que que ele veio precisão para cancelamento 17% quer dizero que quando o modelo diz que algo será cancelado ele aceta em 17% dos casos isso é muito baixo Para mim por que que isso aconteceu porque provavelmente o sample não tava correto Então eu preciso melhorar esse sample e subir de novo aí o que
que ele fala Recall for the cancellation de 1% ele só consegue identificar corretamente 1% dos cancelamentos reais Então essas informações não tão muito boas para mim então o modelo 91% de precisão geral que ele fala Acerta 91% no geral Mas isso é enganoso porque ele foca muito mais na classe majoritária que é o quê de casos não cancelados então percebeu que se eu não sou um cientista de dados eu não consigo trabalhar para isso para resolver esse problema e aí ele me dá o que que eu deveria fazer primeiro equilibrar os dados né usar técnicas
como synthetic Minority oversampling technique para criar mais exemplos da classe cancelado ajustar os parâmetros da randow Forest para lidar melhor com as classes minoritárias e experimentar outros modelos por exemplo gradient boosting ou ext Boost que podem lidar melhor com os dados desbalanceados vamos fazer isso mas eu não tô surpreso por quê Porque eu não sei a qualidade desse sample Você viu eu fiz um sample lá no dimini e ele me mostrou os resultados na verdade Eu precisaria trabalhar melhor esse sample deira se eu tivesse o sample deira correto eu não teria problema nenhum Mas você
percebeu como ele consegue realizar tudo para mim me dá os resultados me dá explicação exatamente como eu preciso se ele não der o resultado agora com uma coracidade boa quais seriam os próximos passos primeiro eu faria o treinamento do classifier depois eu Fari avaliação do modelos eu usaria a classificação de métricas para mensurar as features por importância e depois faria um plot da importância das features usando um modelo de Random Forest para analisar a importância das features que ele analisou e aí depois eu faria um shap analises para explicar né quais seriam as previsões que
eu tive individualmente e depois poderia analisar ou fazer um cluster behavior analise para identificar padrões dos usuários que fizeram o churn em comparação com seus usuários que não fizeram churn E aí eu poderia pedir pro chat de PT me dá insights e recomendações eu posso fazer isso agora então o que que eu vou fazer assim ó então o que que ele falou olha usuários que tendem a dar mais tumb Down tem um comportamento Diferente ao engajamento essa métrica pode ser um indicador potencial de insatisfação usuários que assistem menos filmes ou completam menos séries tendem a
ter maior propensão ao chne isso sugere que o baixo consumo de conteúdos pode estar realizado com a decisão de cancelar as taxas de churn parece estar limente diferentes durante os finais de semana isso pode estar relacionado como os usuários interagem com conteúdo nesses dias interessante ele não falou tem a ver porque pode ser que as pessoas usam mais ou menos durante o final de semana e o número de avaliações rates parece est correlacionado com o chne usuários que interagem menos avaliam um pouco ou negativamente pode estar engajados com serviço E aí ele me dá as
recomendações perfeito se eu tivesse ainda o sample correto eu conseguiria ainda mais criar o meu modelo e fazer uma análise ainda melhor de tudo isso que eu tenho aqui mas foi excelente essa análise Inicial já feita pelo chat de PTI que poderia ter sido sido feito pelo Gini e percebeu como a gente trabalha com os prompts o meu foco aqui não foi somente fazer análise foi para te explicar como a gente trabalha com os prompts e como a gente cria esses prompts para utilizar o chat de PT o Gemini e outras ferramentas na área de
data Science legal Espero que tenham gostado dessa aula vou trazer mais aulas sobre prompts para outros tópicos de programação diversas outras áreas de ciências de dados também coloca sua pergunta aqui embaixo qualquer dúvida que você tiver vou est respondendo para você e a gente se vê na próxima um abraço