E aí [Música] E aí E aí [Música] E aí E aí [Música] E aí [Música] [Música] [Música] E aí [Música] E aí [Música] [Música] E aí [Música] E aí E aí [Aplausos] [Música] E aí Oi bom dia caros alunos colegas concurseiros sábado de manhã nesse horário cedo querendo aprender ciência de dados Acho ótimo felicitações então é um curso rapidamente longo não sei 10 encontros três a 3:30 uma carga horária é muito grande né E aí eu tenho que ajudar vocês aí a responder à pergunta de por quê gastar tanto tempo tanto esforço tanto recursos limitados
que vocês têm preparação para concurso nesse curso de ciência de dados com ênfase mexerem tem várias dimensões e resposta a principal é que o assunto interessante para caramba e aí vai ser eu tentar comprovar isso para vocês e motivá-los aquele aprender o assunto e a outra que esse assunto assim cada vez mais pedido para concursos e portanto uma estratégia de maximização do desempenho é bolsas dominaram assunto é não tem que começar a partir de conteúdos se vocês tiverem perguntas que queiram trazer fiquem à vontade durante a apresentação do conteúdo eu vou priorizar responder às perguntas
sobre o bloco de conteúdo no final do bloco tentando as questões de gravação aqui do estratégia Então acho muito legal a interação entre nós mas essa interação acaba não sendo gravada no formato final do curso mas acho muito legal desse feedback entender como vocês estão entendendo ou não que eu tô tentando comunicar para vocês então por favor não hesitem façam perguntas eu não acho que tem pergunta besta se você não tem certeza de alguma coisa ainda assim faço a pergunta provavelmente outros colegas vão ter dúvidas similares em conta o material então eu devo comunicar para
vocês melhor o Mickey para o estratégia o meu power point o estratégia deve publicar um material para vocês também bom então Tiago não esse curso não é voltado para o concurso específico e realmente o curso regular de ciência de dados muita da Sefaz Minas Gerais ela está copiando praticamente o edital da CG um EA cegeo é uma das grandes fontes de conteúdo para esse curso a outra grande fonte sendo o TCU ou seja esse curso ele cobre praticamente se a união dos temas mais importantes de seus Egeo e algumas outras coisas que a gente viu
como sendo altamente frequente em Petrobras TJDFT esse tipo de coisa é é mas vocês virem não o as fontes principais acabam sendo FGV Então acho que vai cobrir muito bem à Sefaz Minas Gerais não é sempre que a seguir carreira em ciência de dados então mais ou menos no ponto de vista conceitual sim acho que eles vão aprender muita coisa que é relevante em geral para ciência de dados mas abordagem do curso vai ser muito como maximizar o desempenho concurso não se você quiser se tornar um cientista de dados de verdade isso aqui não é
suficiente o que você realmente precisa para dominar o assunto é executar código realizar experimentos desenvolver seu próprio projeto eu tenho até um curso que eu faço em geral pela Snap mas em várias outras instituições de como levar alguém que já tenha boa base e programações de matemática a se tornar um cientista de dados do lado Machine ordem sem ser dados é relativamente amplo e sejam ver um curso desse mais voltado a projeto ele é eminentemente prático porque vocês não tem inúmeras dúvidas Então e tem dois grandes níveis de dúvidas tem um híbrido que é mais
conceitual e é isso que vai ser abordado nesse curso porque é o tipo de questão que uma banca de concurso consegue cobrar de uma forma mais objetivo dos candidatos mas tudo que aquilo que é o saber fazer é o conhecimento de conseguir transformar uma ideia abstrata um projeto real que funciona isso aqui é dificílimo de ensiná-lo de uma forma puramente teórica e eu achei quase que impossível de ser cobrado de uma forma objetiva por um concurso essa que a gente não vai ensinar para vocês nesse curso mas é fundamental para a sua capacidade operacional aqui
vocês vão sair sair daqui entendo digamos boas noções dos conceitos e ser capaz de responder a perguntas mas você cair na frente de um empregador que te dissesse olha dado esses meus lados Aqui faça o melhor que você puder provavelmente não conseguiria se virar só com que vamos ensinar neste curso é esse Pizzaria tem um curso muito o básico de construção de projetos de teste de hipóteses de experimento validação a gente vai abordar os conceitos mas sejam um ter essa experiência prática que eu acho que é fundamental para ancorar profundamente os conceitos eu vou tentar
fazer meio que um híbrido de meio que tá parcial o encontrar atalhos para que você já tira o máximo de profundidade e vivência que vocês teriam obtido por meio de experiência sem ter a experiência o homem que o ideal seria combinar as duas coisas fazer um curso voltado a projeto com escrita de código e ter uma encoramento profundo de tudo que é senso de dados e depois fazer uma aplicação para proteger para concurso no entanto o nosso público-alvo aqui são os concurseiros e concurseiras praticamente não tem tempo para nada né ele tem que competir tem
que ir ao local seu tempo entre inúmeras matérias um cronograma muito ocorrido de preparação para concursos concurso que estão para vir na então não tem como ter toda essa bagagem para fazer um conhecimento mais aprofundado então esse nosso curso tenta extrair os elementos mais importantes destilados e passar para você esse misto de conceito teoria e um pouco da vivência que vocês têm obtido na prática a ponto de poder responder a perguntas que Visa identificar quem tem conhecimento mais profundo de quem tem apenas um conhecimento o livro do assunto o ok então cinco deles o curso
é específico para a área de ter Então depende né acg1 ela cobrou esse assunto especificamente para o seu cargo de t.i. já o TCU cobrou esse esse assunto para o cargo Geral de auditor Então não é claro como os concursos irão evoluir se eles vão jogar na cidade unicamente como uma especialidade de t.i. ou se eles vão considerar a cada vez mais que análise de dados passa ser um requisito de um cargo técnico analítico Então você para o maldito acho que faz muito sentido para sei lá no auditor da receita acho que faz sentido no
entanto sei lá um analista judiciário aí já não tá tão claro se o núcleo de atividades analista judiciário precisaria desse nível de análise de dados o se seria Só mesmo para um cargo específico então isso ainda está incerto Como é que os um curso de vão evoluir em relação à os dados só para te ir ou para o cargo geral o viés que sim alguns regular de de a sensibilidade semla há realmente uma escassez de material razão principal aqui é muito novo então ninguém ainda preparou muita coisa para isso vocês vão ver que eu tô
me apoiando muito em cursos que eu já desenvolvi e era voltada projeto então fiz uma da adequação desse meu material e dessa Minha experiência para o lado e concurso então é então você falou que é complicado saber o que será cobrado essa sua afirmação teria sido perfeita uns seis meses atrás mas agora que tivemos esses concursos importantes né do TCU seja o Petrobras tj-df mas tem mais um outro já temos uma certa ideia de como está sendo cobrado hoje então se essa tendência que foi revelada nos últimos celular três quatro meses se mãe tiver eu
tenho um módulo já no início Zinho aqui e vou explicar só essa diferença de os dados análise das era cobrado a antes de 2011 2021 e a partir deste concurso 2021 que tiveram provas em 2022 tem alguns também que você faz no Ceará também teve uma cobrança no nível mais elevado E quanto a bibliografia indicada Então como a gente mencionou né para os outros colegas não tem ainda bom esses cursos de análise de dados voltados para concurso não tem ótimos cuscuz assim maravilhosamente se fantásticos inclusive alguns disponíveis gratuitamente na internet Lima shinnoden Então se vocês
tiverem muita paixão pelo tema de tempo não for só um concurseiros mesmo eu recomendo vocês têm dar uma olhada nesses cursos disponíveis na internet de altíssima qualidade tem eu solicitaria o curso and yang do curso era em vários cursos muito bons do EDX do Rio desce não falta curso de alta qualidade para machine learning em geral em inglês com uma visão mais acadêmica mas teórico ou com a visão prática de desenvolvimento de projetos o que falta mesmo essa ponta concurso e vocês vão ver que é muito fácil ser gastar centenas de Hórus aprendendo as bases
bom e ao mesmo tempo não conseguirem um alto desempenho e como os concursos cobram um assunto infelizmente concurso ainda tem a meu ver um programa que é muito extenso que indica um monte de tópicos cuja importância prática é extremamente desigual não se você foi estudar é todos os itens do edital vocês vão cobrir um assunto gigantesco esses alocar em tempo igual para cada um deles vai ser muito ineficiente então vocês vão ver que parte do valor do meu curso é eu ter priorizado os elementos que são mais importantes e em geral do priorizando ao mesmo
tempo aqui que é mais importante na prática e aqui que é mais cobrado pelos Concursos tô no boa notícia que eu trago da FGV é que estou fazendo uns planos bem razoáveis em que a maior parte do que eles cobram são coisas realmente relevantes eles não estão focando em detalhes e relevantes mais históricos fica mais assim dos concursos mais recentes mais antigos é muita coisa que era simplesmente legado histórico o recurso está disponível para todos os assinantes não sei se aqui acho que eu vou deixar suas respostas para Érica ir para o pessoal do estratégia
e é mais de biografia então a minha recomendação é se você tiver pouco tempo e se realmente focando um concurso e não procurem ler livros a menos que você seja muito se preciso do reconforto de ter um livro explicando tudo por escrito aí eu sua estaria também dois ou três dias eu gosto muito tem um quer voltar a projeto do Jeff Hardy The Deep learning acho que era esse título agora mas se pesquisar Jeremy Howard em bihar Índia tem um curso acusa festa ai que é muito bom curso gratuito na festa de área e tem
um livro associado que é fantástica mas também tem o livro The Machine urn do Andreas Muller que é um dos desenvolvedores da biblioteca está clã tem um outro do Sebastião rasca que também é um dos meus inspiradores para uma parte do material desse curso acha as principais influências é mas a minha recomendação é não gasta em tempos com livros pois o foco do livro é muito diferentes no foco de como otimizar o conhecimento visando o concurso o Inep tem curso sim aí na tem oferecido diversos cursos nesse assunto inclusive ou menos tem vários cursos na
Snap tem cursos Gerais essência de dados que pegam coisas como Python pandas têm cursos mais voltados para mexer engane que a minha área de Especialidades mas é muito voltado para desenvolvimento de projetos então se você já é servidor público e você quiser concorrer para essas limitadas vagas da de curso da Snap Fique atento acompanha que a na pública a gente tá tentando fazer pelo menos um curso por Ana idealmente 21 por semestre pela enap mas é bastante variável Mas a demanda é grande e é difícil confie garantir uma vaga pela enap e a beleza então
vamos dar início ao conteúdo mesmo E aí E aí é um dia então para começar a convencer vocês de aprenderem o assunto decência de dados comigo eu acho que um dos argumentos é mostrar como eu tenho uma certa experiência no assunto e vou tentar tornar o tempo de vocês o mais produtivo possível para aprender esse assunto da forma mais agradável da ferrar mais produtiva possível bom então falando um pouco sobre mim eu tava sou Vitor Federal de controle externo seu trabalho no terceiro eu passei no concurso especificamente para um cargo da secretaria de fiscalização e
auditoria área fim mas voltada para auditoria de ti das steez nos órgãos públicos nas contratações aquisições escolhas tecnológicas e coisas assim bastante tempo na sert depois que trabalhei no centro de pesquisa e inovação do Whisky que é um instituto serzedello Corrêa que a escola Duda e seu olhar me foquei nessa parte de como desenvolver ciência de dados para os auditores projetos inovadores coisa Sempre finalmente agora eu migrei para STI que a secretaria de item apesar do meu carro no céu diretor da área fim eu estou agora trabalhando em tempo limitado na para área meio para
ajudar a desenvolver projetos que usem Inteligência Artificial não temos uma equipe muito boa no TCU em pessoas que aprender e por conta própria por verem que o assunto é fantástico extremamente importantes e são bastante valorizados no TCU só que é um número limitado e há uma infinidade de projetos com demanda para isso então eu acabei achando que eu estaria mais último curto prazo desenvolvendo esse projeto na área de informática para depois voltar para aplicação de isso tudo em auditoria mas mais tradicional eu gostaria que você capaz de utilizar e a na realização da auditoria isso
não é algo tão simples então eu me considero hoje além desse âmbito um cientista de dados eu trabalhei desenvolve diversos projetos e fui instrutor nessa área em uma grande quantidade de cursos já há mais de 34 anos é um curso de machine learning The Deep and nlp eu fiz esse oferecer esses curso no TCU na Snap vários maior parte na verdade na inap smp1 UnB idp cursos de extensão o curso de pós-graduação Eu também sou instrutor certificado NVIDIA para curso de hiperlink ou seja assim eu não me considero com um gênio um assunto Infelizmente eu
conheço gênios um assunto eu tô tentando chegar no nível beijo é muito difícil que esse assunto é é extenso E aí no atualização extremamente rápido você já é muito difícil você ter um cara que liga eu entendo profundamente desse assunto na extensão na cobertura que tem esse é o as pessoas acaba se especializando então eu tô tentando especializar em machine learning Deep learning mas ainda não encontrei um sub ramo eu tô tentando hoje mais focar em nlp no acostamento linguagem natural mas inicialmente tinha começar a tua visão computacional E aí esse esse certificado ainda em
vida pelo menos morte que eu tô no nível dos instrutores em vídeos e é pelo estratégia já ofereci duas turmas de essência de dados nos concursos do TCU e da seja foram turmas muito boas com muitas perguntas muita interação assim é o concurso do TCU e seja a meu ver foram a mudança principal de como assunto é cobrado entre essas primeiras turmas foram grandes desafios porque a gente não sabia exatamente como FGV iria cobrar em nível de complexidade temos editais de concursos passados que falavam do assunto em geral mas não falam muito diferente de como
edital do TCU e surgiu saíram e logo a gente não tinha uma nossa muito claro e o nível de dificuldade agora sabemos e muitas pessoas relataram que tava estranha bem difícil e para quem tem procurar tem experiência no assunto a prova da 3ª série foi relativamente tranquila em análise de dados mas para quem Aprendeu o assunto do zero para esse concurso realmente foi muito mais difícil do que era esperado Com base no histórico de como isso era cobrado antes né pelo diversas bancas então esses dois concursos na terceiro e surgiu o foram fundamentais para ancorar
o nível de expectativa de cobrança de essência de dados para os concursos futuros e eu também já fui concurseiro né obra além de obter entrada no TCU eu já tive paixão por isso gás tava muito mais tempo que o estritamente necessário porque eu vi eles como um jogo um esporte então eu acabei Estudando bastante mesmo no caso do tecido eu entrei em 2000 concurso 2007 com entrada em 2008 porque em primeiro lugar no cargo de auditoria de t.i. e nesse concurso 2007 era possível participar de cargos diferentes tinha provas diferentes em horários diferentes É nesse
mesmo concurso que também oitavo lugar na no concurso para a área de tem E aí escolhi para área de negócio né a área finalista do órgão de auditoria mas com uma forte interseção entre auditoria de um azul e ter ido outro então passei também diversos outros concursos cheguei a trabalhar na Receita Federal e na Câmara só concurso TRE e vários terrier BA em várias e faz e trabalha também no cérebro acho pouquíssimo tempo fundador do grupo neste treino de pernas em que é um agregador da comunidade de desenvolvedores essência de dados mas tirone de prioridade
nistração pública focado em Brasília mas com a epidemia acabamos expandindo isso de forma mais Ampla e Esse grupo é um grupo no telegram que acaba reunindo boa parte das pessoas mais envolvidas nisso tão ajuda a tirar dúvidas acompanhar eventos Se tiver interesse depois eu posso até passar o link para vocês mas o importante é Vick é um assunto crescente Uma demanda muito grande seja conversar qualquer pessoa da área eles vão te dizer que eles têm uma demanda de projetos muito mais muito maior do que João conta de desenvolver uma Essa é a principal razão para
o Corsa confiante tem um confiança que os concursos futuros vão cobrar cada vez mais sensualidade porque é um e é uma fome não preenchido dos órgãos os órgãos vem para mim é muito difícil qualificar seu público interno para desenvolver para se tornar esse texto de dados tem pessoas com perfil mais alto de dados que estuda por conta própria Mas é uma minoria um servidor padrão e infelizmente ele ainda não tem mecanismos e incentivos suficientes para ver que isso aqui é o futuro então diante da da complexidade do assunto vários deles não pensa engajamento um grande
para aprender tem vários também que aprendem ainda tanto em Porto lidado com recursos motivados pelos pelos seus cursos internos nos órgãos Mas a demanda muito grande e a estratégia vão ver que os órgãos são conseguindo obter para tentar complementar essa falta é pro Branca cada vez mais isso nos concursos já trazendo pessoas com boas noções ou até mesmo especialista e finalmente sou palestrante em aplicações de Inteligência Artificial administração então fica claro eu sou louco pelo assunto sim eu não me considero por exemplo eu acho que existem professores são profissionais Professor profissional é o que ele
que pegue Qualquer que seja o tema estudo um pouco pega as fontes faz uma síntese e explica isso razoavelmente pelos seus alunos não é o meu caso eu sou o professor de eletrônica eu adoro o tema de nasher ler e depois eu acho que isso aqui é extremamente importante é a razão pela qual tô focando a minha carreira nisso e sobre esse assunto eu acho que eu sou um bom professor por ter feito um monte de cursos diferentes visto que funcionam que não funciona cada conceito básico de ML vou apresentar para vocês eu já vivi
será apresentado em diversos livros em diversos cursos eu ter uma noção Clara de como explicar o melhor possível àquele para que vocês consigam aprender o de uma forma mais prazerosa e menos traumática possível em vários conceitos que realmente não são óbvios já vi tantos cursos assim que o conselho mal feitos né em que isso tem uma abordagem que dá a impressão que é tudo chinês que nada faz sentido que você tem que apagar tudo e memorização eu acredito que se você conseguir costurar as relações entre os conceitos para que tudo faça sentido é muito mais
fácil você conseguir ter uma compreensão mais profundo e lembrar desses elementos na prova a sua memória vai ser extremamente exigido Durante a preparação para concursos Então o que eu quero é que para parte licença de dados vocês tem que decorar o mínimo possível e que o máximo e compreensão do assunto faça que as coisas façam sentir e durante a prova quando um conceito aparecer já vai conseguir resgatar o conhecimento relacionado ao conceito nas costuras nos Laços que esse conceito tem com os demais outros conceitos tão que eu quero que praticamente a cada módulo vocês consigam
dizer mas é claro isso só poderia ser desse dessa forma e não tem outra forma de você resolver esse problema que não seja com esse conceito tem chegar nesse patamar ótimo que um conceito explicado desse jeito vocês vão conseguir lembrá-lo ainda que sei lá vários outros detalhes ninhos artificiais não é arbitrário sumo da sua memória conceitos básicos não conseguir lembro e vai ter que uma foto do auditório do IFC né aqui no aqui em Brasília lotado de pessoas aprendem em LP naquele dia tivemos aulas cursos abertos gratuitos no sábados pela manhã e quem tem muita
gente interessada pela sua assunto pelo fato de estar gerando resultados bem interessantes e aqui ou é um painel que recapitula os projetos desenvolvidos pelos meus alunos nas turmas voltadas a projetos então eu considero que a melhor forma de aprender mexer no Enem é desenvolvendo o projeto no entanto essa abordagem aqui ela é muito mais caro em tempo então ela não é meu ver a mais otimizada para concurseiros mas o legal que ao ter orientado tanto os alunos a desenvolver seus projetos eu tenho a nossa muito clara de quais são os conceitos que são facilmente compreendidos
os que são mais difíceis que passamos erros mais comuns de compreensão dos conceitos pelos meus alunos Então dentro trazer já uma síntese disso e guiá-los por 11 a ver como fosse um um catalisador da sua experiência de aprendizado então é possível aprender de diversas formas várias formas complexas e difíceis o que eu tento encontrar um caminho de mínimo esforço e Menor complexidade não seja aprenderem esses conceitos de ML na forma agradável possível E com isso aqui encerra a minha parte de apresentação sobre o E aí [Música] eu estou se tiver alguma dúvida a gente não
nessa que não é conceitual vamos lá vamos que eu enfatizo né Por favor Tragam suas dúvidas como eu falei no início Zinho os blocos de conteúdos eu eu não vou trazer respostas às perguntas de vocês durante o bloco mas terminado o bloco eu vou botar no intervalo Zinho só para poder responder suas perguntas Então aproveita esse Jet tirem suas dúvidas acho que é um diferencial significativo dessa interação Nossa é que às vezes um ponto que você fica na ambiguidade Mas ele falou tal coisa com tal intenção ou tal outra aproveitem usem esse canal e de
forma muito rápido cês vão ter esse feedback você estiver estudando sozinhos qualquer ambiguidade vai ser muito mais dolorosa e se resolver isso até fazer uma pesquisa Enfim então Aproveitem bastante preservadas o Ok então vamos começar então próprio primeiro bloco mesmo de conteúdo e que eu vou tentar explicar para vocês como o assunto está sendo cobrado nos concursos é meio que olhar de trás para frente né que você começa vendo como é o resultado final eu acho importante ter isso em mente o Olá então o nosso bloco de como sensibilidade está sendo cobrado em concursos esse
de dados mais no seu lado na shimmering então vocês vão ver que em diversos editais é a diversos conteúdos encobertos na área Geral de ciência de dados ajuda até coisa de banco de dados em então Essência dados eu acho uma novidade é uma disciplina própria inclusive muito mais padronizado e que já é ensinada anos para concursos e logo muito mais sedimentado já ciência de dados não é uma área nova na sua cobrança de em concursos e logo ainda não tem um forte tradição e inclusive assim a forma que eu acho mais eficaz para mim na
minha própria aprendizado de preparação para concurso é resolver questões passados E aí é um grande dificuldade porque tem que pouquíssimas questões passadas para ser realizados então vocês vão ver que há um certo número de questões tipicamente licença de dados concursos pré 2021 Mas eles têm um viés um foco nível de complexidade muito mais baixo do que a forma como senso de dança sendo cobrado nos concursos pós-2020 um Então como é que o nosso curso vai ser focado a gente vai pegar várias as questões passadas para parte conceito simples noções básicas e isso que vocês vão
dominar mesmo para garantir que qualquer pergunta fácil vocês confiram gabaritar já para as perguntas complexas no estilo pós-2020 um eu vou tentar trazer para vocês o máximo da compreensão intuitiva dos conceitos fazer serão capazes de fazer o raciocínio o rádio para gerar uma resposta boa aí essas novas questões aqui essa muito menos a decoradas em memorização e muito mais em reflexão sobre conceitos interiorizadas a uma tentativa da banca de fazer a distinção entre quem tem experiência no assunto e quem apenas estudou superficialmente o assunto então vou até mostrar um exemplo específico uma questão dessa Em
que simplesmente se conhecer os conceitos não era suficiente para responder à pergunta era precisa ter um pouco de vivência na área então que eu vou tentar trazer para vocês com esse curso é elementos dessa vivência dentro da forma como apresenta os conceitos de tal forma que ainda que sejam tem uma experiência vocês consigam ter um bom desempenho que estão esses de maior complexidade bom então é no centro de dados então aqui com os antigos era apenas uma parte da ATI a parte tem clássico envolve banco de dados Big Data processamento desenvolvimento hardware.net redes tudo isso
aqui seria tem em geral EA essência de dados às vezes entre Bento do conteúdo de ter e às vezes como né do TCU é um conteúdo o próprio ou paralelo o que seria estatística Então hoje ninguém considera que é cobrar estatística seja parte do perfil de tem um e em geral há uma aceitação de que estatística pode ser cobrado no concurso para o cargo Geral do órgão eu acredito que essa seja tendência para a ciência de dados que ciência de dados vai ser mais ligado aos conhecimentos gerais de maldito ou de um analista te esperado
no âmbito um elite como seria estatística e menos um conhecimento técnico específico de em Mas isso ainda é incerto É mas não a grande diferença aqui antes e2021 os concursos de antes 2021 estilo tendências serem mais simples conceitualmente e trazer basicamente definições ele por exemplo e trazer uma definição e havia opções sobre diversos conceitos aquele que era o conceito correto o coisas inversas em era muito mais era uma relação muito direta entre um conhecimento teórico EA resposta à pergunta então se você tinha estudado superficialmente o assunto e quem é será pesquisado as principais conceitos da
área que estavam numerados no edital no conteúdo programático do edital já era suficiente para ter um desempenho razoável não é mais o caso agora vou mostrar para vocês as diferenças nesse concurso mais recentes E então havia um pouco de memorização de detalhes algoritmos mas não havia por exemplo aplicação do algoritmo um caso concreto que ao que a gente tá vendo aparecer nos concursos mais recentes então basta apenas memorizar tem que realmente entender como ele é aplicado e tem confiança de que é daquele jeito e não de um jeito alternativo e essa confiança ou você consegue
o pela por uma memória tremendo que há muito conseguem colocar todos os detalhes ou então você consegue uma compreensão mais profunda em que você vê que apesar de ter várias vias possíveis para desenvolver aqui no algoritmo apenas uma delas Faz realmente sentido as outras têm problemas e quando você pensa no assunto você vai ver Puxa vida tinha que ser desse jeito então exige menos da sua memória quando a sua compreensão é mais aprofundada Oi e aí Bia não tem uma coisa mais abstrato das técnicas e agora tá vendo mais aplicações Ok mas ele tá recente
né houve uma demanda crescente desse desse assunto era algo Marginal que aparecia talvez em cinco dez porcento a vez de concursos com um cara seja técnica muito forte e agora foi o tema principal do concurso do TCU 2021 que com seus próprios ocorreu esse ano 2022 25 porcento das questões do concurso da prova objetiva eram estatística e análise de dados e até na repartição que é muito mais análise das o que está triste ou seja a gente pode considerar esse desse essa prova do perfil como anomalia ir em que o terceiro tava querendo trazer um
quadro de pessoas com essas bases para depois poder usar os diretamente projeto um com uma nova tendência eu tenho tendência a achar que é uma nova tendência Mas pode ser que sejam ali mas eles ver que é o mesmo o CEO que cobrou também extensamente o assunto mais para o cargo específico de t.i. e vários outros concurso uma Petrobras teve um cabo específicas entre de dados a prova retissimo bem elaborado da Petrobras vocês quiserem dar uma olhada na baixa a prova da Petrobras e vejo também teve TJDFT o certo é Sefaz do Ceará é são
os principais concursos que eu acho que cobraram o tema diferença de dados forma recente com as características que eu vejo com sendo mais e mais inovadoras em relação a como o assunto era cobrado no passado Esse é o Conta aí de estais lançado nós temos agora o edital da Sefaz também Minas Gerais que é praticamente a cópia da CG então ele é também para um cargo específico de t.i. com todos os defeitos e qualidades do Edital da Civil para mim subjetivamente temos de ranking de qualidade de edital e conteúdo programado e da prova e botar
o da Petrobras como melhor muito bem feito mas já era para uma especialista em intestino dados depois de botaria do TCU que era o quatro o perfil no geral de aumentou mas era muito bem construída e finalmente da CG o campeonato ácido pela mesma Banca na FGV e e você olha o conteúdo programático da seju fica claro que houve uma reunião de sugestões de diversas áreas então acaba fazer uma colcha de retalho sem organicidade na seja tem muitas coisas ali que faz são amontoados de conceitos e não um todo coerente por exemplo você pegar em
linguagens de programação não faz sentido ao meu ver você estudar na mesma forma é Python e r dá para fazer sensualidade usando um ou usando o outro mas a importância dos dois é profundamente desigual a um nível de adoção muito mais intenso para pai tudo que para r&r só domina programa para o pessoal de estatística já pai tomo domínio para quem todos os outros assuntos então eu acho os órgãos deveriam priorizar os temas mais importantes para eles e em vez de fazer um conteúdo programado extremamente extenso definir com clareza Quais são os tópicos que são
mais importantes no entanto a a fazer isso explicitamente no edital em conteúdo programático ele acaba meu ver passando isso para banco ou então a banca por si só já complementa essa esse Hall gigantesco de conteúdo e prioriza na prova aqueles que são de maior relevância de maior importância prática o que mais directamente influenciaram o desempenho profissional daquele candidatos início tornar servidor mesmo então vocês olharem o edital Não fiquem assustados pela quantidade de assuntos presentes para ciência de dados a forma como que ele me cobrado é muito desigual então no curso eu vou tentar eu vou
abordar para caber todo conteúdo não é mais comum mas eu vou dizer para vocês olha isso aqui é um legado histórico Aprenda um base entenda o conceito Mas se tiver uma pergunta sobre isso vai ser surpreendente já tem o osso com conteúdos basilares a gente pode aparecer com a única palavra vou te esperar que essa palavra aí ela seja fundamental para você resolver diversas questões mas esse daqui Vocês precisam entender de forma mais profundo o e finalmente editar esperado da Receita Federal com grande número de vagas sefazdf que já falou que tem um perfil de
t.i. Então ninguém sabe algo certo como esses grandes concursos irão cobrar a ciência de dados ou sequer se dão pendência de dados eu tenho dele apostar que cima julgamento uma parte interessada sou louco por o assunto eu acho que a questão é importante ao monte de projetos e importância desenvolvido na receita com esse vários colegas da receita que trabalham sobre isso que dizem da forte demanda na receita de pessoas com esse perfil mas novamente não tenho bola de cristal não sei como isso será o não cobrados futuros concursos mas como assunto é muito interessante e
acho que a tendência crescente de ser cobrado estuda e pelo menos minimamente isso e quando saiu o prazer por Edital da receita aí vocês válida ou seja um tem que aumentar a intensidade o aprofundamento no assunto hu e o que é o Opa desculpa aqui pela quebra aqui mas enfim é bom então como eu vejo que o assunto esse data sendo cobrado hoje então tem esse essa ambiguidade né se é só mesmo uma sub área de ter para especialistas de t.i. ou se cada vez mais já está se aproximando do perfil que hoje tem estatística
que seria um conhecimento basilar para servidores não especialistas de tem uma certa ambiguidade ainda sobre como vai ser essa tendência futuro se vai ser mais de um jeito TCU o mais um jeito seu Esse é o meu curso mesmo ele foca muito em machine learning e processamento de linguagem natural que eu entendo como uma sub parte de mexer me em outros elementos Essências de dados como por exemplo a tua parte é TL pré-processamento de dados em geral da tela Leite tudo isso aqui pode ser entendido como ofensa de dados mas não vai ser o nosso
foco nosso foco mesmo é ml que a parte mais nova e mais diferente do como o assunto era apresentado no passado mas tudo que a parte mais tradicional com banco de dados Como biai já tem muito material de boa qualidade disponível no estratégia e fim já um um assunto mais mais bem assentado em concurso e o que é que eu vejo então como a tendência nos concursos mais recentes é mais complexidade nas questões então ele não fica apenas na parte conceitual e definições tem isso também vocês não tem como fugir da parte conceitual e definições
mas tem muito aplicações em cenários de uso específicos é identificação dos limites da técnica circunstâncias em que a técnica não funciona ou não funciona tão bem é mais uma compreensão crítica e aprofundada do conceito no que apenas uma mera definição várias aplicações algorítmicas concretos em que se dão unidata 7 minúsculo e será possível fazer os cálculos manualmente esse mês em aplicar o algoritmo sobre tal Data Set Ed qual vai ser a resposta é é é é um pouco artificial né que na prática ninguém faz isso mas é uma forma de você cobrar uma maior capacidade
de compreensão do algoritmo é fácil você explicar o algoritmo em nível mais abstrato mas é mais difícil você conseguir aplicá-lo ponto-a-ponto um exemplo disso foi a E agora me buscar para o exemplo é mas eu acho que Pronto foi no algoritmo DF DF aqui é um algoritmo de mlp para transformar texto em vetor de números em geral é muito fácil entender a lógica básica do TRF mas teve uma questão eu acho que foi do tecido do TCU em que tinha aplique o TRF DF nessa frase aqui nesse conjunto de frases e faça tal tal previsão
na das alternativas E aí tenho algumas sutilezas de detalhes de implementação do TF IDF que permite passar de uma alternativa para outro então para você ter certeza de ter um bom desempenho nesse nível de questão você tem que saber fazer o DF DF de verdade não apenas ter uma noção Geral de como ele se aplica mas entender se os detalhes de funcionamento e esse aqui é uma tendência relativamente recente um exemplo essa parte de nuance entre as técnicas análise crítica dos resultados e interpretação dos resultados que ao que eu não consegui encontrar questões sobre isso
em concursos anteriores e resolvemos cada vez mais então é o assunto de sensualidade como tá sendo cobrado agora é realmente mais complexo tem pouco material disponível de qualidade voltado para concurso então assim tem como você estudar só conceitos e livrar-se lá trinta quarenta por cento da prova as questões mais simples que são mais conceituais Mas aquelas mais complexas de um ver que cês vão conferir resolver simplesmente memorizando conceitos e aí vou tentar Trazer isso para você está forma melhor possível eu tô aqui eu tô querendo passar para vocês a extensão de conceitos e técnicas e
tópicos mais frequentemente cobrados nos diversos concursos que eu citei anteriormente você tem que é muita coisa é uma sopa de letrinhas É muito difícil você ter alguém hoje que eu entendo muito bem tudo que tá aí dentro então o que vamos fazer novamente vamos cobrir esse assunto todo mas vamos priorizar algumas partes se você vê por exemplo a Que tipos de aprendizado supervisionado E não-supervisionado é só um que é só uma linhazinha desse desse aqui né mas que tem importância muito grande uma vez você entendeu esse profundamente você consegue resolver várias questões mais simples e
ela é uma base para a compreensão de várias outras coisas então faz sentido você gastar bastante tempo em tenho certeza que essas distinções aprendizado supervisionado e não-supervisionado sejam muito bem coral é realmente já por exemplo detalhes de funcionamento do bebê cão Eu não acho isso fundamental se você tiver uma compreensão razoável de como de verificar funciona eu acho que o nível do como os concursos estão cobrando o assunto já seria suficiente Então vamos tentar ponderar os diversos elementos desse programa muito extenso e tal forma que vocês consigam focar a sua compreensão naquilo que é mais
fundamental bom então vocês vê que é muita coisa vamos ter dez aulas para conseguir cobrir o máximo disso mas ainda assim vai ser algo superficial seja você não vão poder dizer que são especialistas em como fazer essas coisas no mundo real Mas vocês vão ter sido meu ver o melhor retorno em relação ao investimento de tempo e de esforço e poder ter um bom desempenho com provas do nível do que aconteceu no pós 2021 usando essa extenção de conteúdo bom então a nossa missão para esse curso é maximizar o desempenho de vocês Nas questões de
ciências de dados os concursos Então por mais que eu adore o assunto eu tô focando em ajudar você já deve ter um alto desempenho concurso seja muitas muitas assuntos periféricos ou não essenciais que eu acho muito interessantes eu consegui com muita dor tirá-lo do programa e foca realmente naquilo que eu vejo que esteve relativamente bem cobrado o que é fundamental que ainda que não foi eu que tinha sido cobrado Ainda há uma força expectativas e sido cobrado Então realmente eu eu reduzir muito escopo de apresentação para aquilo que eu mais fundamental vamos cobrir todo o
assunto que está no conteúdo programático mais comum mas de uma forma mais superficial e aprofundar naquilo que é fundamental É mas o diferencial que eu quero trazer para vocês é tentar atraí-los para o lado machine learning da força você chamou Eu acho que é muito mais fácil você vem conseguirem ter motivação para aprender o assunto e ancorar o mais profundamente se vocês virem como esse assunto interessante Então acho que o um dos diferenciais como apresenta o assunto para vocês não é simplesmente memorizem tal coiso é muito é imprimir vejam porque essa coisa tão interessante até
fascinante em soluções algorítmicos para problemas de bastidor em que são absolutamente Geniais aqui nós que você quanto mais você pensa no assunto mas eles puxa que ideia brilhantes os caras que criaram aquele tiveram várias criações são muito modernas têm algoritmos assim fantásticos que foram criados nos últimos anos e que uma vez que você entendeu ele parece óbvio que você disse mas por que que ninguém tenha imaginado aqueles e o que eu quero conseguir levar o tempo que vocês vão dizer mas isso é óbvio Só podia ser desse jeito e quando você chegar em nesse nível
é que realmente você se interiorizar o conceito é provavelmente mesmo depois de centenas de horas aprendendo direito contabilidade ainda assim esse conceitos básicos de cidades vão ser mantidos na sua memória e junto com apenas decorados na Eles foram assentados na sua compreensão de como o mundo funciona bom felicidades e valorizada na estação pública falamos disso Isso isso é Além disso né Sim eu sei que aqui tufão concurso de concurseiros mas vocês também são profissionais com atuação frequentemente alguns você já trabalha na administração pública o outros com empregos na iniciativa privada e tem deixar claro ciência
de dados é algo muito valor de mercado então ainda que não pensa em sensibilidade apenas enquanto uma barreira que ser ultrapassada tá consegui em um cargo legal de um bumbum concurso o assunto ensina é útil e ele É valorizado Então o que vocês investir em essência de dados eu posso dizer para vocês não vai ser apenas um conhecimento arbitrário que você foi cobrado uma prova é algo que vai ser útil na sua no seu dia a dia de trabalho em termos de capacidade de automatizar alguma coisa O de fazer uma inferência ou extrair mais conhecimento
não trivial de uma base de dados do que seria diversas outras áreas de conhecimento é cobrado pelo concurso geral em tudo igual É sim tem coisas que estão no concurso que só apenas a meu ver uma barreira de entrada fiz de dados também é uma barreira de entrada mas é também a meu ver um motor a jato que pode acelerar sua a sua a sua carreira e permite que você Construa um resultados mais interessantes do que sem ter esse essa essa propriedade vejo um muro nas chegou em imprensa oficial como todo não fosse quase um
superpoder programação já é um super poder mas vocês vão ver que tem vários cenários em que a programação fica gente não funciona e em vários desses cenários mascheroni consegue complementar a programação permitindo ser gerem bons resultados ainda que sejam sejam capazes de programa algum explicitamente o e finalmente é um assunto intelectualmente paciência e muito poderoso eu acredito que das diversas inovações que a humanidade está desenvolvendo hoje aqui provavelmente até mais significativa para os próximos anos vai ser o desenvolvendo aí então acho que quanto mais você souber em desse assunto mas empoderado cês vão estar para
conseguir otimizar os seus desdobramentos e talvez até influenciar na forma como Inteligência Artificial é usada no dia a dia no mundo real eu conheço eu termino apresentação então do o porquê licença de dados e como isso está sendo cobrado e concurso eu espero que esteja agora motivados e querendo realmente se aprender o assunto e não apenas matar um conteúdo do edital é e agora para as perguntas eu vi que teve muitas pessoas falando de R então R é muito usado em ciência de dados assim é inquestionável se você olhar por exemplo o as pessoas com
perfil de estatística elas usam mais R do que pai então se você pegar as pessoas que se identificam por exemplo um perfil cientista de dados em currículos no Linkedin eu diria que deve tá uns oitenta por cento para pai tão -20% para é a uma profunda desigualdade em termos de base instalado os algoritmos mais avançado estatísticos eles em geral são publicados inicialmente se em código e ele mas se olhar tudo que é Deep learning tende a ser muito mais na descaradamente incomparavelmente mais em Python Inclusive só recentemente aqui as bibliotecas mais importantes como as plataformas
né pai torce tensorflow começaram a ter interfaces para R mas se você olhar é mais 90 porcento do código publicado hoje usando essas plataformas para Deep learning como tensão floripairport são códigos em Python então a uma profunda desigualdade se você quiser fazer mas sem nome avançado deplaning é difícil você fazer tudo usando é já está fazendo algo que mais o lado estatístico o r da conta plenamente e talvez até com tecnologia instante avançados essa junto é mais adequado do que pai parece hoje primeiro eu acho que os concursos não deveriam botar as duas coisas os
dois as duas linguagens 2 ambientes de programação consegue chegar a boa parte dos mesmos resultados mais simples mas os órgãos eu comecei a minha carreira docente de dados no TCU começou usando é vi os primeiros que eu fiz são todos em S - projetos em R Mas cada vez mais o meu perfil de computação me levava ficar meio frustrado com algumas características Dr que em pai Toma meu ver são muito mais é resolvida de forma sistemática R foi desenvolvido por estatísticos pai foi desenvolvido por programadores por cientista da Computação Então acho que a forma de
pensar de computação ela é muito mais bem implementado em Python Mas a forma de pensar da estatística é mais bem implementada em são em suma dá para fazer Praticamente tudo com os dois mas eles não são realmente intercambiáveis na ideia de que há uma hierarquia em temos nenhum uso o pai tu é muito mais usado do que r e a curva de crescimento é muito mais íngreme então você pega assim de mil novato ingressando em ciência de dados você vai ter uma clara maioria deles que usa pai tu não por causa disso a minha tendência
se eu tivesse né Eu não estou escrevendo os programas para esses concursos trabalhei no whisky e eu conheço até os colegas que fazem isso isso lá na que dizem Qual é o conteúdo o sintetismo a área de negócio para As bancas mas já acabam fazendo uma arrebanhado das diversas demandas das diversas áreas E aí as letras demandas não são coerentes e tem áreas no TCU e de outros órgãos que tem uma forte concentração de estatísticos e Eles continuam usando o r é perfeitamente razoável mas em termos de foco mesmo eu recomendaria se vocês forem estudar
profundamente uma linguagem faça um pais não é muito simples ela é muito 40 é muito sistemática e ela é útil para tudo e quanto que é muito voltada para estatística aplicação de estatísticas de programação pai não faz isso também faz orientação objeto faz desenvolvimento de sites web Jango que você imaginar pais não faz e tem uma quantidade de bibliotecas muito mais Ampla e diversificada do que é sem o que é também é muito rico filho eu não quero falar mal do RF é fantástica mas se eu fosse hoje aprender tudo e eu nem olharia para
essa porcaria apenas em Python e ficaria fluentes em paz é muito melhor você ser fluente em uma linguagem de programação do que você se virar mais ou menos em duas ou três que a fluência reduz a sua carga cognitiva para testar uma hipótese criar um protótipo E como você consegue ser fluente você consegue escrever muito mais código gerar muito mais resultados Então minha recomendação é realmente domínio uma linguagem para concurso não tá claro vários concursos pediram as duas mencionaram As duas linguagens e tem que as tuas e inclusive com nós duas mas Na minha percepção
de frequência tem mais coisas do lado o Palito do que do lado é mas não consigo dizer se isso aqui é uma tendência geral é E aí é bom pelas perguntas que eu tô vendo seria isso mesmo teve mais sobre Harry Python e é Cristo eu não fiz a correção da prova da Petrobras mas eu vou trazer várias questões da Petrobras nesse curso Então eu não vou fazer uma apresentação sistemática né questão a questão da Petrobras Mas como as questões pessoais são muito bem e foram muito bem elaborados vocês vão ver lá aparecendo com frequência
no nesse curso não indiretamente eu acho acabei trazendo quase todas as questões da Petrobras para dentro do curso mas não tenho certeza que às vezes tem alguns tópicos em que tem um monte grande número de questões aí eu falo para vocês terem importantíssimas eu não abordo todas as questões que eu consegui identificar é mas sim é uma boa prática vocês baixarem essas provas mais mais importantes 30 em resolvê-los antes mesmo de fazer o curso para ficar claro com esse umas partes vocês têm mais dificuldades e com isso Vocês conseguem a meu ver tem muito resultados
muito melhores na compreensão do curso sabendo Quais são os tópicos que você ainda não dominam então se eu fosse fazer uma recomendação para você já baixa essas provas de ser o seja o Petrobras faça essa prova em condições reais é sem consulta tempo limitado e a nota e na em cada questão aquilo que vocês tiveram mais duvido a questão que vocês estão lá criança acertando com alto nível de confiança Beleza vai ser apenas um tempinho perdido no meu curso mas tudo estiver em dúvida ou mais ainda é raro quando tiver apresentando aquele conteúdo foque sua
atenção nisso é o Carlos Antônio Oi tá ajudando a trilha do Bacen e a massa aqui é relacionada a outra coisa mas enfim eu acredito sim que ultrapassem também tem vários eu tenho vários colegas luvas em que estão trabalhando em um projeto bem interessante mexendo nisso já é de se esperar que cai também no concurso do Bacen Oi já saiu né o edital eu não sei se estar presentes no assunto Ok então vou continuar com o Próximo módulo 1 E aí [Música] bom então é isso aqui é uma ser um módulo em que eu vou
tentar focado em São poder vocês no assunto olhando que seria o final do curso ou seja isso aqui é um módulo que eu acho bom está presente no início do curso mas é um módulo que não é para você realmente aprender conteúdo mas você tem uma noção de como esse conteúdo está sendo cobrado hoje no seu nível maior de complexidade e isso espero que oriente você já prestar mais atenção nos detalhes nos outros módulos do curso não vou focar na única questão que foi a questão discursiva no TCU concurso 2021 cuja prova foi em 2022
então é normal que ao leu o enunciado seja de olhar não faço a menor ideia do que se trata é normal ainda não foi apresentei isso para vocês mas tem identificar Quais são os elementos mais importantes como é que sustentariam responder essa pergunta eu fiquei ainda as bases de conhecimento e aos poucos eu vou vou rechear nessa base conhecimento durante o curso com conteúdo necessário para poder responder bem essa pergunta mas é mais profundo que isso eu quero que vocês vejam vamos até inclusive olhar o espelho de correção daí de ver como ela avaliou essa
questão é um o que eu quero que vocês Tragam dessa experiência o nível que vocês vão ter que aprofundar o seu a sua compreensão dos conceitos Então vamos ele caso você chega em uma prova discursiva de um concurso de alto nível no tecido chegou a mil candidatos por vaga no nosso muitíssimo concorrido vocês consigam ainda assim dominal e tem um desempenho uma questão desse tipo Então vamos a questão é essa aqui foi então a havia quatro questões discursivas mais uma peça na redação nós aqui valia mais ou menos que uns vinte por cento não é
um pouco menos uns 15 por centro isso é um 15 pontos acho que ela quinze por cento do valor total da questão discursiva da prova discursiva eu não vou ler o a parte Inicial aqui que que eu vou focar aqui do enunciado eles falam que está sendo desenvolvido um sistema de ML para prefeito para prever se a imagem de uma determinada peça correspondem a uma peça defeituosa ou uma peça boa quando um ser humano faz essa análise ele acerta noventa porcento de identificação de ambas as peças boas e defeituosas escolha uma peça boa ele acerta
noventa porcento das vezes quando a peça defeituosa ele aceita noventa porcento das vezes o modelo foi treinado e não entra em detalhes e fala um pouquinho de como foi feita a separação treino teste eu não vou falar nisso agora mas ele fala que um sistema atingiu 95 por cento de precisão na classificação em um experimento Inicial um conjunto de imagens dividido em treino e teste todos com a distribuição similar de peças boas e defeituosas entretanto após analisar a matriz de confusão abaixo encontrar um problema que precisa ser resolvido para que o sistema possa funcionar corretamente
neste mostram essa essa essa tabela e judiciário para você isso aqui é uma matriz de confusão vocês vão ver que o conceito de Matriz de confusão e é algo muito importante essas dominaram é primeiro porque suas práticas é um instrumento de Diagnóstico do funcionamento de um modelo que é essencial vocês entenderem e sem profundamente porque ele traz um monte conceitos importantes e ele é muito importante para você entender o que que tá funcionando que é que não está funcionando no seu modelo eu entendi esse essa Matriz de confusão e tá quem nunca é vinho talvez
não se provavelmente um salta aos olhos é mais para quem já viu Matriz de confusão que salta aos olhos é que tem uma coluna toda zeros E como você interpreta o que quer dizer aqui as colunas são aquele que o seu modelo previu as linhas só aquele que era de verdade então que está dizendo nessa coluna aqui de defeito zero é que esse modelo nunca aprendi o que é vi um defeito ele sempre prevenir que as peças é um bolso Esse é o foco do problema você tem um modelo em 95 por cento de precisão
ele usar o termo de precisão ideal seria atendido usar o termo de acurácia Mas tudo bem E a pesar nesse nível altíssimo muito alto noventa e cinco porcento de acurácia esse modelo tem esse defeito aquele nunca prever defeito ele tem esse problema de nunca prever defeito ele sempre prevê que a peça é boa e aqui tem essa tabela que resume esses essa característica desse modelo é sempre respondendo a três perguntas a pergunta um responda de forma fundamentada Qual foi o problema encontrado pergunta dois porque a precisão medida não atende as expectativas para o funcionamento do
sistema é a pergunta três indique duas técnicas que podem ser usadas para resolver o problema mas sim tudo vale a 15 pontos a senhora quinze por cento no total da sua prova você tinha que responder essas três perguntas em 20 lenço bom então eu posso dizer para vocês que muitas pessoas apanharam essa questão e para quem tem experiência em sensualidade experiência degustá-la um ano desenvolvendo projetos essa daqui é uma questão muito simples porque ela é muito frequente ela é muito comum ela é tão comum que praticamente até os novatos licença de dados se deparam com
esse problema mas se você nunca viu um projeto nunca realizou o projeto de mascheroni apenas estudou abstratamente em cursinho lendo livros é bastante fácil você não Identificar qual é a causa raiz desse problema então não sei ver claramente que não está identificando defeitos ó tá dizendo que tudo está bom mas você não entende o porquê do modelo está fazendo isso E aí não entendendo a causa subjacente a esse problema você pode errar no diagnóstico então eu acabei elaborando vários recursos de candidatos para esse esse concurso e muitos deles estão errando aí na sala diagnóstica é
um a entender os conceitos e explicavam perfeitamente o problema tal como este é um visto era o problema errado então toda a explicação correta sobre os detalhes do funcionamento do problema estava totalmente aproveitável pois não era o problema adequado que estão focando queijo em geral ficavam muito o Over Feet a maioria o underfitting uma minoria só música que focaram naquele que o fundamental dessa questão que é de classes desbalanceadas bom então aqui que é que tu ia ser feito então ler anunciado uma reflexão e análise da situação e das perguntas O que exatamente a sendo
perguntado e a relação entre a sua compreensão do problema e as perguntas do que se trata qual é a causa raiz o que tá por baixo mas isso aqui tudo já imaginaram essas diversas respostas a diversas perguntas Qual foi o objetivo de avaliação da FGV essa bunda tens em mente que ainda que você tem uma resposta razoável para aquela pergunta sempre guardar em média o porquê que a FGV tá perguntando isso que é o objetivo da FGV identificação reconhecimento então se você tem uma resposta direto que mata uma pergunta dessa em duas linhas pode não
ser suficiente pode ser beleza Qual era a intenção da LG vez que não entender por exemplo que eu senti algo que são classes desbalanceadas quais são os principais conceitos relacionados às classes desbalanceadas é legal você falar sobre isso também vocês vão ver que no no espelho de correr e eles basicamente pum pum pela presença de expressões esperados e no máximo eles têm uma certa flexibilidade de aceitar uma expressão sinônima da expressão que eles estão esperando então a pontuação pela coerência é de apenas um ponto dos 15 todo o resto dos outros 14 pontos é pela
presença de conteúdo então a recomendação minha no caso desses despejem o conhecimento que você tem sobre o tema não tem responda uma pergunta mas não se contenta em apenas responder à pergunta né mas Tragam os elementos mais importantes que vocês conhecem são sobre aquele tema mas não principal dificuldade é Identificar qual tema que realmente está sendo cobrado naquela questão daqui não é overfeat É sim classes balanceadas E aí vamos dar uma olhada aqui no espelho de correção bom então os erros mais comuns foram overtime e é muitas pessoas infelizmente tem algumas similaridades formais mas o
que me ouvir revela é que as pessoas não entenderam profundamente o que quer dizer o refri E aí ela se focaram nessa similaridade superficiais e é raro no diagnóstico achando que era um problema de ouvir fica Aline tivesse meu próprio curso mencionei classes desbalanceadas mas não com tanta a extras EA razão pela por causa da Razão disso é que você quer vir a missão de classes balanceadas no edital o que eu entendo que o edital conteúdo programático para o TCU falava de pré-processamento dos dados EA classes balanceadas seria uma técnica específica de um problema específico
que pode ser resolvido por pré-processamento então não se atenta tanto assim ao conteúdo programático veja o conteúdo programático o sendo uma lista de item um deles são genéricos e aí você pode ter vários com vários conceitos importantes que estão subentendidos em baixo daquele tem Genérico e alguns outros são tão específicos então a meu ver não tão importantes que vocês não precisam necessariamente ter um conhecimento aprofundado daquele tem aí nosso curso e vai tentar fazer essa ponderação de trazer algumas coisas que não estão sempre explicitados no conteúdo e às vezes se tá mais superficialmente conteúdo que
está no conteúdo programático mas que acaba não tendo tanta tanta importância e vamos lá olhar o espelho de correção esse aqui é o espelho de correção Ah é Então na pergunta um do que esperava aqui na análise da Matriz da confusão eles ficam do problema um é dois em itens fossem considerados na naquela resposta um seria se tal de balanceamento de classes ou então uma outra forma de ver isso seria uma morte enviesado a razão básica do porque isso tudo aconteceu é que esse modelo ele é sensível ao fato das classes estarem desbalanceadas O que
quer dizer você tem um monte de exemplo 760 exemplos que eram do tipo peça boa e apenas 40 exemplos dos Total 800 que eram do tipo peça defeituosa e o que acontece que alguns modelos e eles não se focam tantos na característica das diferenças entre as duas classes bom e defeituoso e com as classes são profundamente desiguais uma delas é hiper frequência e a outra muito rara o modelo meio que faz uma simplificação e ele pega carona nesse desbalanceamento e ele vai sistematicamente se tá a classe majoritária esse 760 tem um modelo que nada ele
é muito ruim ele é totalmente incapaz de identificar peças defeituosas Ele simplesmente pega um atalho corretivo de sempre citar a classe majoritária e com isso ele consegue 95% dia certo porque e noventa e cinco porcento dos exemplos são de peças boas apenas cinco porcento de peças defeituosas é por causa disso só de você chutar a classe majoritária dizer que a peça é boa Você já acerta noventa e cinco porcento das vezes o motor ser humano ele acertar apenas 90 porcento das vezes na média mas ele acertava noventa porcento das vezes que a peça estava defeituoso
que você tem um modelo aqui que tem uma métrica de desempenho melhor do que humano mais humano é muito mais útil fiquei consegue identificar as peças defeituosas já esse modelo a verdade uma médica mas melhor ele não consegue identificar os defeitos na placa e não serve para nada esse modelo apesar de uma alta métrica ele é um lixo e não serve para absolutamente nada então esse modelo nunca deveria ser usado na prática e por que que ele é assim é pelo fato dos dados que foram usados para treinar o modelo já eram desbalanceadas já havia
muitos exemplos de peças boas e poucos exemplos de peças defeituosas e esse modelo específico ele era sensível a esse desbalanceamento e foi influenciado pelo desbalanceamento fazendo então um modelo enviesado e sempre dizia que a peça é boa essa aqui é a razão e no um problema encontrado e outro elemento que esperado no apoio a resposta citar a ausência de verdadeiros e falsos negativos o modelo prevê tudo como sendo o Beleza segunda pergunta porque a precisão medida não atende as expectativas para o funcionamento do sistema 95 por cento de precisão mas é um modelo que é
totalmente ruim e não serve para nada você tem que explicar as limitações da métrica nessa situação três elementos citar aqui a precisão não considera o número de verdadeiros negativos não fala disso nessa hora nos próximos módulos tornando então a métrica ilusório quando usado em datas e desbalanceados se o seu Data Set força e balanceado a precisão no caso mais com acurácia ser uma médica adequado para dizer qualidade de um modelo com seu da Taciele balanceados usar essa métrica de acurácia e precisão quem é ela em Búzios Essa ilusão Você tem uma nota muito alta para
algo que é muito ruim então ela é uma médica inadequada para essa situação mas você tem que se dar conta nisso devido ao de balanceamento dos dados você não visse que isso aqui é a origem do problema Ficava muito difícil responder qualquer um desses perguntas E você tá aqui a precisão pode ser manipulado ou marcar todos os outros as observações competência para cima solitária que eu falei para vocês né Não sei se sinta tudo como sendo majoritário Previ tudo que você não a Solitário você vai ter um nível de precisão e acurácia muito alto É
esse tá que o sistema deveria se ter como prioridade encontrar as peças defeituosas e não as boas só quem ficava Claro pelo enunciado que o interesse mesmo da empresa era consegui identificar as peças defeituosas e descartá-los vou fazer um trabalho específico nesse caso algum modelo que simples sempre chuta a classe majoritária ele é totalmente inútil na prática pergunta três enumeração das técnicas aplicáveis e pediu duas técnicas outra dica ouvir se este perninha enunciar duas técnicas não digo apenas dois técnicos nenhum todas as teclas que você conhece a FGV pelo menos nesse espelho de correção ele
não penaliza vá você citar mais técnicas inclusive se vocês é errado e também não penaliza isso ele apenas não contour se você não trouxe as técnicas que eles esperavam então ele tem diversas técnicas para lidar com um desbalanceamento aí vi escolheu priorizar três que eram quatro quero mais específicas um problema de balanceamento e botar uma pontuação menor para duas outras que são mais genéricas Então a primeira técnica relativa me sinto muito se você perguntar no plano de balanceamento é eu posso aumentar o número de exemplos com defeitos seria superamostragem da classe minoritária ou então Posso
reduzir o número de exemplos de peças boas que é sub-amostragem da classe majoritária eu também posso atribuir pesos diferentes as classes olho do jeito como tá agora um erro é um erro mas eu poderia dizer que não um erro quando eu Prevejo que a classe é boa e na verdade era defeito é mais grave o que um erro quando eu digo que é um defeito e na verdade era boa então eu consigo ao ponto A A Gravidade dos meus erros levar o modelo a errar menos na química é mais grave essa aqui é a noção
de atribuição de pesos as diferentes classes você fazer com que te dá um e frase maior a classe com defeito você quer ser capaz de identificar a melhor Apesar dela ter um menor número de ocorrências e finalmente de mudar a função de perda no treinamento dependendo como você treino seu modelo você pode influenciar o modelo a consumir identificar melhor uma classe uma relação ao outro se você não faz isso e vai tentar acertar o melhor possível na média você pode também influenciar o treinamento para que ele acerte melhor mais uma determinada classe em detrimento de
acertar menos a outra classe isso também eram as quatro alternativas básicas que você podia ter utilizado para a justificar e ter a pontuação máxima nesse entende técnicos para resolver nos balanceamento e tem duas outras alternativas que são mais genéricas que dava para uma pontuação menor no item que seria um mudar o algoritmo de Treinamento treinar um modelo de uma forma diferente e mudar o próprio modelo esse modelo aqui e João dizem explicitamente Qual era mas era um modelo que era sensível dos balanceamento todos os modelos Têm algum nível de sensibilidade nos balanceamento Mas algumas são
muito sensíveis ou são pouco sensíveis por exemplo árvores de decisão são muito menos sensível de balanceamento então se você não fizesse nenhum outro correção mas jogasse uma árvore decisão sobre esses mesmos dados provavelmente eu tenho uma precisão Menor Mas você teria o maior certo na capacidade de identificar as peças com defeito E com isso vai garantir os 14 pontos basicos e um décimo quinto pontos sobre influência e coerência da exposição bom então o quê Por quê que eu passei isso para vocês eu não quero não espere que você já saibam disso Isso aqui é mix
o nível que eu espero que você já o tenham ao final desse curso ser capaz de entender da leitura de um enunciado fazer um diagnóstico da causa raiz da Razão do porque aquela questão está sendo trazida pela banca Quais são os conceitos relacionados mais importantes que é a parte do diagnóstico e aqui é fundamental fazer o diagnóstico certo que a origem do problema é um desbalanceamento de classes uma vez que você identificou o tema você consiga trazer todos os elementos importantes de balanceamento de classes O porquê disso acontecer Quais são suas características o quê que
isso leva o modelo por quê que isso leva o modelo a errado aquele jeito você entender aí é conhecimento do Brasil métricas Mas sabe que determinadas metros e são totalmente inadequadas para serem utilizadas em situações de classes balanceadas com uma precisão o a classe A Oi e aí me explicar porque que essas metas são inadequados tudo isso exige que você entenda tanto as características das métricas quanto às características do problema de desbalanceamento Ea interseção entre as duas coisas uma vez entendeu muito bem com as métricas funciona isso entendo muito bem o que é o problema
de balanceamento por simples reflexão Você já consegue Eita tá o métrica em classes desbalanceadas não vai funcionar mesmo eu vou falar de especialmente para você durante o curso você deu uma ótima é mesmo Olha só consegui guardá-los mas se você entender bem o que que são conceitos fundamentais por simples reflexão você vai ser capaz de dar conta Eita tal coisa então situação não vai funcionar bem porque você entendeu a mecânica de como os diversos conceitos funcionam e logo as suas interdependências e inter-relações e finalmente nas diversas técnicas associadas à como combater o e o acesso
desbalanceado OK agora vou mostrar para vocês muito rapidamente aqui alguns exemplos de resultados dos candidatos decide Esse concurso não eram quatro questões né dissertativos que foi para vocês aqui essas quatro e essa daqui aqui nos interessa que não souber é expressa daqui a questões conhecimentos específicos questão discursiva 2 liga Nossa muito baixas o momento eu vou trazer umas estatísticos para vocês então coisa uma experiência de dados a média daqueles 15 pontos máximos podia ser ouvido foi de 5,3 já havia muito espaço para ganhar ponta aqui e muitas pessoas perderam muitos pontos nesse tiveram notas muito
altas em contabilidades e última servidor de licitações teve embaixo inconstitucional porque a meu ver o enunciado de uma certa ambiguidade em muitas pessoas foram um caminho errado é mais um senso de dados que realmente muito e muito espaço para ganho de pontos sem necessariamente um conhecimento muito aprofundado qualquer pessoa realmente que tem experiência ciência de dados alguma experiência de um ano de desenho uma de projetos já viria que o problema dele era a casta desbalanceadas e tchau que eu vou querer Trazer isso para vocês médicos finalmente o teve muito de recursos né eu ajudei a
eles a 15 recursos dos 300 candidatos foi muito difícil arrancar. Né porque o espelho meu ver foi bem que construído pela FGV e bastante objetivo a gente foi bastante Generosa na atribuição dos pontos parciais só de vez em quando que eu vi uma se chama uma pulga do padrão tem algumas poucas vezes que eu vi que é você vendeu mais ponto do meu vendo que merecia a resposta e algumas outras poucas vezes também ela que deu menos do que não quero esperado da do padrão de como eu tava dando pontos para os outros candidatos muitos
erros né que as pessoas acham que era overfeat no caso de balanceamento e um defeito comum que eu não sei se era se era falta de prata em questões discursivas Ou se era pouco conhecimento um assunto mas muitas das questões que o analisei dessa resposta eu analisei sem muito bla-bla-blá seja o pessoal falava isso o cliente de pouco conteúdos Lembrando que a banca nesse caso ela vale apenas a presença de conteúdo é tudo que você escreve blablablá que ele vai ser zero de pontuação você precisa realmente trazer conteúdos ainda que seja conteúdo errado é isso
você trazer controle de errado não se penalizava mas você não trouxer eu conteúdo certo você não ganha pontos então você faz blá blá blá não tem conteúdo certo não necessariamente é zero. Naquele bom então a minha conclusão né não basta conhecer geral dos conselhos da é preciso ter uma compreensão mais aprofundada para conseguir aplicada enquadramento em casos concretos lidar com as ambiguidades e sutilezas técnicas que vão além do aprendizado superficial de sempre memorização idealmente se devia ter experiência na execução de projetos de ML O que é muito difícil para um concurseiro que tem que lidar
com as 15 e 20 disciplinas diferentes pragmaticamente compreender mais profundamente os conceitos e exercitar em diversas formas como isso pode ser cobrado e os a sua capacidade de aplicação eles estão com isso acho que fechou o que eu queria que você estivesse no início do curso de como o tipo como vocês vão ser cobrados num nível mais complexo que o meu discursiva terceiro Esse creme conteúdo seja não se contentem de memorizar definições e propriedades mais ou menos tem tem realmente entender profundamente o que que ele significa e a relação de cada conceito com todos os
conceitos serviram anteriormente não seja entender que são métricas e quando eu falar de carta de balanceados Veja a relação entre classes balanceadas e métricas quando o dia falando de overfitting e métricas vejo como o conceito de objeto embaixo essas métricas como diversas métricas no vão influenciar forma com CD tecto ou não ver vídeo de quase todos os principais e Martin Garrix se afetam uns aos outros e é pois é necessário você já entendo essas interdependências E com isso dá um encerro esse item E aí [Música] o Opa agora volto para tirar dúvidas que eu vi
aqui no fórum no no check-in é é é E aí e não Jéssica esse curso daqui eu entendo como sendo um curso geral de essência de dados que podem vir a ser útil para o pessoal de ti como também por pessoal não de ter uma quantidade considerável das perguntas que eu tô trazendo mais cedo a prova do TCU que era o perfil geral é mas assim o nível de complexidade que eu vou tá trazendo é um nível de complexidade ganhamos ótimo para o pessoal de UTI para quem não é de t.i. aí é uma porta
você vai fazer Será que o seu concurso não vai cobrar nada de ciência de dados E aí esse curso aqui é meio inútil ou ele vai cobrar a ciência de dados E aí em que nível de complexidade no que era padrão antes e2021 e aí vamos estar indo um pouco além daquele ou se é no padrão 2021 E aí esse curso vai ser adequado então é difícil né para ver como é que vai ser os próximos concursos se os que já estão em aberto o edital publicado seria cê faz de Minas Gerais ela foi pelo
caminho das Egeo em que ela vai cobrar esse assunto em nível elevado mas apenas para o pessoal de UTI mas eu tenho do achaque esse esse conteúdo também vai ser cobrado para cargos Gerais como é hoje estatística Esse é o nível do que eu vou apresentar para vocês seria o suficiente para responder bem Aquele com um pouco de conhecimento técnico a mais do que isso para essa prova do TCU ela pedir até compreensão de linguagem de programação Python e r i e n d s plataformas as bibliotecas de software para isso como saque Thriller tensorflow
e parte eu acho que não faz muito sentido você querer que o carro geral da área seja capaz de programar e usando funções tensorflow acho aqui já é muito complexo seria mais que o pessoal de tem mesmo interesse escolheu cobrado desse jeito mas pode ser que seja realmente específico do terceiro mas os conceitos básicos e mexendo único vou apresentar para vocês eu acho perfeitamente viáveis que serão cobrados a mesma forma como são cobrados hoje conceitos básicos de estatística eles não pedem geral para o cargo geral da área que consiga fazer uma na o disco refinado
autônoma naquele Entenda os conceitos principais que eles vejam quando eles são aplicáveis que eles consigam analisar criticamente o análise estatística e coisas desse tipo aqui tem um paralelo entre Como é cobrado estatístico do cargo geral e como pode ser cobrado sensibilidades para o carro geral um ok aqui acho que isso é que mata as questões que foram trazidas no a notícia lembrem-se por favor Tragam suas perguntas eu vou em de salas nos intervalos vamos voltando agora para o conteúdo E aí [Música] nós começamos então o nosso módulo aprendizado e maquinista que seria o módulo introdutório
para vocês entenderem contexto e como é possível ensinar uma máquina a aprender esse aqui é aqui todos vocês já ouviram falar alguma coisa de ar Inteligência Artificial Mas é provável que vocês tenham categorizado entrevista artificial como sendo algo extremamente complexo meio que mágico de um domínio reservado a especialista e que vocês não se considerem o especialista de ir logo para vocês queriam a caixinha mágica que se aperta o botão e gera um resultado que você não tem a menor ideia de como é feito vou mostrar para vocês é que os fundamentos e mexendo lembro não
são tão complexos assim e é possível mesmo sem você ser um especialista nem Inteligência Artificial nem mesmo de t.i. que vocês entendam o princípio a lógica básica de funcionamento de um algoritmo que a ver por meio da experiência eu vou tentar trazer esse esse conceitos básicos vocês vão ver que mesmo que sejam que sejam exatas mesmo vocês não tenham nenhuma base matemática a lei do nível médio É possível entender a parte mais básica de como algoritmos de aprendizado de máquina funciona esse é o meu desafio que vou trazer para vocês então com suspensão inteligência não
tô nem passando entre artificial inteligência humana mesmo Quais são as características que você já se associaram a inteligência não sei se forem pegar em conceitos Associados às vezes daria para você citar várias esses itens que eu trouxe aqui o que acontece aqui como nós entendemos inteligente como sendo um atributo associado a pessoas e a gente tem da considerar a inteligência como sendo uma cesta de diversas características que nas pessoas ocorrem todas juntas então em geral quando você conversa com uma pessoa você sabe aquela pessoa tem um certo nível de capacidade lógica e compreensão e consciência
decidi aprendizado conhecimento emocional raciocínio planejamento criatividade e resolução de problema os níveis relativos um variar de pessoa para pessoa mas todas elas vão ter tudo isso em algum nível não querendo descobrir com muita gente artificial é que tá quente cada característica dessa seria uma dimensão que é em grande parte independente das demais nem totalmente algumas intersecções em que para você conseguir ter um alto desempenho em uma característica você precisa ter um certo desempenho em outros por exemplo planejamento e raciocínio fortemente relacionados à difícil fazer um bom planejamento sem algum tipo de raciocínio subjacente Mas você
pode raciocínio sozinho sem planejamento e você pode ter um raciocínio com lógica sem dúvida você pode ter um raciocínio sem lógica a dependência pode tá reconhecendo padrões Então o que é essencial mil é que vários essas características podem ser entendida e matematizada de uma forma independente das demais e aí o nosso foco vai ser entender como é que funciona esse item daqui o item de aprendizado porque esse foco nesse item nos Demais todos esses itens aqui fazem parte da Inteligência Artificial e estudado tem até grandes especialistas que se focam em apenas um desses itens o
que acontece que historicamente o item de aprendizado nos últimos dez anos é o que tem gerado mais sistematicamente melhores resultados então tudo que você vê hoje de Inteligência Artificial mais Fantástico quase tudo vem dessa subir área da entrevista especial relacionada aprendizado bom então se você vê por exemplo um grande livro de referência dentro de artificial como esse daqui do Pita norte e do Senhor raça são essenciais é o livro mais é a Bíblia da intervenção especial seus quase todo mundo que estuda e prejudicial no certo nível em algum momento deve ter ido para despertar alguns
exercícios lido alguns Capítulos desse livro e a tá Chama um conjunto de conceitos frase dormir é muito amplo ele fala toda em três artificial clássica e vários elementos antissocial mais moderno então aqui seriam os itens principais do livro O nosso foco vai ser tudo nesse daqui ler aprendizado e um pedacinho de processamento de linguagem natural associado ao aprendizado de todo o resto busca SSP lógico planejamento representação de conhecimento tudo isso não vai ser abordado não é que não seja importante é que simplesmente os resultados você consegue obter com esse daqui são resultado inclusive muito bom
isso é é mas os desafios hoje com essas técnicas é muito parecido com os resultados eu consegui usando as mesmas técnicas dez anos atrás houve uma melhoria incremental já na área de aprendizado ou uma revolução o que conseguiu um saber o que ter como resultado hoje é incomparavelmente melhor do que você conseguiria obter com a abordagem de aprendizado 20 anos atrás então houve um salto qualitativo gigantesco e acabou levando o área de aprendizado a dominar noventa porcento mais das publicações de Inteligência Artificial então a sociedade a economia às empresas e institutos de pesquisa estão todos
focados hoje em aprendizado simplesmente por isso que tá dando muito certo tá gerando resultados muito além dos esperados e a razão é puramente pragmática se estivesse uma outra dessas sub áreas com ganho de desempenho tão grande ainda estaria aprendizado do lado está esse focando nessa outra mas por enquanto a área que tá dominando entende-se produção de resultados é aprendizado e a perceber que entende oficial já era relevante de 250 ela foi formalizada e era uma área de pesquisa do pessoal de ti de matemática desde os anos 50 não é algo novo e teve várias oscilações
de entusiasmo e decepção à medida que você achava que era fácil ter um resultado e depois você descobrir que não era tão fácil assim e enfim vida Jesus oficial que não tem aquelas várias áreas que Eu mencionei uma delas é o aprendizado de máquina que começou a ter uma importância maior nos anos 80 mas ainda assim era apenas uma área subalterno em relação às vezes artificial E aí desde os anos 2010 até especificamente na virada 2011 2012 tem uma sub área de aprendizado de máquina chamada diproling o aprendizado profundo que são basicamente redes neurais com
múltiplas camadas que permitiu gera resultados assim espetaculares Muito Além do que se esperava que fosse possível tem pouco tempo e aí então essa área que The Deep Lane acabou dominando totalmente as aplicações de itens artificial e isso as aplicações do mundo real hoje você usa uma inteligência artificial no mundo real há uma boa chance desta utilizando pelo menos alguns elementos de dipirona me geral nunca sobe por ninguém é de porém como o motor a coisa mais associada a outras técnicas e às vezes até que um Gerais normais de programação clássicas no cu entender como é
possível uma máquina aprender e o que que nos entendemos como sendo aprendizado para uma máquina eu acho que é melhor forma de você ter uma intuição no como isso funciona é compará-lo com a programação tradicional eu consegui programa no computador o que que você tá fazendo Você tá entendendo o problema é que você quer que eu computador resolva se da de com todo aquele problema uma sequência de Passos você escreve o programa que na verdade são regras e como transformar os seus dados de entrado uma sequência de resultados intermediários até chegar o resultado final é
um supor que você tenha programação clássica Você tem uma lista de pessoas na ordem que a se registraram e você quer gerar a lista essas mesmas pessoas em anel bom então um problema bem clássico interface de ordenação de resultados você tem esse lá cinco pessoas que em ordem usar quaisquer e você quer que elas apareçam na ordem alfabética dos seus nomes como é que você faria isso você tem que ver com um problema entendeu Beleza vou olhar a primeira letra e eu sei que a ordem alfabética a a b c d vou dar uma olhada
diversas das diversas pessoas que aparecem e vou Comparar as pessoas umas com as outras E ordená-los então e são é um conceito muito simples de ordenação que tem diversos algoritmos e como fazemos alguns são muito ineficientes como o babão sorte para quem ele tem sabe o que é isso e eu uso muito mais eficiência o meu sorte o clip solta um curto Dá até para fazer algo tão simples quanto ordenar valores tem diversas formas diferentes de fazer com diversas propriedades mas não quando você olha para programação clássica é a parte mais complexa e mais desafiadora
é criar o código de programação que resolve aquele problema exige entender o resultado esperado entender o que nos dados de origem é necessário extrair para gerar o resultado esperado em uma operação mental do programador entendendo do negócio ele vai criar as regras e como transformar os dados nos resultados E aí Espero que seja intuitivo como funciona a programação clássica agora vou comparado com um funciona uma chaminé uma xingando ele pega esses três elementos básicos dados regras de resultados só que ele vai inverter a ordem em que eles são utilizados que que tá xingando que faz
na entrada no processo e mexendo aí ele vai receber os dados do mesmo jeito mas ele vai receber além dos dados exemplos de resultados passados então se você tem por exemplo uma lista com três nomes não ordenados você vai trazer como resultado a lista dos três nomes ordenados e o que que você quer que o algoritmo enchendo nem traga você quer que ele construa para você as regras de transformação nos dados brutos iniciais para os resultados esperados Ah então você quer que ele escreva o código de como fazer a ordenação ou pegando outro exemplo Cães
e Gatos Eu tenho um monte de imagens de cães ligados eu quero trazer os dados as imagens Cães e Gatos dizer para cada uma das imagens ser um cão o fio é um gato e ele me traga como resultado as regras de Como distinguir imagens de cães de imagens de gatos esses percebe nesse exemplo cão e gato que às vezes podem muito difícil fazer essa regra se eu tive excesso para você enquanto programa do profissional e Escreva as regras para distinguir dentro de pixels de uma imagem Quais são as regularidades estatísticas associadas imagens de cães
são diferentes daquelas imagens de gatos eu espero que nenhum de vocês seria capaz de fazer essas regras são muito complexas para conseguir fazer com que essas regras funcione bem em casos bem vi as raças diferença e cachorros diferentes tipos de fotos diferentes iluminações diferentes ângulos da fotos de três posições do gato tudo isso influencia em como os pixels não tá aparecendo na imagem e ainda sim atrás de todas as variabilidades você quando você viu imagem de um cão você não tem dúvida que ele seja um cão parece muito fácil porque o seu córtex visual já
faz toda essa operação para você De forma inconsciente Então quando você ver uma imagem de um cão imagem de um gato para você trivial dizer é isso aqui no câmpus aqui é um gato ela tenta explicar em detalhes O que que você identificou como característica do cão para saber que é um cão e o que que se encontrou aqui atrás do gato para saber que é um gato ele sabe que é bem mais difícil você explicitar as diferenças e pior ainda ele seremos em criar regras abstratas e Gerais que tá qualquer imagem do cão e
gato consiga fazer a separação entre cão e gato de uma O que é totalmente burra né Lembrando que a o seu computador e não tem nenhuma inteligência ele vai aplicar essas regras mecanicamente sobre esses dados para gerar esses resultados nas suas regras têm que ser meio que perfeitas e mecânicas para conseguir lendo os pixels dizer se é um cão Você é um gato é tão difícil ser feito aqui para cama com ninguém conseguia criar boas regras os melhores sistemas de visão computacional que conseguiu identificar objetos dentro de imagens eles tinham nomes Mas agora você tem
um nível de desempenho muito fraco antes de eu dormir por ordem quando Deep orientou na jogado teve um desempenho alce muitíssimo bom e continua melhorando Então os algoritmos e mexilhões e são capazes de criar automaticamente essas regras a partir de um conjunto de dados e exemplos de resultados esperados o Tom que o que o algoritmo faz para você é a criação das regras a partir de exemplos passados vocês verem que mudou completamente a a lógica de como fazer a programação a programação do passado era eu entendo o problema e eu enquanto programa do Escreva as
regras que se aplicam sobre os dados e já nos resultados e agora é eu forneço para o meu algoritmo vários exemplos de dados e resultados esperados e o meu algoritmo extrai automaticamente regras que são basicamente padrões estatísticos que refletem a tendência da relação estatística entre os dados de entrada e o resultado esperado essas regras das vezes elas eram as vezes acertam Mas você consegue avaliar a qualidade de desempenho dessas regras E essas regras você aplica as regras apreendidos pelo mecanismo de machine learning sobre novos dados são as regras aprendidas sobre os novos dados vai gerar
novos resultados e na média estatisticamente os novos resultados tendem a ser muito parecidos com os resultados esperados se tivesse sido feito por um ser humano o Tom o porquê que a gente usa mais schinor é basicamente para pular esse gargalo da complexidade de gerar essas regras e aí tem duas razões principais e porque queremos pular esse gargalo um é o conhecimento Tácito que conhecimento tá aqui que você sabe fazer mas você não consegue explicar como é que você faz é o exemplo por exemplo do da identificação Cães e Gatos todo mundo adultos aqui que está
assistindo esse negócio não teria muita dificuldade em ver uma imagem um cão e dizer se ela tem um outro é um gato mas acho pouquíssimo se você traz nenhum de vocês conseguiria escrever um programa explicitamente tem que ser conseguiria dar uma imagem qualquer dizer se é um cão a ser um gato então ml resolve parcialmente o problema do conhecimento Tácito desde que você tenha vários exemplos de dados de Treinamento com os exemplos esperados e tenha uma relação estatística razoável entre os resultados esperados e os dados e é possível então aprender regras que serão aplicadas e
gerará automaticamente novos resultados e além dessa ideia conhecimento Tácito tem às vezes também as regras podem ser tão complexos então tão bacana complexo é resilientes 70 criar um número limitado de regras facilmente compreensível esse por seres humanos essas regras têm né ser frágeis em que elas vão ter um monte de exemplos que eles não funcionam bem e você começa a botar sub-regras o exceções para todos exemplos que vão funcionam bem acaba gerando conjunto de Raios muito complexo o que o ML consegue olhar para você e ele consegue gerar automaticamente o grau de complexidade suficiente para
gerar bons resultados bom então o ML servem tanto para regras complexos quanto para conhecimento Tácito que não permitiria gerar regras então eu vejo ml como sendo uma camada acima da programação clássica tudo aquilo que você consegue entender razoavelmente o mapeamento entre dados e resultados você mata com programação clássica isso aqui é confiável é simples em quase mecânico mas exige conhecimento técnico do negócio e de programação para gerar regras e se você não tiver isso eu fiz a evitar isso você pode usar ml para aprender automaticamente essas regras no mapeamento entre os dados e os resultados
esperados agora como isso é feito bem essa imposição da mais complexa Mas vamos voltar agora algumas definições pistas para que vocês tenham mais segurança em relação a identificar como isso se aplica bom então definições embaixo definições para Inteligência Artificial e para Machine Eu Escolhi algumas definições que eu acho que são não fogem das dificuldades da do conceito e que ao mesmo tempo tão definições operacionais que ajudam a identificar se aquele conceito se aplica ou não é uma possível definição para ir ar seria um sistemas computacionais que podem aprender e raciocinar com autonomia ele não precisa
necessariamente que tem um ser humano cutucando e levando a um resultado específico seria a programação tradicional tem um programador que diz para máquina o que que ela precisa fazer para chegar o resultado aqui como eles artificial a máquina é capaz de aprender por conta própria por meio dos exemplos que você usou para treiná-lo o padrão estatístico da relação entre os dados de treino e o resultado esperado e gerar novos resultados seguindo esse padrão estatística Oi e aí então tem várias subir Ares aqui nós vamos nos focar é de Mach Lane um aprendizado automática e dentro
dessa subir ar tem a outra área ainda mais específica que é de dia perdem o redes neurais profundos e uma definição para machine learning uma diferença gosto muito legal que ela ela destaca os elementos mais importantes seria toda a situação em que tem o desempenho em uma tarefa aumenta com experiência extraída de novos dados eu gravar feio não está Key essas quatro palavras fundamentais então para você conseguir aplicar no chinelo em você tem sempre tem que definir com clareza Qual é a tarefa ou seja o que está tentando prever em função quais dados esse mapeamento
que te interessa eu tenho alguns dados e eu tenho uma tarefa e primitivo e essa isso aqui definir a minha tarefa e vamos ver se tem uma tarefa você precisa medir o seu desempenho essa tarefa sendo bem executado tá sendo quando o melhor o algoritmo essa tarefa sendo melhor executada para poder ter essa ideia de melhor de qualidade da execução da tarefa eu preciso ter uma métrica de desempenho uma vez que definiu uma tarefa e você criou uma métrica de desempenho sobre essa tarefa O que que você deseja maximizar sua meta o desempenho que que
o ML simplesmente fazer tendo definido tarefa e desempenho automaticamente melhorar o desempenho naquela tarefa como por meio de uma extração automática de padrões estatísticos que seria essa experiência que é extraída de dados usados para treinamento em vez de você dizer que o algoritmo tal característica os meus dados e importantes você dá vários exemplos dos seus dados e do resultado que você espera a ação da tarefa e o algoritmo sozinho descobre essas regularidades estatísticas E aí ele vai dizer roupa você tinha me dado pela um passado dado com 5 colunas e eu descobri simplesmente pela observação
estatística que a terceira coluna é a mais importantes para fazer aquela previsão isso eu combinar a terceira com a quinta o meu desempenho melhora mais ainda isso é feito automaticamente para você se você não precisa trazer conhecimento de negócio para essa modelagem você trouxer os dados adequados o conhecimento do negócio humano consegue ser extraído automaticamente a partir das regularidades estatísticas presentes nos seus dados se você aqui Então fecha o elemento básico conceitual do que seria aprendizado de máquina Então seja entender em abstrato O que é nós vamos ver como tornar isso viável na prática Bom
dia pessoal pergunto perguntas é é é e tem muitas perguntas aqui que eu a Érica eu tava já respondendo na plataforma E aí o ok então vocês vem aqui um Peppa vocês viram que o e os conceitos básicos do que a machina é só rapidamente simples o que é misteriosa como é possível fazer com que o computador faça esse mapeamento e isso vai ser um grosso do todo o curso até nessa décima aula vai ser como melhorar a capacidade da máquina de fazer esse mapeamento entre os dados usados para treino e as previsões que você
quer que a máquina Gere então apertem os cintos que vamos começar na parte mais técnica agora E aí [Música] bom então a primeira noção mais técnica de Imagine que é muito útil vocês entenderem bem é fazer a divisão do aprendizado de máquina entre duas subcategorias da categoria de aprendizado supervisionado e categoria de aprendizado não-supervisionado quanto mais clareza se estiverem nas diferenças entre esses dois e as suas características mais facilidade juntei para aprender para quem todo o resto no curso e só esse conhecimento básico muito simples no dia que é supervisionada que não supervisionado já permite
já resolver algumas questões mais simples concurso então 30 em realmente entender muito bem isso aqui é um algo que é muito simples e ao mesmo tempo tem algumas sutilezas e é importante entender muito bem bom então o importante é uma tarefa de aprendizado é você entender aquilo que vai guiar o processo de aprendizado você vai ter um algoritmo e vai tentar criar aquelas regras automaticamente agora como ele vai criar essas regras tem basicamente duas grandes opções ou você vai ter um objetivo claro que você vai dar para o algoritmo que ele vai a cada vez
que dar um exemplo ele já sabe qual é o seu resultado esperado então ele vai ter como objetivo maximizar o seu nível de acerto e conseguir prever aquele resultado toda vez que ele recebi aqueles dados de entrada isso é que seja aprendizado supervisionado de você fornece para cada exemplo de treino o resultado específico que você quer que aquele algoritmo seja capaz de prever então cada exemplo está associada aos dados do exemplo é um resultado específico você quer que ele acerta de tal forma que quando o modelo é raro ao gera aquele resultado ele na hora
sabe o quanto ele errou e o que ele precisa fazer para errar menos não aprenda supervisionada é o mais simples mas é o que eu mais gostoso porque você precisa para todos os seus exemplos tem um resultado esperado para cada um dos exemplos individualmente o resultado esperado nesse caso Tecnicamente estamos um rótulo um alvo o inglês o target ou seja se eu dou por exemplo um pegar um exemplo de fraude bancária tem uma série de transações por cartão de crédito em uma algum conjunto essas transações são fraudulentos o que eu quero é eu recebo um
pedido de autorização de uso o banco né E vai ser um pedido de autorização daquela transação eu vejo as características da transação do vendedor o comprador e eu chuto se eu acho que aquela a transação é uma transação regular que não vai ser questionado você a transação fraudulenta tem algum momento no futuro o cliente vai se dar conta que ele foi fraudado e ele vai questionar que a transação naquele ser ressarcido ela tendo bloquear as transações que eu acho que seria um fraudulento é um morrendo características dos dados Associados a fraude Mas o importante que
no modo de trabalho do aprendizado supervisionado eu tenho para cada exemplo que eu vou usar para treinar eu preciso saber se aquele Exemplo foi um exemplo de uma transação fraudulenta ou não eu vou usar esse sinal fraudulent não ficar doento para guiar o meu processo de aprendizado para minimizar o erro na produção daquele sinal esse sinal é um sinal de supervisão que vai guiar o processo de aprendizado no entanto poderia usar o aprendizado de outra forma e que eu não teria esse sinal de supervisão eu queria por exemplo apenas dados de transações eu não sei
quem é fraudulento que não é fraudulento que que eu poderia fazer eu poder por exemplo agrupar transações parecidas Oi e aí o poderia depois ao inspecionar transações parecidas e olha nesse grupo aqui de transações parecidas nenhuma delas é fraudulento para o conhecimento de negócio que eu tenho humano já nesse outro grupo tem uma grande quantidade de transações fraudulentas então o algoritmo sabia de antemão O que que você tava querendo procurar ele tentou encontrar um padrão estatístico geral nos o exemplo que você forneceu mas sem ser guiado pelo resultado específico você queria que ele acertasse então
já aparece intuitivo né que aprendizado supervisionado vai funcionar muito melhor do que o não-supervisionado mas o supervisionar ele é mais Custoso que ele exige que você já tenha exemplos anotados com um rótulo ou o target que se deseja prever aumenta uma pergunta é mas se eu já tenho o resultado porque diabos eu quero criar um algoritmo de predição que eu posso ter um resultado por exemplo conheci e para mim exemplos mas todo dia tô chegando mais sem exemplo estou dinheiro e eu não quero toda vez tem que pegar esse exemplos novos e passar por um
ser humano especialista dizer se é fraudulento ou não eu quero aprender a partir de exemplos de fralda e não fraude do passado ser capaz de fazer previsões para novas transações cujas características ainda não conheço suas transações que eu vou tá descobrindo em operação então de forma supervisionada eu olho transações fraudulentas não falou antes do passado eu identifico as correlações estatísticas entre as características da transação e o fato de ser fraudulento não fraudulento e eu descobri Então as regras que permitem saber a probabilidade de ser fraudulento de uso isso para novas transações que vai ficar aqui
deixa eu acabei de descobrir naquela em operação Oi e aí entra nova transação e Opa essa aqui tem cinquenta por cento de ser fraudulento E aí as minhas regras de negócios olha configura por cento você fraudulento já é muito risco bloqueei aí vem arrumar outro é um parque tem cinco por cento você fraudulenta e não beleza aqui libera isso aqui ele faz automaticamente mas tem que ser um exemplo de supervisionado e não-supervisionado é eu não tenho esse sinal que seria o resultado esperado eu vou apenas encontrar uma regularidade estatística dos meus dados e tentar agrupar
dados similares a bom então aqui eu peço que vocês memorizem apenas dois nomes Associados a algoritmos de não-supervisionado tem tem várias formas de fazer não supervisionado um beijo de agrupamento que eu passei para você e tem vários algoritmos que fazem isso um deles é caminhos então memorize Por enquanto só isso encontra exemplo de algoritmo não-supervisionado por agrupamento ou inglês clustering câmeras e outro exemplo o regras de associação a própria vocês vão ver que só com esses duas coisinhas bem básicos isso aí não sabe o que que é vou explicar para vocês mais para frente em
módulos específicos O que é caminhos O que é classe também que a priori que são raios de associação mas por enquanto entendeu apenas a diferença entre supervisionado e não-supervisionado Oi Aline esses dois tem uma terceira forma de aprendizado por reforço que ao que não é nem supervisionado e não-supervisionado Teria algum meio que intermediário quem vê se tem um sinal que te dá o resultado esperado para cada exemplo você tem um outro sinal que de vez em quando finjo com bem você está indo ver como você se jogar um jogo esse toma várias ações no jogo
eu faço tá jogado jogada um jogador jogar até jogada quatro e de repente aparece o meu placar que estava em zero subiu para cinco e esse placar subiu para cinco horas eu consigo atribuí-la a uma jogada específica e sim eu só consigo dizer alguma jogada gerou tantos pontos a mais no meu placar aí você supervisionado vocês eu tenho um resultado esperado ganha de pontos associada a uma jogada dado bruto de início aí se ele supervisionado mas um jogo normal não você tem um monte de jogadas e nem vez em quando o seu placar melhora ou
então chega o final do uma partida e você ganhou ou perdeu isso não consegue atribuir qual jogada contribuiu diretamente para você ter ganho Ou perdido Nossa que seria um algoritmo de aprendizado por reforço que periodicamente recebem uma recompensa ou informação do com bem Estamos indo mas não te dá um sinal Claro e qual foi a jogada que contribuiu para melhorar ou piorar o seu o seu desempenho geral e essa outra forma aqui ela é mais flexível do que o supervisionada não exige tanta informação mas era precisa de um monte de exemplos de jogadas associadas a
variações de placar para que o algoritmo consiga entender o padrão estatística e quais jogadas geram otimização do placar e com certeza um monte de dados para fazer treinamento por reforço em geral esse aqui só é aplicado quando você tem uma situação em que o seu algoritmo interagem com Simulador em que o simulador te dá os resultados por exemplo se eu for aprender a jogar xadrez eu posso ter um algoritmo que aplica as regras do xadrez e tende ao final da partida Quem ganhou isso aqui é bem simples e programado O que é difícil é aquele
é um algoritmo que vai escolher dentre as diversas possíveis jogadas legais Qual é a melhor a melhor jogada alguns complexo de ser de ser criado computacionalmente Então você vai usar um álbum o curso que vai tentar descobrir por meio do resultado final de uma partida ganha Ou perdido Quais foram as melhores jogadas que ele fez e aos poucos ele vai melhorar sua capacidade de fazer boas jogadas isso aqui é aprendizado por reforço mas se eu dissesse para cada jogado que o xadrez inchado lista fez se foi a melhor jogado se não for é melhor jogado
aí então seria aprendizado supervisionado Então tá claro suas diferenças entre supervisionado e não-supervisionado e por reforço na prática no mundo real oitenta por cento das aplicações são supervisionados que aquilo que melhor funciona mas ela é tem uma barreira de entrada que a necessidade de dispor de um rótulo a quando você não tem o rótulo se não tem acesso ao a melhor forma de aprendizado a se usa aprendizado não supervisionado e as regularidades estatísticas não-supervisionado trazem é exatamente que você queria ou pode não tem nada a ver como que você queria isso não consegue dizer de
antemão isso então não supervisionada ele é puramente experimental você testa diversas formas de fazer aprendizado não-supervisionado você ver os resultados e você avalia qualidade dos resultados Se eles forem bons para sua aplicação você usa sejam foram embora esta descarta já no supervisionado você tiver muitos exemplos do resultado que você deseja que seja produzido a partir daqueles dados em geral você consegue ter um bom desempenho o OK agora vou pegar um exemplo você para o clássico Cães e Gatos se eu passar para vocês Eis aqui um conjunto de imagens de cães e gatos eu faça alguma
coisa com isso isso aqui seria uma tarefa supervisionada ou não supervisionado e eu tinha falado duas em para vocês carregados como sendo supervisionado mas eu tinha dito que para cada imagem eu diria para vocês e de um cão de um gato aí se ele escreve errado mas vamos pouco apenas passar embaixo para vocês tal e eu não liga para cada uma das imagens é um cão e um gato aí seria uma aprendizado não supervisionado como é que ele funcionaria ele tentaria fazer uma grupamento de todas as imagens em função regularidades estatísticas das imagens Pode ser
que essa regularidade acabe com esse lindo com estrutura semântica cão gato não pode ser que seja outra coisa pode ser por exemplo que nessa você diz Para Ele separar essas imagens lá em cinco grupos aí talvez ele vai encontrar um grupo de imagens em que o pano de fundo seja Verde seja imagens feitas de exterior aí botaria esse esse esse esse esse aqui e quer dizer uma imagem gato no exterior em cima de grama acho que não né só falta que achou aí bota aí então um grupo de imagens em que o pano de fundo
é de grama E aí tem um outro grupo por exemplo que o pano de fundo é branco ou branco ou cinza bateria e esse esse mas também botaria sei lá um gato com um plano de fundo branco eu nem vejo então vejo que aquilo que o algoritmo vai identificar com regularidade estatística pode ser o que te interessa ou pode não ser que você não consegue dizer de antemão Mas qual é grande vantagem então do meu supervisionado é que ele não exige que você já tem os rótulos estou com Messenger os votos para a primeiro treinamento
ela tem um ser humano que vale a cada uma das imagens vai dizer isso aqui é um cachorro esse aqui é um gato isso aqui é um gato Tem um cachorro é uma vez que o ser humano fez isso para por exemplo mil exemplos você usa esses mil exemplos com essas anotações cães e gatos para um algoritmo supervisionado que vai usar informação de saber que é um cão gato em branco o algoritmo tem nenhuma noção do que seja cão e gato ele apenas recebeu de você que algumas imagens tão na categoria A e outras imagens
na categoria B e ele vai encontrar padrão estatístico dos pixels da imagem que estão associadas categoria E o outro associado na categoria B inclusive se você botar as por exemplo a imagem de um carro a imagem de um bebê ele ia dizer se esse carro é um gato seu cachorro e é absurdo né Para nós que têm inteligência humana mas se o senhor bonito ele foi treinado a categoria cão e gato ele vai dizer que imagem de cão que imagem de gato Qualquer que seja a imagem você mandar uma imagem de um avião ele vai
comparar essa imagem de avião com imagem de 15 ligado você vai dizer olha isso aqui se parece mais com um gato o ok então é tem que ter clareza que por baixo dos panos tudo que uma xingang faz são padrões estatísticos em nenhum momento tem características típicas da Inteligência humana o que tenha que esses padrões estatísticos criados de uma forma muito complexa com muitos dados ele acaba gerando funcionalidades que se parecem com a inteligência humana mas fundamentalmente é diferente ela é simplesmente padrões estatísticos a nossa inteligência humana provavelmente também tem uma base em padrões estatísticos
Mas provavelmente também tem outros mecanismos Associados e não seja apenas padrão xadrez como por exemplo é quem é o elemento da nossa arquitetura neural que foi selecionado para um processo evolutivo como sendo convincente com consciência e inteligência com as características humanas seja parte do nosso conhecimento Nossa forma de pensar já sei Nata e parceria definido da interação com o ambiente e apreendido no caso das nossas viais é tudo que a gente põe lá dentro é ou explicitamente posto pelo programador o extraído de regularidade de estatísticas dos seus dados e um resultado que se obtém por
meio do modelo da Fender em ainda que se pareça com o resultado que um ser humano geraria somos mesmos dados e não passa pelo mesmo processo você não pode dizer que uma máquina é igualmente inteligentes ela pode no máximo gerar resultados similares ao que uma pessoa inteligente era ele e aqui me dá um outro exemplo pega essa tabela aqui e visitados de pessoas cada linha é uma pessoa que tem uma coluna aqui de já idade o sexo o nível de estudo EA classe social e eu te pergunto com os conjunto de dados o que eu
tenho aqui é uma tarefa supervisionado ou não supervisionado o que eu quero que sejam capazes de entender dessa minha apresentação é que por enquanto é um definir qual é a tarefa eu apenas te mostrei com os dados simplesmente dizendo Quais são os dados sem dizer qual é a tarefa não dá para saber se as coisas lá não supervisionado tem tem uma carência o que que eu tô treinando querendo prever se eu tô quiser quiser prever por exemplo Qual é a classe social em função da idade sexo estudo superior esse aqui é um aprendizado supervisionado que
eu vou estar usando os exemplos que eu já conheço que eu conheço aquela social e vou tentar estabelecer um padrão estatístico entre idade e Sexo estudo para tentar prever a classe social aprendizado supervisionado classe social como sendo o meu voto no entanto apenas tingole isso aqui são todos os meus dados tente agrupar essas pessoas em grupos homogéneos e que todas as pessoas aquele grupo se parecem e em todos os essas pessoas desse e são muito diferentes das pessoas dos outros grupos aí você vê claramente uma grupo um um algoritmo não-supervisionado de agrupamento clusterização eu não
falei para esse algoritmo Qual era o objetivo a ser previsto então ainda que eu tenha dados que o poder escolher sem objetivo se eu não passo isso como objetivo o meu algoritmo apenas procurar relações estatísticas Gerais e segue legais os meus dados em agrupamentos massivamente homogêneos É isso aí seria um exemplo de não-supervisionado já se eu passo uma coluna específica dos meus dados isso aqui é o meu objetivo pense adivinhar essa coluna em função das outras colunas Então as outras colunas não ser os meus dados Independentes as variáveis independentes e eu vou usar essas variáveis
Independentes para prever amava minha variável dependente Ou seja é preciso que essa variável tô tentando para ele ver ela dependa logicamente tem alguma nível de associação estatística em relação as outras variáveis Então faz sentido tentar prever classe social em função de estudo superior sexo idade Provavelmente sim em geral pessoas com mais estudos com mais velhos e infelizmente tem essa preponderância de pessoas do sexo masculino estar em mais provavelmente nunca social eu conseguir usar essas três três elementos eu estico para conseguir fazer um chute nem classe social Mas você já vem que não vai ser perfeito
né eu vou ter pessoas com mesma idade mesmo sexo mesmo estudo super eu alguns em classes sociais altas e outra sociais e baixos mas eu vou ter uma regularidade estatística e vou poder usar essa regularidade estatística fazer um chute que seria melhor do que um curso totalmente aleatório queremos fazer uma previsão baseada uma regularidade estatística que vai me dar uma chance de acerto maior do que seria o aleatório agora é diferente essa variável tarde de classe social em relação as outras não eu poder escolher hábito alinhamento uma outra dessas variáveis começou no meu tablet e
tentar prever ela em função das outras e poder usar por exemplo sexo estão superior para social para prever a idade ou poderia tentar usar idade e Sexo classe social para prever o estudo superior o importante é que a minha variável que eu tô tentando prever é uma forma dependendo das outras variáveis que eu disponho se eu tô tentando por exemplo prever qual vai ser a próxima sequência de números da mega-sena eu não tenho como prever isso porque nada dessa futura sequência de dados da mega-sena Depende de coisa Alguma eu posso olhar o histórico de todos
os resultados da mega-sena nos últimos 100 anos gasta lá 20 anos e não iria ter nenhuma regularidade estatística se tiver é uma falha do processo do sorteio mas em tese Teoricamente abstratamente não era para ter nenhum regularidade estatística todos os números tem que ter a mesma chance aparecerem então fato de eu ter conhecido eu conhecer a sequência de números que já apareceram no passado não Me fornece nenhuma informação útil para tentar prever o próximo número que vai aparecer bom então mas se enganem não é mais giro é simplesmente regularidade estatística então se você tiver dados
que formam uma certa regularidade estatística você vai conseguir fazer uma previsão baseado nessa regularidade estatística isso vai funcionar ou não vai depender do conforte essa regularidade estatística e o com Capaz é o seu algoritmo de extrair as vezes o mesmo problema um determinado algoritmo vai ter um desempenho muito ruim e outra bonito que o desempenho muito bom e cada algoritmo vai ser capaz identificar melhor ou pior algumas regularidades estatísticas e é vice é o cerne do conhecimento técnico The Machine Oi e aí finalmente vamos ver como apesar de ser muito abstrato que eu falei para
vocês essa diferença entre aprendizado supervisionado e não-supervisionado ainda assim já dá para matar algumas questões de concurso mais simples desse do tipo para 2021 um toque esse anunciado Petrobras Cesgranrio 2018 fala dois funcionários da empresa de crédito discutindo sobre quais algoritmos deveriam usar para ajudar a classificar seus clientes como bons ou maus pagadores a empresa possui para todos os empréstimos feitos no passado um registro formado pelo conjunto de informações pessoais sobre o clientes e como era composta a dívida Inicial todos esses registros tem o classificações de bons ou maus pagadores de acordo com o perfil
de pagamento dos clientes a partir desses dados os funcionários querem construir um modelo por meio de aprendizado de máquina que classifique os novos clientes que serão descritos para o registro o mesmo formato a melhor opção nesse caso é usar um algoritmo e essa tem cinco opções e vamos começar destacando as palavras importantes de ser anunciado que ajudam e você a selecionar Qual das opções é a mais adequada a eu tô aqui eu vou beijar também o foco em classificar de categorias bons ou maus pagadores todos os meus empréstimos feitos no passado possui o registro de
bons ou maus pagadores além das características do cliente esse registro e outras situações de bons ou maus pagadores Então você tem tá tentando prever uma categoria bom o mau pagador a partir das características daqueles clientes nesse claramente é um aprendizado supervisionado de classificação Oi ok e sabendo disso já dá para eliminar o uso dos opções não é sempre supervisionado e não-supervisionado apenas supervisionado mas tem duas opções duas sopinha de letrinhas svm caminhos ainda não falamos os detalhes essas coisas eu tinha pedido para você memorizar que exemplo de não-supervisionado tinha caminhos e a priori o regras
de associação então só com esse conhecimento bem básico que eu falei para vocês já daria para selecionar essa alternativa b e dizer que o correto é supervisionado desculpe alternativa a correta supervisionada com svm não tá nem sabe ainda o que eu quero cvm a gente vai ver isso durante o curso mas o que eu quero que vocês vejam que numa precisa ter um conhecimento muito aprofundado de marshmellow para responder a esse tipo de pergunta e se você tiver uma são muito clara da diferença entre supervisionado e não-supervisionado e que é memorizado alguns nomes e algoritmos
de supervisionar tive não-supervisionado já dá para matar questões simples dessa Então esse caminhos aqui é exatamente é é um exemplo de não-supervisionado regras são linear seria um exemplo de supervisionado svm também é supervisionado árvore de decisão também supervisionado e redes baseadas também supervisionado sejam ver que tem um a gente acaba focando muito em algoritmos supervisionados Por que são aqueles que na prática geram melhores resultados mas a gente vai mostrar ainda para vocês uns cinco ou seis algoritmos não supervisionados também bom então mesmo que tendo aprendendo muito pouco já serem suficientes para acertar essa pergunta mas
é o que eu vejo como tendência é que as perguntas mais recentes do concurso pode 2021 tende a ser mais complexas e acho que não daria para você com que eu apresentei para vocês lá até agora acertar uma questão mais moderna e ainda assim é bom né vocês treinarem vocês vão ser passados para ganhar essa clareza conceitual ninguém aqui era para a qualquer questão de supervisionado e não-supervisionado é algo muito simples é preciso bem ancorado na sua bagagem conceitual para entender tudo que vai vir mais para frente é bem mais complexo então aqui uma outra
questão FGV Niterói Seplag 2018 Rafael aplicou um teste de múltipla escolha de 100 questões para o numeroso grupo de alunos e notou que houve uma variada distribuição de notas Rafael resolveu trabalhar esses dados e agrupar esses alunos de modo que cada um ficasse no grupo mais adequado para sua nota assim poderia preparar atividades específicas para cada grupo assinale a opção que indica o algoritmo mais adequado para essa tarefa bom então Quais são as palavras mais relevantes denunciados para descobrir inicialmente entender a tarefa uma vez que entendeu a tarefa saber se é supervisionado e não-supervisionado uma
bicho descobriu essa categoria ver nas opções qual seria a opção que se encaixaria no grupo A de 4 bom então aqui e já falou de agrupar agrupar sacar a mente sugere não-supervisionado agrupamento clusterização depois falou que nada me não ficasse no grupo mais adequado para Sua nota se você quer você tem conjunto de alunos com várias características e você quer que eles sejam reagrupadas em grupos com notas mais homogêneos mas similares isso aqui claramente é um exemplo típico de algoritmo não-supervisionado de agrupamento Então vamos ver agora nessas opções Quais delas encaixar isso são aqueles poucos
elementos que tinha pedido você memorizar um deles era caminhos é um exemplo de algoritmo de agrupamento não-supervisionado então a resposta correta é saber caminhos mas não dá uma olhada nas outras regressão linear a vejam também né que ele escolheu o sal em termos em inglês então é bastante recomendado que você já aprenda o vocabulário em português e em inglês um ponto de vista técnico quase todos as discussões em machine learning tendem a ser em inglês usando os termos técnicos em inglês mas é bom também saber a versão em português que de vez em quando alguma
banca já traz traduções não sabe o que é aprendizado de máquina sabe que também é quer dizer inglês Machine Se você dá uma regressão linear é um exemplo de aprendizado supervisionado então não se encaixaria aqui regressão logística também é um exemplo de aprendizado não-supervisionado esse primeiro é uma regressão e segunda é uma classificação aumentar em detalhes em próximos módulos um Monte Carlo é uma técnica em geral que não tem a ver com a sheilane de simulações aleatórias para tentar prever resultados médios então não tem nada a ver com o nosso conteúdo e bubblesort é um
daqueles algoritmos que eu tinha mencionado de ordenação de resultados também não tem nada a ver com a sheli ordem é um peso é um algoritmo genérico de UTI e computação usado para ordenar resultados inclusive vão algoritmo muito ineficiente tem coisa muito melhor do que o baú só então beleza que nos interessa do ponto de vista do nosso conteúdo essa alternativa que a mente essas outras duas O que são dois exemplos de não supervisionado O correto é o BK mesmo então eu espero que vocês tenham visto com os poucos exemplos que eu dei qo.que o primeiro
passo de aprendiz de vocês precisam entender de aprendizado de máquina uma chegou hein não é tão complexo sejam capazes fazer distinção Para uma determinada tarefa se ela é supervisionada ou não supervisionada E como é que você sabe se esse preservado no freio já nada em função de ter sido explicitado naquela tarefa se aquilo que você tá tentando prever você já tem exemplos daquela previsão ou daquele resultado no passado não só tô tentando prever se uma pessoa segunda tem a atualização é fraude ou não e eu tenho exemplos em que eu digo naqueles exemplos era fralda
não era fralda e são um exemplo é um típico exemplo de aprendizado supervisionado já se eu não que não se vê e essa variável de destaque avaliador objetivo com resultados conhecidos no passado Então vou tentar fazer o a identificação de regularidades estatísticas Gerais os meus dados sem ter esse sinal que vai guiar o meu processo de aprendizado Então é isso eu aprendizado não supervisionado i e o tiozão então isso encerro esse módulo 1 E aí e é aqui agora vou fazer a nossa interrupção Zinho acabei me entusiasmando os são 10:47 eu vou estar disponível aqui
para você ter algumas perguntas e voltamos as 10 e 57 10 minutos de pausa vocês poderem comer um pouquinho e relaxarem e voltarão cheios de energia para continuarmos então podem fazer suas perguntas e eu tô olhando aqui o nosso nosso chat eu vi que não teve muitas perguntas eu espero que só porque o controle tá muito simples mas por favor faça suas perguntas acho muito importante para o desenrolar do nosso curso Ah beleza então Vejo vocês de volta então as 10 e 50 então agora me perdi isso desde vocês 10:57 até logo só um E
aí E aí [Música] [Música] [Música] E aí [Música] E aí [Música] E aí [Música] [Música] E aí [Música] E aí [Música] E aí [Música] E aí [Música] E aí [Música] [Música] [Música] E aí Tá certo [Música] E aí E aí [Música] [Música] [Música] [Música] [Música] E aí E aí [Música] [Música] E aí [Música] E aí [Música] E aí [Música] E aí [Música] E aí E aí E aí [Música] [Música] [Música] E aí [Música] E aí E aí [Música] [Música] [Música] [Música] E aí E aí E aí [Música] [Música] E aí [Música] E aí E aí
[Música] E aí [Música] [Música] E aí [Música] E aí [Música] [Música] [Música] E aí [Música] E aí [Música] E aí [Música] [Música] bom [Música] então bem vindo novamente tomou tirar só algumas duas que surgiram aqui no Chelsea Marcus Vinicius Em algum momento do curso eu poderia fazer uma avaliação dos temas de ciência de dados com maior tendência de cobrança na Sefaz Minas Gerais E então começa faz Minas Gerais para eu pedir uma cópia do edital da CG eu certamente olharia prova desse jogo Qual é a importância relativa desses tópicos é o que eu botava priorizando
no meu curso né ou seja o que tem que eu não vou fazer uma distinção tão grande em relação a como um conteúdo foi cobrado na CG ou no TCU eu vou dar uma ponderação em relação a importância que eu vejo nos tópicos na construção Geral do conteúdo em si e na forma como foi cobrado nesses últimos concursos então fazer uma previsão para Sefaz Minas Gerais acabaria ser muito parecido com o a forma como eu vou priorizar os tópicos nesse curso Então não vejo tanta distinção entre o que você pediu e o que eu estou
fazendo o nosso que deixar mais explícito ainda o Cristian é você acha que o perfil de cobrança você faz será o mesmo das outras provas deve ser ver olha considerando que eles usaram o é mesmo edital das Egeo parece claro que eles vão cobrar praticamente da mesma forma né e talvez ele bota um livro um pouco mais baixo um pouco mais alto nessa O que foi esse g u mas me surpreenderei Se você fosse muito diferente eu acho que até o padrão que a mineração É próximo né o senhor mesmo a banca mesmo edital órgãos
com padrão de remunerações similares é é de se esperar que seja um nível bem parecido ao que foi do seu bom então esse curso vai cobrir a maior parte do edital da parte de ciência de dados mas Tinder mas tem algumas coisas do licença de dados que não seja mexendo o link aí não está coberto no curso é uma minha recomendação dá uma olhada no eu tenho a transparência sobre isso mas não tô com ela aqui dá uma olhada no edital da Sefaz MG o desejo fazer a mesma coisa relação ao conteúdo e destaca a
parte que é ml que é o que eu vou apresentar aqui que tá naquela minha transparência acho que umas quinta ou seja transparência que eu vou ter todos os elementos de conteúdo do curso você saber quem número de itens o que eu vou apresentar é relativamente pequeno em relação ao total de itens no programa de ciência de dados mas se você olhar no conteúdo da prova das Egeo boa parte do que foi cobrado no programa ciência de dados eram coisas de machine learning a uma certa desproporção o programa ele envolve um monte de itens que
e subalternos e que em foram inseridos porque alguma área da o pediu que aquele aparecesse mas na hora da FGV fazer o item fazer uma pergunta Tem coisas que são fundamentais basilares e se tem coisas são muito acessórios é possível algo acessório apareça Sem dúvida mas não deve aparecer muito múltiplas questões para ele vou falar agora de um exemplo de aprendizado não supervisionado em regras de associação é possível aparecer em duas questões de regra de associação na prova é possível mas teremos surpreendentes já é possível apareça 3 questões sobre árvores de decisão sem é possível
a decisão algo fundamental múltiplas questões relacionadas aos decisão fazem sentido múltiplas questões aproximada a rede Associação não uma só a meu ver já não fazem tanto sentido que já não é tão importante mas está presente no nosso programa logo eu vou cobrir é mas sim a importância relativa dos itens é muito muito variado mesmo uma parte é Meu preconceito que eu tenho tendência A Hiper valorizar uma rendering moderno e aí essas coisas mais antigas que eram importantes nos livros e 10 anos atrás hoje ainda é utilizado assim geral em geral É raro você descartar totalmente
alguma coisa mas é muito menos utilizado então se eu olhasse um livro de mineração de dados ou The Machine ordem de 15 anos atrás dava muita importância ao algoritmo svm isso pode deve tá mexendo hoje ainda é utilizado mas muito pouco você olhar tem tem algumas Modas que tem a ver com o máximo de desempenho você consegue com determinado algoritmo para uma diversidade de tarefas então tem uma fase historicamente que esse VM era muito utilizado em ótimos resultados para várias coisas e depois passou tem um outro momento em que ladrão Force começou a dominar totalmente
não quer dizer que o algoritmo seja melhor mas que uma grande diversidade de tarefas o desempenho médio do algoritmo é melhor do que o anterior então ele acabou sendo mais usado do que svm aqui é uns 8 10 anos atrás que eu aprendi como você aprender mais seriamente me focar mesmo em em machine learning porque tava na crista da onda era um exército aí eu tive uma habilidade mais tradicional com professor que fazia todas as coisas sequenciado trás de aprender uns 20 30 algoritmos você aprender uma árvore grande Foster o Floresta aleatório e quando aprendemos
força aleatório comparamos o nosso desempenho em todos os exercícios que nós temos feito antes Manda um forte sempre dava melhor resultado do que os outros algoritmos apenas o professor Mas por que diabos perdendo os quanto tempo aprendendo outros algoritmos que não geram resultados tão bons quanto mais um forte e E aí daqui em algumas circunstâncias específicas outros algoritmos supera o ano Force não tem um algoritmo que sempre tem o melhor resultado para tudo e já sempre entre idosos mas tem alguns algoritmos que named consegue melhor desempenho uma grande variedade de tarefas do que outros e
aí esse começa a se tornar os algoritmos da moda não teve uma moda sbm depois de modo a floresta aleatório e agora o algoritmo dominante nas competições The Machine é Grand Duos tem diversas implementações como chiboust o LG bm100 tem várias implementações de algoritmos básicos the bustling vamos falar nisso mas o Booster não tá ainda explicitamente nos editais de concurso tem que lembrar né que às bancas Achei um certo conservadorismo e demora para se começarem a cobrar aquele que ele está da arte por exemplo hoje o estado da arte em LP é Transformers e eu
acho que eu vou mencionar no meu curso mas não vai ser um elemento importante porque simplesmente não aparece no conteúdo programático mas se em algum momento às bancas começarem a pedir Transformers aí eu vou aumentar a importância bonita em Transformers no meu curso Então tem que ver né se tá você tem que entender do assunto e ao mesmo tempo utilizar o seu tempo de estudo visando o concurso para tirar o máximo de proveito na prova né então tentar fazer esse ajuste fino para vocês e em relacionar-se crosta podemos dizer que ela busca grupo A indivíduos
em grupos semelhantes entre si e distintos entre os outros Agnaldo ou eu tô meio cansado não tem direito a sua formulação Mas é bem parecido que foi que você escreveu então vamos poucas que foi o algoritmo crie três grupos então ele vai pegar todos os meus os meus exemplos e vai colocar cada exemplo em um desses três grupos e ele vai tentar botar e cada um dos seus grupos que tá teu grupo ABC estão todos os elementos que estiverem no grupo a não ser muito parecidos entre si e muito diferentes daqueles que são os os
indivíduos os exemplos os elementos dos grupos B e C Então nem tenta encontra máximo de similaridade nas em dimensões Tais que faz com que sejam laceamento diferente dos outros e às vezes faz sentido a estrutura que foi gerada essas formas às vezes não é mas a ideia de clusterização o agrupamento Essa é que todos os indivíduos dentro de um grupo ser massa mais parecidos do que quer dizer massivamente parecidos né esses quase parecidos em alguma coisa que você considere relevantes mas muito seus dados aquela similaridade estatística é forte razão pela qual o algoritmo priorizou alocar
um grupo para ela mas ela pode não corresponder uma categoria que passa que passa sentido para sua aplicação beleza isso aqui eu acho que pega as perguntas que foram trazidos por favor continue fazendo essas perguntas e agora vamos começar o próximo bloco de classificação E aí [Música] o Olá então começamos nosso grupo Nosso módulo sobre classificação não falamos de aprendizado supervisionado e não-supervisionado mais aprendizado por reforço se tiver uma dúvida bem olhada no módulo que fala sobre isso especificamente supervisionado do ensino supervisionado sendo que dentro do supervisionado aqui dentro do nosso televisionado tem subcategorias aí
vamos entrar um pouquinho mais em subcategorias o que estamos fazendo agora estamos condições do meio de uma uma hierarquiza são conceitual não é fundamental ele podia sentar olhar diretamente algoritmos mas se você entende a estrutura geral da similaridade entre os algoritmos eu entendo que se acaba é reaproveitando o que você entendeu de um algoritmo para o outro que é dentro uma mesma categoria algoritmos diferente cês vão tá fazendo a mesmo tipo de coisa só que diz formas diferentes então ajuda muito conceitualmente você conseguir o agrupamento hierárquico de algoritmos e de conceitos dentro de uma estrutura
como essa Além de que essa decomposição está explicitamente prova para prevista em quase todos os conteúdos programáticos que eu já vi ciência de dados e tem um monte de questões que podem ser resolvido Só usando isso então é uma carona conceitual que você precisa aproveitar então para supervisionado tem duas grandes formas diferentes de fazer aprendizado supervisionado uma chance classificação EA outra regressão sei vamos ver que a distinção entre as relaxamento Claro e é outra distinção que precisa ser perfeitamente compreendido é o time que vocês não podem errar fazer a distinção entre o que é uma
classificação que é uma regressão e na parte não supervisionada E falou de agrupamento muito por alto e em geral então feita em agrupamento redução de dimensionalidade regras de associação o sistema de recomendação E aí vou tentar fazer com que cada um desses desses itens daqui seja um módulo específico para que em função do nível de demanda de um determinado concurso fazer para um concurso pode não não fazer sistema de recomendação aí nós vamos apresentar para vocês o outros Podem trazer E aí vamos destacar um módulo associado a isso tal forma que sejam precisa em estudar
além daquilo que o necessário para o concurso que o que interessa vocês É mas no curso em geral tudo isso vai ser abordado bom então a distinção entre classificação e regressão essa imagem aqui ela permitisse fazer todas as todas as diferenças conceituais entre o que é classificação e o que é regressão Mas vamos lá o que que eu mais importante mas você consegue facilmente saber o que é classificação e regressão você define uma tarefa você disse eu quero a partir de tal estados prever tal coiso Oi e aí a gente arruma um ambiente que é
supervisionado Ou seja eu destaquei uma das minhas variáveis e eu falei essa daqui é a minha variável objetivo o meu tablet Isso é o que eu que tô querendo prever a distinção equipe classificação e regressão tem a ver tão somente a Que tipo de dado é aquela variável objetivo target se essas variável objetiva tarde ela foi uma variável categórica ou seja ela tem um número limitado de possíveis valores então é uma classificação se a variável que variável target ela tiver uma infinidade de possíveis valores em geral uma variável que numérica com infinitos possíveis valores numéricos
então a tarefa como um todo que é definida em prever àquela variável a partir daqueles outros dados e é categorizada como sendo uma tarefa de regressão deve ser a utilizar algoritmos de regressão para fazer aquela previsão se aquela sua variável categórica ou se deu um número limitado de possíveis valores Então vai ser uma tarefa de classificação vamos dar exemplos vamos supor que eu tô tentando prever o sexo de uma pessoa em função de características lá foto aquela pessoa tem uma foto eu quero saber se é um homem você é uma mulher então o que que
eu tô tentando prever sexo sexo é uma variável target do que eu tô tentando prever Quais são os possíveis valores para sexo essa minha simplificação da complexidade de gênero eu botei apenas um homem e mulher são dois possíveis valores Então o que eu tô tentando fazer é uma classificação agora vamos supor fosse assim o hiper para frente sem sinal eu estou tentando prever o percentual me masculinidade daquela foto então esse percentual seria o valor numérico continu de zero a cem por cento e aí então seria não mais uma classificação mais uma regressão tô tentando prever
esse percentual de masculinidade ou feminilidade em um determinado a foto como sendo um número em número real continuo uma infinidade de possíveis valores pode ser 97.3 98 um 47 não tem uma infinidade de possíveis valores pensa infinidade de possíveis valores numéricos então é uma regressão se o número de possíveis valores que foram tomadas por limitado e o limitado pode ser grandes desde que ele não seja infinito então a classificação Então vamos supor que eu seja Agora eu tenho características de eleitores no Brasil e eu quis eu pego lá dados do TSE tô tentando prever a
qual Estado o eleitor pertence em função das suas outras características Então quais são os possíveis valores prestados todos os Estados da Federação é um número limitado de possíveis estados então cada um desses Estados em uma categoria E logo o meu guri tá fazendo a classificação agora um suco seja tentando prever na verdade agora é o patrimônio ou renda renda média que uma determinada pessoa declarou no recenseamento do IBGE tem um monte de características de uma pessoa mora é sexo gênero e raça imaginada e dá tudo aquela pessoa e tô tentando a partir dessas informações prevê
a renda que ela declarou para o cara o recenseamento do IBGE Então se o meu avariado target arrendo a renda é uma variável numérica continua pode ser de 0 até valores eu espero que os milionários então tem uma infinidade de possíveis valores então é uma regressão agora eu posso tentar fazer para simplificar sua relação de Olha eu não quero prever o valor exato que a pessoa ganha mais patamares de valores Então se o cara de 0 a fila 300reais tal categoria de 300 reais a 500 tá o outro e 500 e 700 tá o outro
e eu vou fazendo assim eu faço uma separação prazer tem 10 patamares Então essa minha tarefa agora é uma tarefa de classificação Porque eu tô tentando para ele ver agora não é mais um número continua com infinidade de valores Mas é uma categoria específica dentro de um rol limitado de categorias e virou classificação O que é que esse gráfico é vela pra gente ele mostra a diferença do que a classificação e regressão tenta imaginar que esse eixo horizontal seria por exemplo o peso de uma pessoa e o eixo vertical se ele sua altura então cada
cada item gráfico aqui seja bolinha seja Cruz seria peso e altura de um determinado indivíduo E aí dentro dessa população você tem um grupo das bolinhas e o grupo das Cruzes e está tentando descobrir dar um peso em uma altura se aquele vivido é uma bolinha por ser uma cruz pode ser por exemplo dado a minha interpretação do que seriam os eixos que todas as bolinhas tem as crianças e todas as Cruzes seriam os adultos as bolinhas são pequena altura e pequeno peso e as Cruz seriam grande altura e grande peso então vou fornecer para
o meu algoritmo vários exemplos de peso e altura associada a categoria adulto ou criança bolinha ou cruz e depois de ter passado vários exemplos de indivíduos com seus pesos e alturas Associados a categoria quais pertencem adulto ou criança eu quero que o algoritmo defina sozinho uma regra que permita saber se um determinado indivíduo com peso e altura quaisquer é um adulto ou é uma criança então o que que ele faria ele a todos os indivíduos bolinha tem nem a ter pesos e alturas baixos todos os indivíduos Cruz tender a ter peso e altura é levado
e ele descobri linha uma reta que serviria de fronteira entre essas duas categorias então Qualquer que seja o indivíduo que você chuta a aparecer em qualquer local uns por o meu cursor está agora nessa posição essa posição Então ela teria uma altura relativamente elevada mais um peso peso rapidamente elevada uma altura baixíssimo ele se encontraria então abaixo dessa linha de demarcação no grupo na área do grupo das bolinhas Então se o seu treinar se o meu modelo usando todo esses exemplos ele ia construir uma linha de fronteira entre essas duas classes muito próximas dessa daqui
e aí quando o pênis se para de fazer a inferência uma previsão de um indivíduo que estivesse na posição do meu curso ele iria dizer que é da categoria Você já sabe o professor estivesse aqui ele é dizer que é uma categoria adulto se ele tiver exatamente na linha aí ele pode dizer que é o adulto crianças Quanto porcento de chance aí pode ser que o seu algoritmo Prevejo que no caso de empate se entendo como sendo adulto por exemplo Ah então tá claro como é que a lógica da classificação ela tem para cada indivíduo
que você tá tentando classificar Qual é a classe A que ele pertence esses indivíduos é de se esperar que eles têm um características similares em função da sua categoria Então as bolinhas vão tá muito próximas entre si as Cruz muito próximas entre si e o que o Buriti vai tentar descobrir é uma linha de Fronteira ou até uma fronteira mais complexo do que uma linha que permita separar as regiões do espaço que corresponde a cada uma das categorias isso é o aprendizado o por classificação é descobrir a separadora a lista para tres entre as diversas
categorias uma vez e definir as fronteiras qualquer novo indivíduo que apareça você consegue saber de que lado ele se encontra na fronteira e em função disso com a categoria que você vai imaginar para ele se eu tivesse ruim devido aqui no meio é absolutamente certo que ele é uma bolinha o indivíduo aqui é exatamente que quer ele é uma cruz mas eu tenho uma dívida aqui por exemplo bem perto da fronteira mais do lado Cruz ele vai ter que ela Cruz mas o nível de confiança do algoritmo que uma cruz é menor do que se
estivesse aqui Ah mas tudo isso vamos desenvolver mais mais para frente nos próximos módulos mas ainda é básica de classificação é aquilo que eu quero prever é uma variável que é categórica com número limitado de possíveis valores já na regressão aquilo que eu tô tentando prever é uma variável que é continuar com infinidade de possíveis valores vamos pegar a mesma interpretação dos eixos aqui que o eixo horizontal seja peso e hoje vertical seja altura não cada indivíduo desse é uma pessoa que tem um certo peso uma certa altura o que eu quero fazer eu quero
definir um modelo que vai pegar todas esses indivíduos e vai tentar fazendo a regressão a simplificação de todos esses pontos para um modelo mais simples que aproxima melhor todos esses pontos e tal forma que a partir de um peso qualquer eu vou pegar um peso de um determinado indivíduo eu conheço apenas o peso dele aí o o peso nessa linha que foi construída pelo meu modelo e a intercessão do peso com a linha vai projetado no outro ex vai me dar uma altura então para qualquer indivíduo cujo peso conheço eu consigo descobrir a altura esperada
dele como passar da mesma forma do Inverso todo indivíduo que o altura eu conheço eu consigo prever qual seria o peso esperado daquele indivíduo mas parece claro né Isso aqui é uma simplificação você tem por exemplo aqui duas bolinhas que estejam mais ou menos na mesma mesma coordenada de peso esse indivíduo esse indivído eles têm praticamente o mesmo peso mas alturas diferentes ele ainda mais forte e esse indivíduo e esse daqui eles têm a mesma altura mais pesos bem diferentes esse algoritmo esse modelo que é muito sempre que uma regressão linear e não vai conseguir
fazer a distinção entre esses dois ele vai apenas ver o comportamento médio de o som vai traçar uma linha que a mais próxima possível de todos os pontos mas ainda assim vai ser longe de vários desses pontos e esse a linha média vai servir de referência para as minhas previsões E aí toda vez que eu trouxer um altura ele vai me dar um peso talvez você é um peso vai me dar uma altura aí em função do comportamento essa linha média isso aqui é um exemplo então de regressão vocês vão ver que boa parte a
gente vai aprender que é aprendizado supervisionado vai ser ou fazer uma classificação e descobrir as fronteiras entre as diversas categorias vou fazer uma regressão e descobrir a função matemática que melhor aproxima nos pontos que eu estou utilizando para o meu treinamento e essa função é que vai servir de base para fazer uma previsão de novos valores a nesse caso aqui é bem simples nessa tal tem duas variáveis peso e altura e eu tô tentando prever uma categoria Criança adulto um uma das variáveis em função da outra regressão o Buzz é muito simples por razões didáticas
né mas no mundo real você vai ter classificações ou regressões com milhares e variáveis você não consegue nem representar lá visualmente e ainda assim os algoritmos que foram treinados vão conseguir ter um bom desempenho mesmo esse espaço Dimensional com um grande número de dimensões no caso que com duas dimensões é fácil fazer um gráfico é fácil entender a diferença entre uma categoria E o outro e qual seria Fronteira ao tenta imaginar um ponto desse que tenha 1000 dimensões até um espaço mil dimensões que não tem nem imaginar o geografia geometricamente você vai ter aglomerados de
pontos de uma mesma categoria numa parte desse Espaço Mil dimensões ouça aglomerados em outros locais a tentar descobrir uma fronteira de mil dimensões agradecimento dimensões menos um um plano dimensional hyperdimensional de 1990 o que permite separar esse espaço mil de mil demissões entre duas regiões a região dos pontos do tipo bolinha e a região dos tons do tipo Cruz realmente ninguém é capaz de fazer isso olhando para os dados é muito complexo E aí é outra aplicação aqui na China nem consegue ter um bom desempenho ela consegue identificar esse padrão estatística em mil dimensões quase
tão facilmente como ela faria com duas dimensões com duas dimensões nós conseguimos fazer isso muito facilmente uma representação gráfica com mil dimensões nós não conseguimos fazer o ok então já mostra mesmo como esse tipo de conceito muito simples as diferenças entre classificação e regressão já é suficiente a matar algumas questões e concurso Hoje eu tô aqui em jsp 2020 dentre os métodos de mineração de dados existem aqueles que são supervisionados e os não supervisionados assinale a alternativa que apresenta corretamente um dos métodos supervisionados mais comuns para aplicação da mineração de dados que voltadas tarefas frequentes
do dia a dia então cinco opções coisas que não sei nem o que é que quer dizer formulação por exemplo no contexto de ML não quer dizer muita coisa marca que nós temos importantes temos classificação clusterização regras de associação esse Bambu só já falei para vocês em um algoritmo de ordenação de valores que é um negócio clássico de UTI mas que não tem nada a ver com uma chegou então ele fala que ao método é supervisionado Oi desculpa desculpa eu tenho aqui um destaque Eu tenho aqui um método que é supervisionado Então quais esses metros
aqui serão supervisionados é a classificação que eu acabei de falar para vocês clusterização seria um exemplo um categoria genérica de não-supervisionado assim como regras de associação não-supervisionado dentro de clusterização pelo teclado caminhos é um algoritmo específico que é do tipo agrupamento que é do tipo é não não não supervisionado dentro de classificação nave dentro de supervisionado temos classificação e regressão dentro de classificação por de ter posto por exemplo regressão logística que é um dos exemplos de regressão de modelos lineares que eu vou apresentar para vocês no modo específica bom então uma vez que você conseguir
em encaixar conceitualmente os diversos algoritmos nas diversas caixinhas que eles podem pertencer se é supervisionado e não-supervisionado E se for supervisionado dentro de classificação dentro de regressão muitas coisas começam a fazer sentido e vocês vão ver que sim boa parte do algoritmo que vamos apresentar para vocês eles têm uma versão para a classificação em uma versão para regressão por exemplo árvore decisão pode ser usada enquanto o classificador ou enquanto regressou a gente vai entender a lógica Geral de ar decisão ver uma aplicação enquanto classificação e vê como se parece com outros classificadores e ver uma
aplicação enquanto regressão e vê como se parece com outros regressores bom então essas distinções categóricas tô pegando passando para vocês não são assim mera taxonomia abstrata e relevante elas são muito úteis para não ser rapidamente consegui procurar um algoritmo de quadro e entender melhor sua tarefa se você tem uma tarefa que você não consegue dizer com certeza se é supervisionado e não-supervisionado ou se for supervisionado se é uma classificação à regressão existe ainda não entendeu com a tarefa você tem que refinar a sua compreensão de qual é a tarefa uma vez a tarefa Clara é
claro saber qual categoria ela se ela se encaixa em termos de aprendizado Então vamos botar um outro exemplo para deixar isso ainda mais mais claro é tão cedo na Rio o Banco do Brasil 2021 um banco decidiu realizar uma ação de marketing de um novo produtos buscando apoiar essa ação a área de ter decidiu estabelecer um mecanismo para identificar quais clientes estariam mais inclinadas adquirir esse produto esse mecanismo participa de uma base Histórica de clientes que receberam oferta do produto e tenha várias colunas com dados sobre os clientes EA oferta além de uma coluna registrando-se
já haviam efetuado ou não a compra de tal produto para isso decidiram ser mais adequado usar um processo de mineração de dados baseado na noção de e eu espero que agora você e você não tem duas nenhuma relação a essa questão né então como é quais são os elementos do enunciado que são mais relevantes para você poder fazer essa categorização entre supervisionado e não-supervisionado E aí fala que você tem que várias colunas com o das o conheceu oferta esses várias colunas seriam as variáveis Independentes você já aquelas que descrevem o fenômeno mas não é aquele
só tentando para ver e aqui estou tentando prever a variável dependente aquela que depende das outras as Independentes então àquela variável que tá sendo destacada avaliar o target é vai ser essa coluna registrando-se eles efetuaram a compra do produto a cada linha da sua tabela vai ser um cliente vai ter que informações sobre valor médio da conta do sujeito a quanto tempo ele é cliente do Banco sei lá valor médio de transações mensais tudo isso as informações que estão nas variáveis independentes e ele vai ter como variável dependente seja o avaliador tarde objetivo é aquele
sujeito ele comprou não comprou aquele produto específico não fosse tá tentando vender esse lá um plano de capitalização aí você tem um cliente tal e enfiar não comprou cliente B comprou quem é descer não comprou está tentando é prever se um determinado cliente em função de suas características e ir lá ou não comprar aquele produto Então como a variável que tô tentando prever primeiro você tem uma variável explícita que foi identificado como sendo o seu táxi aqui logo isso aqui é uma aprendizado supervisionado dentro das empresas têm bacana e duas opções classificação regressão É o
que então tem dizendo que essa variável só testando prever essa tem dois possíveis valores comprou não comprou eu tô com duas categorias o número de apenas dois possíveis valores não infinidade de valores serão apenas duas possíveis valores dois possíveis valores então é uma classificação vamos modificar os problemas eu acho legal que vocês tem um problema interessante um anunciado como você tem pouquíssimos enunciados de ciência de dados em concursos não dá para simplesmente extrair dele diretamente a resposta e ficar satisfeito sempre extrai o máximo de coisas interessantes desse desse dessa questão então vocês viram que esse
anunciado a resposta correta dele se ele classificação tenta imaginar o que se expressariam modificar desse enunciado para que Ele pudesse ser algumas das outras questões estão aqui vamos passar de classificação por exemplo um plano de regressão o que que eu precisaria transformar numa enunciado para que ele fosse uma questão não fosse uma tarefa tipicamente de regressão não continuaria sendo uma tarefa supervisiona é daquelas mesmas colunas de dados em uma coluna de dado de dado do minha variado tarta que estou tentando prever mas agora esse meu táxi em vez de ser uma variável discreta que tem
um número limitado de possíveis valores eu quero eu quero que ela seja uma variável contigo uma infinidade de possíveis valores que que eu poder botar como variável problema fazer o preço em que ele adquire um determinado serviço então cliente a comprou aquele serviço por 30 reais o cliente B comprou aquele serviço por 50reais que eu tô tentando prever agora o valor que aquele cliente está disposto a pagar para um determinado produtos viu que parece com a descrição Inicial mas mudou agora não é comprou não comprou 01 agora para você quanto ele pagou por aquele produto
bom então esse valor só tentando para ver como ele tem uma infinidade de possíveis valores passou então a ser uma tarefa supervisionado do tipo regressão E aí um exemplo Então seria a regressão linear suavização quer dizer muita coisa nesse contexto como você faria e dá um parque esse anunciado transformado tivesse com valor correto o aprendizado não-supervisionado eu poderia dizer por exemplo que eu tenho um conjunto de dados sobre os meus clientes mas eu não tenho a coluna destacados eu tô Apenas querendo por exemplo descobrir uma regra que associe o padrão de compras os meus clientes
em função de suas características eu queria ali então uma regra de associação que pegaria para cada cliente com essa um serviço que ele comprou Quais são os serviços mais prováveis ele vira comprar e aqui seria então um aprendizado não-supervisionado regras de associação que vamos ter um modo só para isso Ou então eu poder fazer eu vou juntar os meus clientes em subgrupos em que cada subgrupo vai ter cliente mais parecidos entre si aqui seria então não supervisionado do tipo agrupamento e eu com vocês virem essas questões de concursos já que são poucos exemplos tenta extrair
o máximo de informação delas então não faça apenas a resposta da pergunta mas tem tem ver o que que eles precisariam modificar no enunciado para tornar válido correta alguma resposta alternativa é e é cebraspe Petrobras 2021 tá vendo algumas questões desses concursos mais recentes Então os áugures aprendizado supervisionado partem de um conjunto de dados rotulados para fazer previsões sobre novos dados não rotulados o pai tão sector é uma biblioteca de código aberto utilizado para codificações de rotinas e aprendizado de máquina supervisionado ela oferece ainda uma série de ferramentas utilizadas no ajuste de modelos no pré-processamento
de dados para a Seleção e avaliação de modelos não tem a vida de uma questão mas era o caput e tem informações interessantes eu aprendi muito fazendo o que fazendo o Provas e Concursos sempre gostava de aprender por meio de questões comentadas e em direito é bastante fácil aprender desse jeito que tem um grande quantidade de questões que você consegue por meio de questões comentadas aprender muito do assunto em sensualidade é mais difícil porque o número dele de perguntas ainda é muito limitado Bom vamos lá é questão 64 estão no código a seguir descer juntos
free classf Fire é um classificador que recebe como entrada dois arreios uma Reis x maiúsculo e valores inteiros contendo os rótulos de classe para as amostras de treinamento e uma Rei Y spar sou denso contendo as amostras de Treinamento E aí ele por um código de saque for necessário Python usando esse aqui não é necessário para fazer isso então ele importa na biblioteca site fornece calor esses entre ele falou que seria do tipo de se juntou a classe Fire atribui as variáveis x com esses valores Y esse valor é tem essa variável classifica ele pega
o resultado desse Trio com o instanciando o objeto desse justificasse Fire tô fazendo filho que é o treinamento usando as variáveis x e y e pegando o objeto treinando e atribuindo para essa mesma variável grande pergunta certo ou errado então você pode tentar responder a isso com conhecimentos a crescer e aí você vem tem uma série de problemas aqui por exemplo não faz sentido você treinar o modelo e alocar o objeto após o treinamento de volta para a mesma variável os aqui planejar faz automaticamente para você ouvir se você treinou ele já modificou o estado
daquele seu objeto essa atribuição aqui já seria desnecessária só isso daqui já seria um erro não seria um erro sintático Mas seria algo desnecessário que ninguém faria isso na prática esse código insiste errado mas eu não precisa necessariamente uma compreensão do código de saque plano para entender que é um problema conceitual aqui e o que é que a gente está querendo utilizar então é uma classificação em que o algumas Convenções né em geral de ciência de dados especificamente de sector e que o arreio x maiúsculo é o rei das variáveis independentes e um vetor Y
é o vetor dos das dos tablets no setor dos rótulos é um vetor com o único valor por observação então aqui já faz essa mistura ele fala do Array x de valores inteiros contendo os rótulos de classe ó e aqui cara mente então isso aqui seria a sua variável tarde outros de classe mas já atribuiu para a variável x que normalmente não é a convenção a começar pelo Y daí então também conhecimento isso aí que ter mas vamos sair do lado e finalmente ele fala do Array y espaço hourenso esqueçam que isso contendo as amostras
de Treinamento O que que você tem aqui o enunciado ele inverteu a ordem do que escreveu aqui no próprio código aqui o Y e só tem dois possíveis valores 0 e 1 na primeira observação ela tem o rótulo 0 a segunda observação tem um rótulo um já que o x na primeira observação e vem dois valores seria variável independente mim que é zero vai olhar independente dois que é zero Nem na segunda linha ele também tem essas mesmas duas variáveis Independentes a variável dependente um que seria falou um a variável dependente dois que seria valor
também bom então esse xista escrito em código corretamente como sendo a matriz das variáveis independentes e o y em código também tá correto que é o vetor dos rótulos tentando prever uma classificação é uma categoria 01 é mas na descrição ele inverteu ele falou que o x conferir os rótulos de classe e na verdade é que você tem grande com a quantidade maior de dados e no Y ele tá falando essa morte de treinamentos Então na verdade o y ele tem os votos e o X Ele tá tendo as a morte de Treinamento como você
viu que a classificação é prever uma variável target que tem o número limitado de possíveis valores você vê que o y e a variável target está em Cristo em código corretamente aqui com são possíveis valores 0 e 1 sim ou não mas tá errado na descrição aqui do enunciado da questão então a questão como todo está errado a devida essa essa incompatibilidade na descrição do que seria a região de y e o código mas você já consegue matar isso simplesmente entendendo que sendo uma classificação à variável tá gente tem que ter um número limitado de
possíveis valores aí você vai olhar o time tem y01 certinho mas aquilo e fala que o ar e y é as amostras de treinamentos Oi e aí o Y não não haja mais treinamento só tem dois valores aqui com os planetas duas linhas uma única variável e enfim eu botei aqui que eu acho que ele se encaixa bem dá para matar só mesmo conhecendo o que é classificação Mas é óbvio que quanto mais se tiver conhecimento disso aqui Thriller imagem esse código faz sentido e vamos ver isso aqui em módulos posteriores Ah então tá errado
devido às cenas esse descompasso entre a descrição do que seriam as variáveis e aquilo que está escrito no código Lembrando que a variável tarde esse com a classificação ela pode comprar apenas um número limitado de possíveis valores mas no caso aqui no nosso time tem Y ele tem apenas valores 0 e 1 só mais uma pergunta da Petrobras a classificação de imagens é um método de aprendizado não supervisionado no qual se aplica o modelo de treinamento para o reconhecimento de padrões gráficos presentes em amostras de imagens certo ou errados É eu sei bem mas não
falei para frente nada do que seria a visão computacional classificação de imaginando isso mas você já consegue matar essa pergunta e ele fala classificação um do que quer que seja se for uma classificação é um tipo de aprendizado supervisionado Então você já tem o conhecimento para treinamento em qual categoria É cada uma das suas observações só que você tem imagens e você quer classificar por exemplo em três categorias categorias A B e C então para cada imagem dos seus dados e treino tem que dizer aquela imagem era o tipo ah Aquela imagem não Tipo 1b
ele se usa isso para servir de guia ou de supervisão para o processo de aprendizado e com isso conseguir um algoritmo que vai modelo que vai prever Qual é a categoria de uma imagem qualquer bom então essa questão está errados bom então agora recapitulando e mostrando os elementos e Como avaliar uma classificação bom então tem uma grande quantidade de possíveis métricas em outro módulo chegar o próximo módulo inclusive sobre Matriz de confusão fazer algumas outras métricas mas é importante dentro da categoria conceitual de classificação tem uma noção de qual é a métrica mais usual a
mais comum métrica para a classificação é a taxa de acerto ou acurácia lembra daquele anunciado por mencionei no módulo de exemplo na questão discursiva do TCO eu tinha lá um enunciado que falava de cartas balanceadas mas mostrava uma matriz de confusão em usava com o métrica a precisão Isso aqui é uma outra métrica lá curasse que a médica padrão que diz apenas a taxa de acerto o quantas previsões se acertou em relação ao total de previsões que você fez não se você fez mil previsões e você acertou frases 700 dela então você tem que ser
o poder certo trinta por cento de erro já curasse a América mais simples de se imaginar mas ela tem suas limitações como a gente viu no exemplo de classes balanceadas se você mede por precisão um buraco graça o resultado em classes desbalanceadas da não vai ser adequado porque o bicho balanceamento das classes permite você tenha uma precisão muito alto ou uma curasse muito alto com o modelo seja de baixa qualidade E no caso de classificação tem um dos casos mais simples em que a que está tentando classificar a variável target só tem dois possíveis valores
vai chama-se nesse caso específico classificação binária tem que só tem dois possíveis valores nessas classes alternadas né mutuamente exclusivos elas possam representado em diversas formas 01 verdadeiro verdadeiro ou falso homem ou mulher não são são exemplos em que você só tem número Duas possíveis resultados para que a sua variável tarde mas você pode ter classificação é que o número de possíveis valores é muito grande Você pode ter uma por exemplo classificar um determinado contribuinte em 20 patamares de renda seriam a classificação prever a renda do contribuinte em função das suas outras características seria uma regressão
e finalmente vamos falar em um módulo específico que é matriz de confusão mas a matriz de confusão é um instrumento mais facilmente utilizável para interpretar os resultados de um algoritmo de classificação Então o que é que é uma matriz de confusão e é uma tabela de números em que cada linha representa as ocorrências da classe verdadeira tá chovendo resultado correto e cada coluna que eu escrevi errado né cada linha e cada coluna as ocorrências da classe permita Então você vai ver uma entrada células na tabela é uma interseção de uma determinada coluna com a determinada
linha você vai ver tem uma célula que tem o número sem quer dizer que essa célula ela teve um certo número é dele sem ocorrências em que ela previu alguma coisa na coluna e na verdade era aquela linha e o que você quer ver mente é que o seu modelo três veja massivamente aquilo que é o correto nós vamos ter um modo só falando de Matriz de confusão para reforçar isso tudo então esse aqui encerra o básico do que a classificação EA diferença entre classificação e regressão E aí E aí [Música] e eu vi que
não teve perguntas por favor façam perguntas isso me dar um feedback do nível de compreensão que vocês estão vendo já vamos então para o próximo módulo sobre Matriz de confusão E aí [Música] e agora o módulo sobre Matriz de confusão Vocês precisam ter entendido o módulo anterior sobre o que é uma classificação EA Matriz de confusão é uma ferramenta de Diagnóstico dos erros de um classificador você tem um modelo de classificadão de classificação também pode chamar de classificador então o seu classificador e vai estar prevendo categorias a que as categorias que tá prevendo podem ser
as corretas o podem ser categorias inadequadas como você ter é um aprendizado supervisionado Você já sabe qual é a classificação correta você comparar a classificação correta com a classificação gerada Pelo modelo de comparando as duas vai ter momento que o modelo a certo mas não é caminhão modelo é ruim mas aí você vai olhar o padrão e com os erros estão correndo nessa Matriz de confusão e com isso e consegue ver fazer um diagnóstico dos problemas no seu modelo Bom vamos lá então o estão é entrando mais em mostrando mais concretamente né o que eu
já tinha mencionado seu Matriz de confusão então a matriz de confusão é uma tabela de números em que cada coluna correspon-dente se corresponde a um número de ocorrências previstas pelo seu pelo seu modelo e cada linha corresponde ao número de ocorrências que realmente é aquela categoria você pega por exemplo esse número 12 ele é intercessão da coluna valor previsto negativo com a linha valor real negativo como é que interpreta isso quer dizer que teve 12 exemplos em que o seu modelo previu que era negativo e realmente era negativo é A briga a interpretações simples né
quando fica claro a diferença entre as colunas e as minhas então aqui por exemplo o número 5 a célula ontem o número 5 e ela tá na interseção entre a coluna valor previsto positivo e a linha valor real negativo nesses cinco aqui são exemplos de erros em que o seu modelo previu que era categoria positiva mas na verdade era categoria negativa tá falando cinco erros é que você afirmou o seu modelo afirmou que era positivo mas na verdade era negativa o três é o inverso nisso o seu modelo previu que era negativo mas na verdade
era positivo e finalmente esse 10 tá na interseção da coluna previsto positivo e da linha real positivo também são aceitos são 10 acertos e que Ele previu que era positivo e realmente era positivo eu tô com a gente viu a definição que era acurácia o taxa de acerto você vai somar todas as células da sua matriz correspondente aos acertos dividir pelo total de previsões foram feitas então que quem seria os acertos são os negativos previstos negativos verdadeiros negativos e os previstos positivos verdadeiros positivos mais 12 mais 10 sobre o total de previsões 12 mais 10
mais cinco mais três então totais 22 sobre 30 ou 70 e três por cento uma parte dessa Matriz de confusão você consegue dizer que o seu modelo acerta na média 73 por cento das vezes é mas cada uma desses dessas células tem um nome próprio nesse caso de Matriz de confusão binário não se você tem essa interseção entrevista O negativo e Veda e valor real negativo essas células chama-se verdadeiro negativo de forma similar nessa interseção da coluna verdadeira é previsto positivo e a linha real positivo Você tem o verdadeiro Positivo e aí você tem os
dois erros Você tem o erro em que o modelo previu que era positivo mas não era Na verdade era negativo essa aqui fechar o dá um nome de falso-positivo você não deve ter um visto esse nome falso positivo né mas deixaram Claro qual é o significado dele é aquele que você previu como sendo positivo mas não era se você tem um falso negativo aqui que você previu como sendo negativo mas não era na verdade positivo bom então esses dois tipos de eu podem ser equivalentes da sua aplicação pode o que você tá querendo é errar
o mínimo possível na média aí você se foca em acurácia Mas pode ser que haja na sua aplicação custo diferentes entre o falso-positivo ou falso-negativo mas exemplo clássico disso é por exemplo para testes médicos uns você cria um teste para detecção de câncer considera-se positivo quando o teste detectou a presença de câncer ou seja ele levantou a bandeirinha Teve alguma coisa então isso aqui é o sinal positivo quer dizer que o Danette tercan seja algo positivo sentido benéfico né O positivo apenas a presença daquilo que estava sendo procurado e o negativa não houve a presença
daquele que estava sendo procurado eu não teste de detecção de câncer um positivo quer dizer o câncer foi detectado Você tem dois possíveis erros é um erro é o seu teste pegou uma pessoa que não tinha cansa e disse que ela tinha cansa isso aqui é um falso-positivo ou então o erro foi o seu teste foi aplicado uma pessoa que realmente em casa Oi e o teste falou que ela não tinha então isso aqui é um falso negativo Agora pensa em do ponto de vista médico esses dois tipos de erro ele tem consequências diferentes se
você fala para alguém que tem câncer que ele não tem cara tá aliviada tá feliz vai voltar para casa dele vai esquecer nisso a continuar sua vida até que novos sintomas apareçam quando o câncer tiver mais avançado E aí o tratamento vai ser muito mais difícil mas é impossível então um custo do falso negativo de dizer para quem tem câncer que ele não tem é maior do que o custo do falso positivo de dizer para alguém que não tem câncer que não é verdade que ele teria câncer ruim antes você fala que tá você fala
ruim a minha que ele teve câncer para ele vai começar algum tratamento fazer um monitoramento e fazer outros testes E aí no decorrer dos outros testes você pode descobrir nada ele não tinha câncer suspender o tratamento e moramos um pouquinho o tratamento ele é muito/pesado tipo amputa um membro nesse caso Talvez um falso positivo seja mais graves que um falso negativo Então você tem que ponderar na sua compreensão do negócio a importância relativa do falso positivo do falso negativo para descobrir então o que que é importante Se você Minimizar Esse é o erro total aí
accuracy adequado ou se está tentando reduzir um falso positivo aí vamos ver uma métrica específica para isso você tentando reduzir o falso negativo já tem uma outra médica específica para isso a gente então você tem que ver que há uma relação entre a matriz de confusão que é um mecanismo de Diagnóstico que te ajuda a interpretar como os erros estão ocorrendo depois até sua interpretação de negócio que vai dizer Beleza o que é que é mais importante o menininho em termos de erro é mais importante o minimizo falso positivo que eu minimizo e em função
então dá importância para o seu negócio você vai usar uma métrica que prioriza a redução daquele erro que é o mais grave para você então na naquela questão do discursiva do TCU sobre classes balanceadas e vamos pouquinho positivo sinal positivo seria encontrei um erro então aquele nosso algoritmo que tava naquele anunciado ele nunca dizia positivo e sempre dizia negativo não há erro nenhum aquela peça perfeita na verdade não algumas delas eram falsos negativos é o que você não quer que eu ver ocorra você Até aceitaria perder algumas peças corretas dizendo que as formas defeituosos que
você não queria naquele momento era aceitar uma Peça defeituosa como se correta ela força que isso pode gerar uma série de outros problemas consequência com os seus clientes com que estava querendo naquele caso em classes desbalanceadas era Minimizar ou falso-negativo vamos ver que métrica permite focar em falso negativo para conseguir minimizá-la e cada mente não é a curasse não é precisão vamos dar uma olhada nas mais para frente exemplos Mas agora vamos focar em como usar Matriz de confusão e para resolver questões simples de concurso que conceitualmente é muito simples e ainda assim dá para
fazer algumas questões interessantes e vamos aqui para o questão Cesgranrio Banco do Brasil 2020 um ao tentar resolver um problema de aprendizado de máquina que separava um evento entre duas classes no desenvolvedor encontrou uma curasse de exatamente 90 porcento analisando a matriz de confusão o desenvolvedor constatou que os verdadeiros positivos era 14.000 quebrados que os verdadeiros negativos eram 15 mil os falsos positivos eram 15 mil e os falsos negativos eram e ele pede que você que tem um calcule qual seria os falsos negativos nas opções em 1798 até 1782 bom então como é que se
resolve isso é um monte de informação e você imagina que deve ter alguma dependência entre esses números você pode tentar memorizar números memorizar fóruns eu não recomendo trabalho assim se você conseguir memorizar ótimo memorize o que eu recomendo é que você tem que sempre voltar para os conceitos básicos fundamentais aqui no nesse caso você construir a matriz de confusão é pura esses números vão começar a fazer mais sentido Então como vamos começar a construir a matriz de confusão Então o que é matriz de confusão ela é o encontro entre as colunas de valor previsto e
as linhas e valor real e aí são basicamente duas opções e não falou positivos e negativos mas aí falou nos enunciados verdadeiro positiva ou negativa Então você põe lado negativo e positivo Então vamos preencher Então essas colunas ele falou aqui que você tinha verdadeiros negativos 15360 uma verdadeira negativo é que previsto negativo e era realmente Negativo você põe 15360 aqui dentro tem uns verdadeiros positivos 14169 então encontro de coluna previsto positivo com linha real positivo 14169 e tem um falso positivo 1501 que que eu falso-positivo preview positivo mas não era a verdadeira Negativo você põe
o 1501 aqui dentro de você tem três células preenchidos e o que eles querem que você tem que ser diga é qual é o número de falsos negativos Então esse x aqui estão como calcular o x usando as informações presentes na matriz não é suficiente mas não tem mais de uma informação tem que a curasse foi de noventa porcento como esse cálculo acurácia acurácia é a soma dos acertos na número positivo mais verdadeiro negativo dividido pelo número total de previsões que é o soma de todos esses números Vamos botar a fórmula aqui da Croácia é
um acurácia verdadeiro positivo para fazer o negativismo pelo total é igual a 90 porcento tá anunciado vendo ele positivo 15260 verdadeiro negativo desculpe a de negativo 15060 dele positivo 14.000 sobre o número total é isso aqui tudo e aqui entra no nosso X eu não sei simplifica isso tudo aqui eu já já fiz a inversão da 15 mil mas 14.000 29 mil e aqui somando tudo isso vai dar 31030 + x E aí eu multipliquei os dois lados da equação por isso então ficou aqui no numerador agora e Eu dividi todo mundo 0.9 então ficou
29.529 vendendo por 0,9 é igual ao nosso x mais 31030 nem a parte mais difícil no medicamento é fazer a divisão de 29.529 por 0,9 uma calculadora é trivial senão cês vão ter que aprender a fazer essas divisões na mão é isso aqui da 32810 - 31.000 da 1780 Então essa questão aqui eu achei achei ele interessante ponto de vista conceitual que ela te permite tornar óbvio que você consegue a partir de uma matriz de confusão parcialmente preenchido é uma métrica inspire algum valor faltante da Matriz de confusão em função da sua métrica mas ela
tem um grande defeito que ela exigiu fazer cálculos numéricos que eu acho que não não trazem absolutamente nada de relevante que no mundo real você não vai tá fazendo isso que cálculo numérico manualmente Mas enfim viram que conceitualmente relacionou a métrica com a matriz de confusão eu vou aproveitar esse exemplo para trazer um pouquinho mais de nomenclatura então eu falei para vocês que o falso-positivo ou falso-negativo são os dois tipos de erro que já tá tentando minimizar o pessoal de estatística ele juro um outro nome para esses falso-positivos e falso-negativos o falso positivo eles chamam
de erro do tipo 1 e o falso negativo eles chamam de erro do tipo 2 eu nunca gostei de sua nomenclatura sempre ficava em em confuso entre o que que era tipo um quê que era 52 já o próprio nome falso positivo e pênis eu falei que era positivo mas eu errei não era positivo a negativo então fica mais claro no nome falso positivo saber o que que é já erro tipo 1 e tipo 2 é básicas uma convenção que você precisa memorizar erros tipo é o falso positivo eu tipo 2 o falso negativo é
bom que você conheça as duas nomenclaturas é a parte das provas para cientista de dados tende a usar A nomenclatura fotos de falso-negativo e a maior parte das provas na Perspectiva estatística atende aos A nomenclatura erro tipo 1 e tipo 2 1 o dito isso vamos ver que outras métricas a gente pode calcular sobre a matriz de confusão que sejam interessantes para destacar algum tipo de erro que a gente queira Minimizar então aquele nosso enunciado lado da questão discursiva do terceiro falava de precisão O que quer dizer precisão tem a fórmula isso daqui eu acho
difícil lembrar da forma que que eu consigo lembrar bem a lógica do que a precisão é a proporção de previsões positivas corretas Isso é o que você precisa a meu ver você precisa memorizar precisão é a proporção de previsões positivas corretas o que que são previsões positivas é tudo aquilo que você previu como sendo positivo é isso daqui e essa coluna daqui é a das previsões positivos dentro dela você vai ver quais são as corretas que o verdadeiro positivo dividindo pelo total de previsões positivas feito pelo seu modelo então é a soma do próprio verdadeiro
positivo com um falso positivo e de uma precisão ela se Foca no positivo no no caso aqui seria na na peça defeituosa naquele enunciado de do TCO só que na peça defeituosa no caso lá tô usando aqui A nomenclatura invertido em relação a lógica daquele anunciado naquele anunciado ele botava ele entendia como você negativo a peça defeituosa e positivo Como será a peça correta se você sempre entender da leitura do enunciado Como está sendo feito um mapeamento em geral consulta de tentando detectar alguma coisa eu tô tentando e dá uma peça defeituosa eu digo um
positivo a presença daquilo que eu tô procurando detectar mas aquele outro enunciado ele entendeu como sendo Positivo tá funcionando negativo não está funcionando ou tá defeituoso mas então então a precisão ela pega uma proporção de previsões positivas corretas que naquele caso era acho que era 760 peças que realmente é um eram luz e quarenta e eram eram peças defeituosas mas estão sendo previsto com seu bolso então a precisão era 760 / 800 que dá fez 95% você tem uma precisão muito alta mas com 100 porcento de a ser no erro na classe minoritária de peças
defeituosas já se ele tivesse utilizado a sensibilidade olicol que uma outra métrica que foca em e são de positivos corretos O que quer dizer positivo correto então a proporção de positiva que que realmente é positivo não seria essa linha daqui o Tom a proporção de positivos corretos e quantos verdadeiros positivos dividido pelo número total de coisas que eram positivos coisas que são verdadeiramente positivas e tenha sido prevista ou não então é o verdadeiro positivo mais o falso negativo mas aqui a fórmula para sensibilidade ou inglês Recall proporção de positivos corretos você calculasse a sensibilidade daquele
teste para peças defeituosas a sensibilidade Ali era 0 e não era ser uma era não é isso era zero quantos verdadeiros positivos seja positivo no sentido não deixa eu ver aqui tô confundindo porque eles não seguiram aquilo que era o padrão né então o positivo Era peça boa e O negativo ela peça defeituosa então aqui é sensibilidade era a quantidade de peças boas consideradas boas e aí você tenha 760 beleza sobre o número de falsos negativos que era o número de peças que foram previstos como defeituosos na que na verdade era um bolso nem um
preview nenhuma peça como sendo defeituosos então aqui daria uma sensibilidade E é aquele desculpa eu acabei me enrolando aqui nesse negócio de o que que era peça positiva o que ela positiva e Raça essa boa e que era era peça defeituosa Então vamos guardar no caso a precisão deu aquele valor que os dez 95% porque simplesmente não é via falso não havia falso-positivo havia havia falso-positivos mais uma cuidado muito pequena não precisa ansiedade 95 por centro enquanto que Ellie no sensibilidade teria dado um valor muito menor pelo fato é que eu dependo desse mapeamento não
é do que a festa boa positiva e o que que a passando negativo com negativo mas então o que você tava querendo Ali era reduzir a quantidade de vezes em que você dizia que a peça era boa quando Na verdade era defeituoso que seu pior problema nessa detecção de defeitos essa deixar passar um defeito bom então gerar um problema no resto da sua cadeia de produção ou entregar para o cliente final uma peça defeituosa sem ter se dado conta ali então dessas duas médicas sensibilidade e precisão você pode fazer uma combinação das duas será a
média harmônica entre precisão e sensibilidade quem não lembra mais nada de matemática no ensino médio a média harmônica é que dividido pela média harmônica é igual a um dividido pela primeiro valor mais um dividido pelo segundo o valor é meio que a média dos inversos e o que que a média harmônica faz ela faz com que o valor seja mais elevado Quando os dois valores estão próximos todos os valores são muito diferentes o valor da média harmônica é menor bom então quando você calcula uma média harmônica entre sensibilidade e precisão você vai ter um valor
mais alto se o falso positivo parecido com um falso-negativo se de um falso positivo muito diferente o falso negativo a média harmônica entre precisão e sensibilidade Vai ser menor a essa média harmônica dá o nome de dá-se o nome de F1 score e se calcula se quiser falar média harmônica dessas duas formas vai dar duas possíveis outras formas é ou duas vezes a precisão versus vezes a sensibilidade dividido pela precisão e sensibilidade o osso será diretamente os valores na matriz de confusão é o total de vela desde positivos dividido pelo lado positivo mas a média
entre o falso-positivo ou falso-negativo F1 score você entender e essa média harmônica de precisão e sensibilidade e que logo um entre os cor elevado mostra que tanta sensibilidade conta eu estou em valores próximos e elevados em uma média harmônica baixa sim sinalize que há uma diferença entre a precisão EA sensibilidade ou então As duas são iguais na com valores muito baixos bom e é se puderem facilidade em memorizar fórmulas tente memorizar essa forma caso não lembre apenas do que é a sensibilidade proporção de positivos corretos a precisão proporção de positivo previsões positivas corretas e se
consegue recalcular o f-score como se essa média harmônica entre os dois Oi ok e curtam fez ver que essa parte de métricas ela é meio chatinha porque você precisa ter muita precisão sobre o que é que ela foi positivo que aqueceu negativo entender o a partir da Matriz de confusão e lembrar mais ou menos do que cada um desses conceitos significa precisão proporção de previsão positivo sensibilidade proporção de positivos o ok usa o score a média harmônica entre precisão e sensibilidade é continuemos então falamos da Matriz de confusão no caso binário e a gente também
tem a matriz de confusão com múltiplas classes tão bom mostrando aqui um exemplo com três possíveis classificações tem a classe ABC ajudante da Matriz de confusão que agora é uma atriz de três por três então é importantíssimo que você conseguir interpretar perfeitamente essa Matriz que você tem dizer o que quer dizer essa célula com o valor o valor um quer dizer que houve um ocorrência em que o seu modelo previu que era a classe a coluna mas na verdade era classe C o Japão é por dois quer dizer que Ele previu que era classe B
mas na verdade era a classe se você não precisa ser capaz de interpretar cada uma dessas células como sendo encaixe entre a coluna com a previsão feita pelo seu modelo versus a linha que seria o valor correto daquela categoria para aqueles aquelas observações então o movimento é partir de uma matriz de classificação O que que você deseja maximizar se gostaria que o máximo de ocorrências estivessem presentes nessa diagonal daqui que aquela que bate se a classe prevista com a classe real então qualquer coisa esteja nessa diagonal é um acerto qualquer coisa que esteja fora dessa
diagonal é um erro o que você quer que tem um mínimo possível de erro seja o mínimo possível de valores fora do diagonal e o máximo possível de números de dentro de Federal vocês vão poder rapidamente olhar uma matriz qualquer roupa esse meu modelo Tá bom então mal e está errando de tal jeito vamos ver agora uma aplicação disso no início desse ótimo concurso da Petrobras Então olha só para a matriz de confusão você tem três categorias legumes hortaliças e fruta Então você tem você vê aqui na nesse seu rótulo que tá aqui valor preditivo
aqui são as suas colunas e nessas linhas Você tem o valor apurado Você tem uma convenção que frequentemente é respeitado Mas pode ser que foi anunciado inverta a ordem e ele põe o valor previsto nas linhas e o valor real nas colunas as tem que adaptar mentalmente essa essa mudança né mas o padrão em geral é o previsto na coluna e o valor real na linha mas não é o nosso portal da Matriz de confusão fazendo a é a inversão na de sacolão da coluna por mim mas então uma olhada assim muito rápido eles estão
mudando é muito bom ele tem um total de observações com um grande número de observação já matriz da Diagonal que eu acerto entre imprevisto e o valor real e só teve quatro erros em que Ele previu que era uma fruta mas na verdade é uma hortaliça Tudo bem então é fácil entender o que que essa Matriz de confusão significa apesar de parecer trivialmente simples ou recomendo para vocês enfaticamente que treinem a interpretação essa Matriz de confusão Olhe na por exemplo para cada um dos dessas células aqui e consigam dizer com a maior tranquilidade que que
significa fazer esse quatro daqui significa o quê que houve de todas as previsões que você fez quatro delas se previu que era a classe se mas na verdade a classe B o ok volta agora para você no sábado e é Petrobras 2021 a matriz de confusão a seguir apresenta três rótulos de classes os elementos diagonais representa o número de pontos para os quais o rótulo previsto é igual a roça do verdadeiro enquanto qualquer coisa fora da Diagonal teve um rótulo atribuído erroneamente pelo classificador quanto menores forem os valores diagonais da Matriz de confusão melhor o
modelo adotado certo ou errado é um hábito em geral né de interpretação de enunciados e concurso para o cebraspe confidente fica Quais são as afirmações feitas no enunciado então começa e o que que tá sendo afirmado nesse anunciado então pra cá em cada frase quase uma afirmação né então que eu pintei as diversas afirmações então primeira afirmação ele fala que mata de confusão representa três rótulos tem apresenta três votos de classe está certo legumes hortaliças e fruta são os 3 rótulos ou as três categorias da variável só tentando para ver então essa parte amarela que
está correto a parte verde os elementos diagonais está aqui e eu também tenho outra diagonal que seria essa né mas em geral que você fala de elementos diagonais seria se esquecer a primeira diagonal que seria segunda diagonal enquanto está olhando a matriz de confusão só te interessa primeira diagonal alguns elementos diagonais representa o número de pontos para os quais o rótulo previsto é igual a rota do verdadeiro perfeita a definição praticamente né do que seria essa diagonal o preview legume era legume três exemplos e é cinco tem que ser afirmação qualquer coisa fora da Diagonal
teve um rótulo atribuído erroneamente pelo classificador bem-feitos você pega esse número 4 aqui e dá fora da Diagonal Ele previu que era fruta mas na verdade era hortaliças Então esse daqui é um erro do modelo Então essa essa afirmação aqui em azul está correta também finalmente essa última afirmação quanto menores forem os valores diagonais da Matriz de confusão melhor o modelo adotado e aqui tá o problema é seus valores dessa valor dessa Matriz de valores diagonais da Matriz São aquilo que você quer que tem um máximo de observações era de quanto maior foram os valores
diagonais melhor modelo ou então quanto menores os valores das diagonais pior modelo Então essa quarta e última afirmação está incorreta e por causa disso foi anunciado Como tu está incorreto o ok então vocês viram como uma matriz de confusão apesar de ser uma tabela que é relativamente simples conceitualmente ela se permite fazer uma série de cálculo sobre as métricas a identificação dos erros saber que métrica adotar para privilegiar um erro em detrimento de um outro erro O que é muito importante que você sejam capazes de interpretar facilmente uma matriz de confusão para saber o que
que ela revela sobre o padrão de erros do seu modelo que você quer que ele tem um máximo de valor na diagonal mínimo de possível de valores fora da Diagonal o ok então com isso é terminamos o módulo de Matriz de confusão e [Música] em volta daqui então já ultrapassamos um pouco nosso horário lamento eu tenho dificuldade em respeitar perfeitamente os horários Mas então terminamos agora o que seria a primeira aula e o próximo a aula vai ser então na próxima terça-feira e é também nesse horário de 8:30 meio-dia Daí vamos continuar com regressão com
modelos primitivos e os primeiros modelos modelos lineares árvore decisão é etc e as peças tenham gostado por favor Tragam suas dúvidas eu espero que continue assistindo as próximas aulas na terça vocês vão ver que um ritmo relativamente intenso tá começando assim bem lento e pouco técnico Mas vocês vão ver que mais para frente o nível de tecnicismo vai aumentar mas eu espero tentar tornar isso mais palatável possível E então olhando aqui para as perguntas é o Carlos Henrique Professor esses cursos da passagem plataformas de programação vale a pena para concurso aí é muito subjetivo eu
acredito que não porque Então depende muito assim uma circunstância você gosta muito do assunto se você quer se aprofundar e sem um especialista aí ótimo você aprende profundamente o assunto depois você faz umas provas de concurso para D com esse assunto sendo cobrado no concurso e aí você aproveita o seu conhecimento e não achei melhor nem para mapeá-lo na forma como concurso cobra e aí é um meio que o ideal mas o ponto de vista custo-benefício aí eu não acho que seja um aborto porque em geral esses cursos de Linux né ele está ainda tem
uma carga horária gigantesca E você ainda não vai fazer esse mapeamento para concurso Então vai depender muito do seu tempo e seu nível de interesse lembrando né que a vida de concurseiro infelizmente é estudar uma grande quantidade de coisas que se interessa eu não é o seu tempo vai ter que tava fatiado em um monte de assunto e eu acho que o assunto imaginou necessidade é muito interessante mas ainda assim você não pode gastar tempo demais com ele então responder essa pergunta caso você tiver muito tempo interesse sim essas plataformas esses cursos e tem vários
livros são ótimos para se aprender o assunto profundamente sempre a melhor forma de aprender o meu ver desenvolvendo projetos Então faça um curso desses faça um projeto sair você entende muito do assunto Depois faça esse mapeamento de como os concursos cobram assunto mas tem que colegas com bastante experiência em machine learning que ainda assim não conseguiram gabaritar essas provas porque porque estão cobrando conceitos que na prática raramente é um pedidos e aí ele perdeu isso as vezes ele viu uma nuance que na prática relevantes mas num nível conceitual do que a banca tava pedindo era
uma nuance muito Sutil que a banca não tava considerando aí vi um defeito mas na verdade não ser um defeito aquela questão é só por causa disso se o seu foco é apenas otimizar sua produtividade enquanto concurseiro a minha recomendação é não faça esses cursos para programadores em looks se você tem interesse maior pelo assunto e mais disponibilidade de tempo faça aprenda ainda mais profundamente isso e depois faça a questão de concurso Ok quando a alma está disponível no site na minha experiência menos uma semana às vezes 2 3 meses é muito obrigado pelo feedback
positivo pessoal é assim eu já vi esse esse assunto será apresentado de uma forma tão ruim que o que fazia era uma confusão mental gigantesca na cabeça dos alunos eu tô tentando Trazer isso da forma mais palatável e assimilável por vocês mas se tem uma coisa que ela não seja ficando Clara por favor a ponta em e eu vou tentar fazer umas correções melhorias nos próximos módulos o que tem uma pergunta do Renato ele fala de lift nicho então é uma métrica de desempenho ela não tá nas métricas mais frequentemente citadas Nos programas de os
conteúdos dos concursos que eu já vi então ela não tá no meu no meu conteúdo aqui você pode dar uma olhada né da definição do que lift comparar com as informações que estão presentes na matriz de confusão e ver que sim dá para se calcular o lixo da partida aquela que lhe são dados É mas eu não vou abordar o que que existe nesse nosso escopo a Ah beleza então Rogério você falou então das métricas que foram abordados aqui eu não abordei todas as métricas né eu abordei as mais simples que podiam ser diretamente entendidos
a partir da Matriz de confusão vamos ter um outro módulo só subir métricas que eu fazer algumas outras métricas que são relatos frequentemente citadas mas que não estão no escopo da Matriz de confusão a Itália Já respondeu um prazo até cinco dias para publicar a gravação no site Beleza caso Antônio meus contatos Então eu acho que é melhor contato para mim é Pelo telegram então vocês faça uma pesquisa no telegram por Vip ler em bsb Brasília pedir para o PSB e vai aparecer o grupo que eu ajudo a organizar de cientistas de dados especializado em
machine learning Deep learning que em geral desenvolvem aplicações para administração pública mas não é fechado nessa mesmo que você não trabalha administração pública você já pode participar do grupo acompanhar que estamos sendo foi e tirar dúvidas com os especialistas falar sobre os dados que tá utilizando tipo de modelos sejamos ver que uns desafios na administração pública que tá todo mundo fazendo coisa muito parecidas o e áreas diferentes e aí tem essa maldição que eu vejo na administração pública é todo mundo reinventando a roda de uma forma independente que a gente tenta fazer essa comunidade é
fazer uma camada de troca de experiência entre cientistas de dados e tal forma que importa é aproveitar aquilo que o outro já descobriu tanto em Como utilizar uma base de dados comum quais os melhores algoritmos em quais circunstâncias então é uma boa mesmo Dipirona em Brasília ou Dipirona em bsb lá no telegram Obrigado Cristina A e dublado do feedback essa prova da CG Rua ela teve um benefício né que ela quando comecei a ministrar a prova da CG ou a gente já tinha feito a prova objetiva do TCU então consegui rechear o curso das egeo.com
questões mais difíceis do que no curso do TCU e que a gente não tinha ainda essas questões mais difíceis né gente tinha um conteúdo programático mais difícil mas ainda não tinha as questões que eu responder daquele nível agora para você nesse curso regular vocês vão ter as questões mais difíceis do TCU da seju da Petrobras Então acho que nós temos um curso ainda mais rico o que mais Eu acho que eu peguei as questões principais nasceu por acaso por lei alguma pergunta que você achar importante joga de novo a Lúcia Fernanda que ele trouxe os
carros que ele fez de vela dele positivo é falso negativo tem uma vez que você fica isso exatamente que é verdadeiro o que que é positivo e negativo a segunda aquelas fórmulas o aquela compreensão no que é sensibilidade e e o que é precisão e você chega as medidas certinhas O problema é que eu tenho agora de memória que eu não me lembro bem como é que foi a associação entre o que que aquelas positivo negativo e o que que era classe peça defeituosa ou peça boa mais uma vez que você tem esse mapeamento corretamente
Com base no enunciado aí dá para dizer exatamente que a precisão não era médico adequado mas que a sensibilidade olicol permitiria detectar o fato daquele modelo não ser bom o modelo lado da questão discursiva do TCU e assim então eu acho importante a gente entender os conceitos mas também não tem como fugir totalmente de memorização algumas definições básicas e por exemplo o que é que uma métrica eu acho que você tem como ajudar lembradas mestre parte do suas das suas propriedades mas não tem como escapar totalmente de aprender a fórmula E aí vocês vão ter
que memorizar algumas formas de algumas métricas e vocês vem aqui se você só sabendo que a curasse que eu mais importante né a taxa de acerto na proporção de previsões corretas sobre o total de coisa que você previu já é setenta por cento do caminho dado depois as outras métricas e tem um retorno marginalmente decrescente em que médicos são cada vez mais complexos mais de uso mais raro de menor incidência em concurso Vamos mostrar apenas as métricas mas o úteis mais utilizadas entre Minha experiência com a cientista de dados na prática e a minha observação
de questões cobrados em concurso beleza pessoal então o Renato da Matriz de confusão pode alguma forma ser associada a Interpretação da Matriz de correlação não é tão Matriz de correlação ela vai calcular uns cortes de correlação que mostra o quanto uma variável varia em função de outra variável é realmente diferente da Matriz de confusão a matriz de confusão ela ponta o número de ocorrências em que você previu algu e na verdade era outra coisa já é uma ferramenta de Diagnóstico na interpretação nos erros e um classificador a matriz de correlação ela pode ser calculado e
ela é muito importante para ver nas suas três variáveis como uma delas era relacionada com as demais então também é uma ferramenta de Diagnóstico importantes mas ela não é associado a classificação ela é associada a a variabilidade de uma determinada variável em função das outras variáveis estão saber por exemplo que a sua variável tem uma correlação de oitenta por cento 0.8 com avaliador 2 mostra as duas variáveis trazem muito da mesma informação Você podia trabalhar até descartar uma das variáveis não tem apenas uma delas já você tem duas variáveis que uma correlação baixa e o
que que significa o que as não estão relacionadas o que elas estão relacionadas de uma forma que não linear Eu acho que eu vou falar muito de coração acho que não eu vou falar intuitivamente em correlação mas eu não vou entrar muito em cálculo de correlação eu consegue secretaria mais um escopo do programa de estatística Se não responder o Renato não são matrizes totalmente diferentes que têm números correspondentes as coisas diferentes na bateria de confusão é ocorrências entre previsões e valores e valores reais e a matriz de confundir qual relação é a relação entre uma
variável e outras e os algoritmos serão abordados no curso sim vamos vamos ver vários então ih de três a quatro cinco são são algoritmo de cascas de árvores de decisão vamos falar de árvore de decisão eu não vou entrar muito em diferença do id três e quatro cinco porque eu acho que isso é que além da química cobrado nas provas que eu já vi nessa entender muito bem o algoritmo básico de árvore de decisão e a precisamos classificação que uma regressão a priori vamos falar o FBI growth não sei nem o que é isso e
não isso se tornando Mas então o início o conjunto de todos os modelos algoritmos que vão ser abordados no curso está presente naquela E aí e nessa Matriz contém o programa lá em cima nessa aqui ó e você vê que tem muita coisa né Vamos falar de modelos lineares regressão linear e logística as suas versões regularizados no e de laço knk vizinhos mais próximos na airbags árvores de decisão e as suas extrapolações na sua o seu usam são você consegue construir com a decisão que é guardando Force 2 hindus tem mas será que eu não
tô tentando ser exaustivo encontrado em modelos vocês vão ver que alguns concursos citam alguns outros modelos no anúncio no programa mas eu não vi questão focada neles e alguns usam um determinado algoritmo dentro das alternativas mas não é a alternativa correta o consegue isso aqui são os mais importantes aqui é importante você entender bem esses daqui e aí depois dependendo do seu concurso em função no que aparecer no seu enunciado você eventualmente compl eu lembro um algum resumo na internet do que que seria um algoritmo de sistema ideia básica do que seria esses mais raros
Eu acho que já seria suficiente que você precisa entender bem então esses mais comuns e acabar suas perguntas Então pessoal bom fim de semana para preservar o restinho de voz que me sobra e encerro por aqui a transmissão de hoje então espero revermos máximo no na próxima terça-feira pela manhã e que tenham gostado e tenho pego mais gosto por esse assunto que eu acho muito interessante vocês vão ver que ainda estamos em tecnicistas mas de passar ainda mais interessante na sua frente falou pessoal bom fim-de-semana e [Música] E aí [Música] E aí [Música] [Música]