A ideia que causou o nascimento da Inteligência Artificial

100.37k views5957 WordsCopy TextShare

infinitamente

A história trágica e maravilhosa da invenção que tornou máquinas capazes de aprender e desencadeou a...

Video Transcript:

Inteligências artificiais modernas não são programadas como um programa comum, porque ninguém conta para ela como, por exemplo, dirigir um carro quando parar num sinal ou quando atravessar um cruzamento. Nem como tomar cada uma das decisões estratégicas em uma partida de xadrez, quando avançar um peão ou quando mover um cavalo. Mesmo assim, elas são capazes de aprender.

Aprender coisas que seres humanos não poderiam ensinar e coisas que seres humanos nunca poderiam fazer. No centro da explicação de como isso é possível, existe uma ideia. Uma ideia que se formou ao longo de centenas de anos na mente de cientistas, matemáticos, psicólogos e filósofos.

Uma ideia que foi negligenciada por décadas, mas nunca totalmente esquecida. Essa ideia se entrela com a história de um gênio rebelde fugindo de casa, a grande caça por um planeta desaparecido e a incansável tentativa de entender o dispositivo mais complexo que nós já encontramos, o cérebro humano. Essa é a história das redes neurais.

[Música] O ano é 1935 e um menino é perseguido pelas ruas da cidade de Detroite, nos Estados Unidos, por uma gangue da vizinhança. Naquele dia, ele decide não correr para casa, talvez para evitar o seu pai, que podia ser tão violento quanto os meninos que o perseguiam. Em vez disso, ele consegue correr o suficiente para se esconder numa biblioteca.

O lugar era familiar. Seu pai o havia obrigado a abandonar a escola para começar a trabalhar e os livros daquela biblioteca eram seus únicos professores. Naquele dia, perambulando entre as prateleiras, ele encontra um volume do Princípia Matemática, uma tentativa de reconstruir a matemática dentro de uma linguagem lógica descrita por Bertron Russell e Alfred Whitead.

conta a história que ele ficou tão fascinado pela obra que só voltou para casa após ter terminado de ler todos os volumes massivos três dias depois. Em seguida, ele escreveu uma carta para informar Russell com urgência dos erros lógicos que ele havia encontrado lendo o seu livro e no final assinou seu nome Walter Pitt. Russell, que era considerado um dos matemáticos, lógicos e filósofos mais importantes do século, ficou tão impressionado com a carta que convidou seu autor para ingressar na Universidade de Cambridge, na Inglaterra, onde era professor.

Walter respondeu que, infelizmente, não podia aceitar o convite de Russell. Afinal, ele só tinha 12 anos de idade. 3 anos depois, descobrindo que Russell iria fazer uma visita à Universidade de Chicago, Walter Pitts fugiu de casa e viajou por quase 500 km para conhecê-lo.

Ele nunca mais voltou para casa. Sem terde morar e sem o básico de uma educação formal, Pitts viveria os próximos anos ao redor da Universidade de Chicago, entrando escondido em aulas e fazendo trabalhos manuais para se sustentar. Quando ele completou 18 anos, um dos estudantes da universidade o apresentou pro professor Warren Mculock.

Esse encontro acabaria sendo a razão pela qual o nome de Pitts é lembrado até hoje. Warren Mullock, de 42 anos de idade, era um respeitado e excêntrico professor de neuropsiquiatria. Os dois não pareciam ter nada em comum, exceto o amor à poesia e a admiração pelo trabalho do filósofo e matemático alemãofreed von Libets.

300 anos antes de Pits e Mculock se encontrarem, Libnitzhava com inteligência artificial. Sua ideia era criar um cálculo de raciocínio que, ao ser aplicado, seria capaz de deduzir a verdade sobre qualquer fato do mundo real. Makulock contou a Pitts que sua pesquisa tinha objetivo parecido.

Ele queria modelar o funcionamento do sistema nervoso humano usando matemática e lógica. Naquela mesma conversa, Pitt sugeriu quais ferramentas matemáticas eles poderiam usar para dar vida as ideias de Makulok. A contribuição entre os dois foi tão produtiva que não demorou nada até que Makulok convidasse Pitts, que ainda não tinha uma moradia fixa para morar em sua casa junto de sua esposa e três filhos.

Olhando a correspondência dos dois através dos anos, não é difícil imaginar o que o tempo morando com Makulok significou pro jovem que fugiu de casa aos 15 anos. Ele finalmente havia encontrado sua verdadeira família. [Música] E aí?

Então, cara, essa história do Marco Luk Pitts fez eu pensar em como é legal estudar assuntos novos juntos com amigo. Enfim, eu só tô com algumas dúvidas de programação aqui. Queria saber se eu posso te perguntar.

Não aprende sozinho. É uma coisa frustrante quando você tá aprendendo algo novo. É não ter alguém para tirar dúvida, para te ensinar alguma coisa.

E a inteligência artificial tem um grande potencial de ajudar nisso. Um bom exemplo é a Luri, a inteligência artificial da alura. Se liga, agora, depois de uma aula, eu posso sanar as minhas dúvidas com uma parceira de estudos que tem toda a paciência do mundo e que consegue checar se de fato eu entendi o conteúdo.

Essa é a sua oportunidade de estudar junto com a Luri, o catálogo imenso da Lura de cursos sobre inteligência artificial, programação, data science, design e mais várias outras coisas. É só acessar alura. com.

br/infinitamente br/infinitamente para aproveitar essa oportunidade e investir na sua educação e no seu [Música] futuro. Na década de 40 já se sabia que o neurônio era unidade básica de comunicação do sistema nervoso humano. Existem vários tipos de neurônios diferentes, dependendo da função e localização, mas todos eles possuem a mesma estrutura básica, os dendritos, que recebem sinais de outros neurônios, a soma, que é o corpo da célula e contém o núcleo, um axônio que propaga o sinal que o neurônio quer enviar até os terminais que fazem o envio de sinais químicos para ainda outros neurônios.

Os dendritos de um neurônio podem receber informação de centenas ou até milhares de neurônios, enquanto seus próprios terminais enviam informação para mais neurônios ainda. Quando o neurônio acumula sinais nos receptores de seus dendritos o suficiente, ele dispara. Uma corrente elétrica se propaga pelo axônio até chegar aos terminais, causando a liberação de novos sinais químicos.

Muler e Pits acreditavam que de alguma forma da sinfonia dos 100 bilhões de neurônios do enccêfalo nasce a inteligência [Música] humana. E por isso eles queriam encontrar algum modelo matemático que fosse capaz de capturar a essência de um neurônio. Com um pouco mais de um ano de colaboração, eles publicaram um artigo, um cálculo lógico de ideias imanentes na atividade nervosa.

Lá eles definiram o primeiro neurônio artificial. Esse neurônio parecia assim. Cada uma dessas entradas A, B, C, são valores que podem ser um ou zero.

Isso representa as mensagens que esses neurônios podem ter recebido de outros neurônios. Depois, esses valores são somados dentro do neurônio. Se o resultado dessa soma for maior que um número limear, o neurônio vai devolver um na saída, caso contrário vai devolver zero.

Então, eles demonstraram que esse modelo básico de neurônio seria o suficiente para implementar operações lógicas como end, war ou not. Nós mostramos como essas operações funcionam em detalhe usando baterias e fios lá no vídeo de como reinventar o computador do zero. O end é uma operação lógica que só devolve verdadeiro se as duas entradas também são verdadeiras.

Já o devolve verdadeiro quando pelo menos uma das entradas é verdadeira. Enquanto not só inverte o que ele recebe. Para replicar o end, nós só precisamos de um neurônio artificial com duas entradas e um limear de ativação igual a dois.

Ou seja, ele só vai se ativar quando as duas entradas estão valendo um. A ideia de Mcolic Pitts era que a combinação de bilhões de operações lógicas implementadas com neurônios como esses explicariam a racionalidade humana. Essa teoria foi um marco importante na história da neurociência, mas ela deixa de lado vários aspectos importantes do sistema nervoso que nós hoje sabemos serem essenciais pra inteligência humana.

Por exemplo, cada neurônio é responsável por funções muito mais complexas do que apenas representar um ou zero como os transistores de um computador. Foi mostrado inclusive que apenas um dendrito de um neurônio real tem mais poder de computação que um neurônio artificial inteiro. E isso mesmo considerando neurônios artificiais mais sofisticados, como os que vamos ver em seguida.

Mas mesmo não sendo um bom modelo para neurônios reais, o neurônio artificial de Mulc Pitts foi o primeiro nó no enredo que levaria até a criação de estranhas inteligências capazes de escrever, dirigir, pintar e talvez até de sonhar. Você já parou para pensar o quão impressionante é a facilidade com que você aprende coisas completamente novas a jogar um jogo novo, a falar palavras de um idioma estrangeiro ou os assuntos desse vídeo? Pois é, o aprendizado contínuo é uma das coisas mais importantes entre as que nos tornam humanos.

Uma das falhas do modelo de Milock Pitts era explicar de uma forma satisfatória justamente essa nossa capacidade de aprendizado. Algo que é essencial se o objetivo é recriar a inteligência humana usando neurônios artificiais. Alan Turin mesmo sugeriu que talvez a única forma de criar uma máquina que realmente sabe pensar como um adulto é primeiro criar uma máquina que sabe pensar como um bebê e dar a ela a capacidade de aprender.

Levaria uma década após o neurônio de Mculock Pitts até que um psicólogo chamado Frank Rosenblat reacendesse a tocha e tentasse desenvolver um neurônio artificial que conseguisse de fato aprender. Assim como a dupla Mculock Pitts, Rosen Blat estava interessado em saber quais são as peças e engrenagens mais fundamentais que permitem com que o cérebro humano faça o que faça. Esse interesse o levou a estudar o trabalho do psicólogo canadense Donald Habby, que em 1949 publicou uma nova teoria de como o aprendizado acontece no sistema nervoso.

De forma um pouco resumida, HB propôs que o aprendizado depende do fortalecimento de conexões entre os neurônios que se ativam juntos e o enfraquecimento de outras conexões que não são utilizadas ao passar do tempo. A teoria rebiana e o neurônio artificial de Mculock Pitts ressoaram como duas notas de uma mesma música na imaginação de Rosenblet, uma música que em tempo mudaria o mundo. Esse era o nascimento da área de estudo que hoje chamamos de Deep Learning.

Em 1958, do anos após ter terminado seu doutorado em psicologia, Rosenb apresentou ao mundo o Perception 1 Mark. O psicólogo não ficou satisfeito em apenas desenvolver a teoria de neurônios que conseguem aprender. Como os computadores da época eram lentos demais para implementar sua ideia, ele construiu uma máquina própria que usando seus neurônios artificiais era capaz de aprender a reconhecer dígitos, rostos, animais e outras imagens.

Jornais americanos como New York Times anunciaram o nascimento de um cérebro elétrico. Anos depois, um dos estudantes de Rosen Blat comentou que o surpreendente não é que o Mark 1 conseguia reconhecer letras. O ponto é que o Mark 1 aprendia a reconhecer letras ao levar um zap quando cometia um erro.

[Música] O neurônio de Rosen Blath, que permitia com que o Mark 1 aprendesse, era uma modificação do neurônio de Maculk Pits. Agora, cada entrada dessas vai possuir um parâmetro que representa a força de conexão e ao invés de aceitar apenas um ou zero, as entradas podem receber qualquer valor real. Então, o valor vindo de cada entrada é multiplicado pelo seu respectivo parâmetro e somado dentro do neurônio.

Também é adicionado nessa soma um valor constante B, que serve para codificar o quão fácil é ativar o neurônio por padrão. Se esse resultado passar do limear de ativação, então o neurônio é ativado, enviando um sinal para os neurônios conectados com ele. Você pode imaginar que cada parâmetro desses é um botão e virando cada um deles, você pode regular a intensidade da conexão.

é alterando cada uma dessas intensidades que o neurônio de Rosen Blat é capaz de aprender. Por exemplo, imagine que nós queremos treinar um percepton para diferenciar gatos e cachorros baseado no peso e altura. Para isso, nós vamos querer que o percepton se ative quando encontrar informações de um cachorro retornando um e não se ative quando encontrar as informações de um gato retornando menos um.

Iniciando nosso novo perceptâmetros aleatórios, o exato limiar entre os valores que ativam ou não o percepton define uma reta. Pontos acima da reta são classificados como cachorros e pontos abaixo da reta como gatos. Mas por enquanto os parâmetros do perceptam treinados para acertar quem é quem.

Se eu mexer um pouco no parâmetro de entrada da altura, essa reta se inclina assim. já se eu mexendo o parâmetro de entrada do peso desse outro jeito. Enquanto isso, a constante de ativação B vai alterar o quão longe da origem a reta está.

A ideia é encontrar os parâmetros certos para que o percepton sempre acerte a classificação, mesmo quando encontrar informações de gatos e cachorros que ele nunca viu antes. Outro jeito de pensar nesses parâmetros é que cada um captura de algum jeito a correlação entre os valores de entrada e o resultado. Por exemplo, nós poderíamos ter um perceptor em que cada entrada recebe o valor de um exame médico diferente e o resultado final nos diz se a pessoa tem ou não uma doença.

Tá bom? Mas como o Percepton consegue realmente aprender alguma coisa? A grande ideia de Rosen Blat foi encontrar uma forma em que cada erro que o Percepton comete informe como ele precisa corrigir seus parâmetros para não errar mais.

Para fazer isso, Percepton vai checar cada um dos gatos e cachorros. Se ele acertou a classificação, ele não faz nada. Mas se ele errou, ele vai atualizar o seu próprio parâmetro de altura, somando a altura do animal que ele errou, vezes a classificação certa.

Um para cachorro e menos um para gato. Depois ele faz o mesmo com o peso. Soma o peso do animal que foi classificado errado vezes o valor da classificação certa no parâmetro que ele usa para classificar os pesos.

Por último, ele soma o resultado da classificação correta que aquele ponto deveria ter no viés de ativação B. O resultado é que para cada classificação errada, a reta vai se mover na direção do erro que ela acabou de cometer. Mas espera, não é possível que nesse processo Percepton comece a classificar errado, que antes ele classificava, certo?

É, sim. Mas algo incrível que o Rosen Blight provou é que se repetirmos esse processo o suficiente, o Percepton sempre vai encontrar uma reta que divide gatos e cachorros, desde que essa reta exista. Se nós encontrarmos cachorros muito pequenos e gatos muito pesados, talvez seja impossível determinar uma reta que consiga dividir cachorros e gatos no plano.

Dependendo da situação, a gente pode considerar mais informações para resolver isso. Se, por exemplo, adicionarmos uma nova dimensão chamada arrogância, nós poderíamos colocar um plano que separa cachorros e gatos facilmente, mas nos casos em que isso não é possível, o percepton falha. Nesses casos, nós precisaríamos de algo mais sofisticado, que a reta produzida por um percepton, talvez uma forma feita com duas ou três ou várias outras etas.

Rosen Blat já sabia que a solução para esse problema era se inspirar novamente no enccêéfalo humano e criar uma rede de perceptons, ou seja, uma rede neural. Isso pode ser feito organizando vários neurônios artificiais em camadas com a saída de cada neurônio ligada com uma entrada de todos os outros neurônios da camada seguinte. A ideia então é que ajustando os parâmetros das conexões entre neurônios, nós conseguimos descrever funções muito mais complicadas do que um percepton sozinho consegue.

O que o Rosenbats não sabia era como treinar essas redes neurais, ou seja, como escolher os parâmetros dessas conexões. O seu algoritmo, que funcionava tão bem em um único perceptron, falhava tristemente quando novas camadas eram adicionadas. Além disso, parecia que uma rede neural de várias camadas demandaria um poder computacional que não era nem sonhado nos anos 60.

Todas essas barreiras não desanimaram Rosen Blat quanto ao potencial da sua pesquisa, mas o resto da comunidade científica na volta dele não estava tão confiante assim. Como a história seguiria, Rosenbett nunca alcançaria o seu sonho de treinar redes neurais. Em 1969, Marvin Minsky, que era considerado um dos fundadores da inteligência artificial, publicou junto com Seore Papert um livro chamado Perceptonss, que chamava atenção para todas as limitações dos neurônios de Rosenblad.

Segundo os autores, o número pequeno de coisas que um percepton consegue de fato fazer poderiam ter sido programadas de forma mais fácil, usando as técnicas de a simbólica. O resultado foi que os fundos para pesquisa em Perceptons congelaram. Alguns autores modernos chamam essa época de o primeiro inverno da inteligência artificial.

No mesmo ano da publicação do livro de Minsk, os cientistas Walter Pitts e War Mculock, inventores dos neurônios artificiais e duas das grandes inspirações de Rosenblet, faleceram. O gênio precoce Walter Pittsha apenas 43 anos de idade. 3 anos depois, em 71, Rosenblet sofreria um trágico acidente de barco e faleceria com a idade de 41, ainda 3 anos mais novo que PS.

Nenhum dos três sabia, mas a solução de como treinar redes neurais já havia sido publicada por um engenheiro aeroespacial chamado Henry J. Kelly há mais de uma década atrás. Como o objetivo de Kelly era a otimização de caminhos aéreos, sua pesquisa nunca alcançaria os olhos da comunidade de inteligência artificial a tempo.

Seria necessário uma década após a morte de Rosenblet até que outros pesquisadores reacendessem o seu sonho de inventar mentes artificiais. A solução de como dar redes neurais a capacidade de aprender dependeu do desenvolvimento de várias ideias que viajaram por séculos na mente de matemáticos. E estranhamente um dos momentos mais importantes no desenvolvimento dessas ideias aconteceu durante a busca por um planeta fugitivo.

No ano novo de 1801, Giuseppe Piiazi apontou seu telescópio pra noite estrelada da Sicília e notou algo curioso. Havia um ponto iluminado entre as órbitas de Mart Júpiter que ele não havia notado antes. Na noite seguinte, segundo as suas medidas, o ponto estava em uma posição levemente diferente.

Piazze achou que tinha cometido um erro de medida, mas quando no terceiro dia o ponto havia se movido novamente, Piaz escreveu os jornais anunciando que havia encontrado um novo cometa. Isso já era interessante o suficiente para ser noticiado. Mas depois de alguns dias acompanhando o pequeno ponto de luz pelo azul estrelado, Piçou a ter esperança que a sua descoberta fosse algo muito mais importante.

Alguns astrônomos acreditavam na existência de um planeta entre Mart e Júpiter desde que Kepler havia feito essa previsão 200 anos antes. Piaze talvez fosse o descobridor desse planeta tão procurado. Eu anunciei esse objeto como um cometa, mas como ele não mostra nebulosidade e mais como ele tem um movimento lento e uniforme, eu suponho que possa ser algo melhor que um cometa.

Usando do direito que pertence aos descobridores, Piazi nomeou seu novo planeta de séries, uma homenagem à deusa romana da agricultura. Pia anotou a posição de séries por mais de 19 vezes durante 42 dias, até que a rota do planeta o levou a ser ocultado pela proximidade com o sol. Astrônomos esperaram ansioso ressurgimento de séries pelo outro lado do sol, mas quando o momento chegou, ninguém conseguiu encontrar o planeta.

Séries havia desaparecido. Assim começou a caça pelo planeta não séries. Matemáticos por toda a Europa participaram dessa caça.

O objetivo deles era desvendar a órbita que Series estava seguindo usando apenas as 19 observações de Piaz. Mas meses se passaram e ninguém conseguia resolver o problema. Até que em novembro do mesmo ano, um então desconhecido jovem matemático de 24 anos, que recém havia terminado seu doutorado, resolveu usar seu tempo livre para pensar um pouco sobre esse problema.

Ele sabia que a órbita de séries deveria seguir uma elipse que tem um dos focos no sol, mas o jovem não poderia apenas completar o pontilhado. Piazi fez suas medidas do movimento de séries, enquanto a Terra também estava em movimento ao redor do Sol e em movimento ao redor do próprio eixo. A verdadeira posição de séries precisava ser desvendada a partir desses movimentos.

E além disso, observações astronômicas na época possuíam vários erros, tanto por imprecisões dos equipamentos quanto por descuidos humanos. Por isso, não existia como desenhar uma elipse que incluía exatamente os 19 pontos de PASE. A explicação completa de como o nosso herói resolveu esse problema envolve várias aplicações espertas das leis de Kepler e muita matemática, o que não caberia nesse vídeo.

Em vez disso, nós vamos nos focar na parte que acabou virando um método importante para vários outros problemas no mundo, inclusive no aprendizado de inteligências artificiais. E esse método é o seguinte. Dada uma elipse qualquer, nós vamos medir qual seria a distância de cada um dos 19 pontos até o ponto mais próximo da elipse.

Essa diferença entre a candidata, a órbita e as medidas de Pase é o que chamamos de erro. Como pequenos erros de medição são mais comuns que erros desastrosos, ele decidiu considerar esse erro ao quadrado. Assim, podemos imaginar uma função erro que recebe uma elipse e cospe de volta o erro total dela.

Como todas as órbitas possíveis com um dos focos no Sol podem ser determinadas por seis números chamados de elementos da órbita, essa função erro recebe esses seis números e devolve o erro total da elipse comparado com as observações. E como o Piazi provavelmente cometeu erros pequenos em cada observação, a elipse que minimiza esses erros vai ser muito próxima da órbita real de séries. OK?

Mas e se ele quisesse ir além e encontrar o menor erro possível? Só para ajudar nessa imaginação e a gente conseguir representar isso na sua tela, vamos supor que o nosso matemático já conseguiu encontrar quatro dos elementos da órbita e agora só faltam dois. Mas pode ficar tranquilo que tudo que for feito aqui para dois elementos também vale para 6, 60 ou até 60.

000. Como nós precisamos encontrar duas variáveis, podemos desenhar um plano em que o eixo X representa o primeiro elemento e o eixo Y representa o segundo elemento faltante. Ou seja, cada ponto desse plano me dá as especificações para criar uma órbita diferente.

Agora eu vou adicionar uma nova dimensão, o eixo Z, que vai me dizer o erro produzido pela elipse representada por cada ponto desse plano XY. Como resultado, nós vamos ter uma superfície em que a altura de cada ponto dessa superfície representa um erro diferente. Por isso, a tarefa de encontrar elipse, que comparada com as observações de PIAS produz o menor erro, se reduz a procurar o lugar mais baixo dessa superfície.

Se você estivesse perdido no meio de um terreno com esse formato e quisesse encontrar o lugar mais baixo, para que lado você iria? Bom, existe uma forma matemática de saber exatamente para que lado dar o passo que vai te deixar o mais perto possível do fundo, o gradiente. Isso é uma ferramenta que vem do cálculo e serve para te dizer a velocidade de crescimento e decrescimento em cada ponto.

Calculando o gradiente do exato ponto em que você está, vai te retornar um vetor que aponta pra direção que faz o erro subir o máximo possível com um pequeno passo. E a direção contrária desse vetor te diz para onde dar o passo para descer mais. Assim, começando em qualquer lugar, nós poderíamos calcular o gradiente, dar um passo na direção contrária e calcular o erro de novo.

Começando com uma estimativa razoável do que poderia ser elipse, o nosso herói poderia ter repetido esse método várias vezes, diminuindo cada vez mais o erro e eventualmente encontrado a órbita certa. Mas na realidade, como a nossa curva de erro é especialmente simples e o nosso matemático é especialmente inteligente, ele encontrou uma forma de deduzir o erro mínimo de uma vez só. Isso mesmo assim deu muito trabalho, levando mais de 100 horas de cálculo à mão.

Mas ao final desse tempo, ele sabia exatamente para onde os astrônomos deveriam apontar seus telescópios. E foi assim que em 7 de dezembro de 1801 o planeta Séries foi reencontrado, completando despreocupado seu caminho ao redor do sol. Essa façanha fez com que o nosso jovem matemático subitamente se tornasse uma celebridade entre cientistas e matemáticos da época.

Essa foi a primeira, mas não a última vez que o nome de Carl Freder Gus reverberou pelo mundo. OK. Mas o que que isso tem a ver com o treinamento de redes neurais?

Bom, no fundo, treinar uma rede neural também é uma questão de encontrar o menor erro possível usando informações imprecisas, assim como as observações de Piaze. Por exemplo, se nós estivermos treinando uma rede neural para identificar uma imagem complicada ou para diagnosticar uma doença, poderíamos tentar ajustar os parâmetros até encontrar a combinação certa que diminui o erro o máximo possível. Mas então, realizar o sonho de Rosen Bam é só uma questão de aplicar o método de Gos?

Infelizmente não. Rosenba Blair até sabia sobre o método de Gaus e já havia confrontado esses mesmos pensamentos no seu livro Princípios da Neurodinâmica. O que ele não sabia era como implementar o método de minimizar erros em algo complicado, como uma rede neural.

Por causa disso, após a morte de Rosen Blair, a pesquisa em redes neurais foi considerada uma rua sem saída pela comunidade científica. Mas anos depois, alguns rebeldes estavam determinados a criar um novo caminho. Algo que a gente não pode esquecer é que o sucesso da inteligência artificial não é só uma história sobre descobertas teóricas, mas também sobre avanços tecnológicos.

Quando Ros Black começou a pensar sobre Perceptons, os computadores mais rápidos eram emaranhados de peças e cabos que conseguiam fazer pouco mais de 1000 instruções por segundo. E por isso ele foi obrigado a construir a sua própria máquina. Mas aquela velocidade ainda não era o suficiente.

Foram necessários mais 50 anos de avanço da Lady Moore, com computadores exponencialmente mais rápidos a cada 2 anos, até chegarmos nesse ponto onde começamos a nos questionar se máquinas conseguem pensar ou não. Nos casos mais extremos, treinar um grande modelo de linguagem de ponta, por exemplo, requer por volta de 100. 000 placas de vídeo trabalhando juntas.

Nós vamos entender em seguida o por ensinar uma rede neural é algo tão custoso computacionalmente, mas isso não quer dizer que é impossível para você interagir com a IA no seu próprio computador. Várias das aplicações mais úteis da inteligência artificial estão sendo feitas com modelos menores que vão rodar no seu computador para deixar os seus programas e apps muito mais inteligentes. O problema é que executar uma rede neural é algo que processadores normais não fazem muito bem.

E é aí que entra a nova linha de processadores Ultra Corda Intel, que é patrocinadora desse vídeo. Esses processadores agora possuem NPUs, que são núcleos de processamento neural, ou seja, núcleos criados especialmente para executar aplicações de inteligência artificial. Usando todo o poder dessa nova linha de processadores, você tem a capacidade de executar redes neurais com mais velocidade que a soma de todos os computadores que existiam no mundo inteiro durante a carreira de Ros and Black.

Ou seja, além de te entregar um desempenho topo de linha nos jogos e programas que você já conhece, os Core Ultra da Intel também te deixam preparados para aproveitar no seu próprio computador as inovações que estão transformando o mundo da tecnologia. De volta pro vídeo. Para entender o que liberou todo o poder das redes neurais, nós vamos juntar tudo que aprendemos até agora para ensinar uma I diferenciada entre um gato e um cachorro, mas dessa vez usando fotos.

Vamos começar com uma rede neural em que todos os parâmetros são valores aleatórios. Em suas entradas, a rede neural vai receber uma imagem, mas essa imagem precisa ser codificada de alguma forma em números, que é o que o computador entende. Para facilitar, vamos supor que todas as imagens estão em preto e branco.

Assim, cada pixel vai virar um número entre 0 e 225, em que valores mais altos são mais claros e valores mais baixos são mais escuros. Cada entrada da rede neural vai receber o número de um pixel diferente. E do outro lado, nós vamos ter duas saídas, cachorro ou gato.

A resposta final da rede vai ser um número entre zero e um para cada uma das saídas. O que a gente espera então é que quando a rede neural ver um bom garoto, o valor da saída do cachorro seja bem alta e o valor da saída do gato seja bem baixa. Mas como que a gente pode ensinar uma rede neural a identificar sozinha quem late e quem mia?

principalmente nos casos que ela nunca viu antes. Em primeiro lugar, nós precisamos de várias imagens para educar a nossa rede neural. Começando com qualquer uma delas, vamos passar a imagem pela rede.

Como ela foi iniciada com parâmetros aleatórios, por enquanto ela não faz ideia do que está vendo. Mas agora nós podemos montar a mesma função de erro que Gus usou procurando séries. Cada parâmetro da rede neural é uma entrada dessa função e a saída é o quanto a rede neural está longe da resposta certa.

Como essa imagem é um gato, a resposta certa deveria ser um na saída de gato e zero na saída de cachorro. Subtraindo o valor que nós queríamos que a saída tivesse do valor que ela realmente tem ao quadrado nos dá o erro de cada saída. O erro total, então, é a soma dos erros de todas as saídas.

A função erro vai gerar um gráfico complicado que nem esse, com a diferença que esse plano aqui embaixo, na verdade, está representando centenas de dimensões. O que nós queremos aqui é aplicar o que nós aprendemos procurando séries para encontrar quais são os parâmetros que nos levam pro lugar mais baixo dessa curva de erro. Mas fazer isso para uma rede neural é muito mais complicado.

Se, por exemplo, nós quisermos saber como mexer um pouco nesse parâmetro afeta a rede neural, nós precisaríamos seguir como essa mudança impactou todos os neurônios conectados com ele na próxima camada e todos os outros neurônios conectados com esses ainda na outra e assim por diante. Isso precisaria ser repetido para todas as conexões. E como não podemos treinar a rede apenas com a foto de um gato, nós precisaríamos repetir toda essa repetição para cada imagem.

Adicionando a isso, o fato que redes neurais que t algum uso prático precisam ser milhares de vezes maiores que essa que estamos mostrando na tela, dá para entender o porque treinar redes neurais foi visto como impraticável por tanto tempo. Mesmo com as placas de vídeo mais modernas, calcular tudo isso de forma ingênua custaria muito tempo e energia. A solução para esse problema é um algoritmo que se chama back propagation, ou seja, retropropagação.

Ele foi inventado por Henry J. Kell em 1960, como mencionamos antes, mas foi redescoberto independentemente várias vezes pela comunidade de A nos anos 80. Esse algoritmo funciona assim.

Primeiro, na hora de calcular o erro pela primeira vez para uma imagem, nós salvamos o resultado de cada conta intermediária que foi calculada em cada neurônio. Esses valores vão ser úteis depois. Em seguida, nós vamos olhar para alguma das saídas da rede neural.

Como nós queríamos que a saída do cachorro fosse zero nesse exemplo, vamos olhar para as conexões com essa saída e nos perguntar qual é a mudança mais efetiva que nós poderíamos fazer nela, que deixaria o valor do erro mais próximo de zero? Nós podemos responder essa pergunta usando o gradiente do cálculo que nós mencionamos antes no vídeo. Lembrando que o gradiente simplesmente nos diz a direção que deveríamos ir para diminuir o erro o máximo possível com um pequeno passo.

Mas não para aí, porque agora nós precisamos nos perguntar a mesma coisa para as conexões que afetam cada um desses neurônios aqui. E como nós já calculamos como essa conexão seguinte altera o erro, nós só precisamos reutilizar essa conta. Assim, nós vamos viajar pela regi neural, mas dessa vez no caminho inverso, usando a regra da cadeia do cálculo e aproveitando as contas que fizemos no passo anterior e por isso o nome retropropagação.

Nós vamos repetir essa retropropagação pra saída do gato também. No final vamos ter uma série de propostas de mudanças para as conexões da nossa rede neural, que vão ser todas somadas e anotadas em algum lugar. Mas por enquanto, nós não vamos mexer na rede neural.

Primeiro, nós vamos repetir isso para todas as imagens de uma parte do nosso conjunto de treino. Depois tirar a média de todas as mudanças propostas por cada uma delas. É essa média que vamos usar para mudar os parâmetros da rede neural.

O aprendizado, então, é o processo de repetir isso para todos os grupos de imagens várias vezes, com a esperança de cada vez ter um erro menor nas imagens de treino. Complicado, né? Bom, se você não acompanhou tudo que aconteceu nesse bloco, não tem problema.

Para entender de fato todos os detalhes da retropropagação, nós precisaríamos de um curso inteiro de cálculo. Mas de qualquer jeito, o importante é você ter ganhado uma intuição geral do que está acontecendo quando alguém diz que está treinando uma rede neural. No fundo, é um processo de repetidamente fazer contas para encontrar parâmetros melhores que causem um erro menor nos exemplos de treino.

É importante mencionar que redes neurais modernas podem ter formatos um pouco mais complicados. Uma IA que identifica imagens, por exemplo, é frequentemente feita com redes neurais convolucionais que são uma versão mais sofisticada das redes que explicamos sobre. E além disso, existem formas de aprendizado de máquina que não dependem de exemplos de treino, entre eles, o aprendizado por reforço, que tem se tornado cada vez mais popular, principalmente em combinação com as formas de treino que vimos aqui.

Mas de qualquer forma, tanto as redes convolucionais de imagem, quanto os grandes modelos de linguagem, como GPT ou Gemini e praticamente qualquer outra inteligência artificial moderna, dependem desses mesmos princípios que explicamos aqui. E por isso que agora você pode dizer que entende como essas IAS realmente aprendem. [Música] Hoje, redes neurais são o fundamento de todas as inteligências artificiais que estão transformando o nosso mundo de forma vertiginosa.

Por isso, pode parecer que a conclusão desse vídeo é que a Iá simbólica foi uma perda de tempo e que redes neurais com certeza são o futuro. Mas a verdadeira lição é que não é óbvio para os cientistas de uma época qual o tópico de pesquisa vai ser mais importante pro futuro e também que ideias realmente revolucionárias são bem difíceis de notar. McCullock, Pitts, Rosenbla foram rebeldes que desafiaram a sabedoria da época deles e defenderam pesquisas que eram vistas como motivo de riso por muitos dos seus colegas.

Será que os criadores das ideias mais poderosas do nosso tempo, que vão transformar o futuro em 10, 50 ou 100 anos, tão recebendo prêmios prestigiosos e tendo seus nomes reconhecidos pelo mundo? Ou será que as ideias que vão nos permitir alcançar as estrelas estão surgindo na mente de jovens desconhecidos que precisam brigar todos os dias para defender o valor dessas ideias? Talvez um deles esteja aqui mesmo no Brasil.

Talvez um deles esteja assistindo esse vídeo. Talvez ele seja você. [Música] Em 1950, começando, que seria um dos artigos mais famosos da história da ciência, Alan Turin escreve: "Podem máquinas pensar?