Fazendo uma Rede Neural do Zero! #2 - Entendendo Como a Rede Aprende

60.34k views7431 WordsCopy TextShare
José Bezerra
Nessa série, ensino na prática como fazer uma Rede Neural do 0 em Javascript. Próximo video será fa...
Video Transcript:
fala pessoal tá aqui com vocês dando continuidade à nossa série como fazer um general do zero chegou o momento mais esperado que é como a gente faz para fazer a rede aprender como é que a gente vai pegar todos aqueles países aleatórios e transformando a coisa ordem nada pra que a cada nova entrada e nova saída ela entenda e vai se aproximando cada vez mais da saída correta como a gente faz para torná lo inteligente esse é o grande ponto então como tendo um primeiro vídeo a gente utilizar uma técnica chamada beck planejam que é uma técnica basicamente de vou pegar a saída que deu e vou corrigindo da saída para o curta o curta para a entrada de trás pra frente o fim de folga e tem um sentido da entrada para o curta o curta para a saída o beque propague chutei no sentido da saída procura da vida pra entrada porquê da saída ou transmitir correções para a camada oculta como você pode ver aí w12 w2 que é basicamente o quanto tenho que corrigir um peso para chegar mais próximo na resposta correta para sair da saída procura transmitir essas correções agora o último trâmite outras correções para entrada porque o valor da oculta ele depende do valor da entrada eo valor da saída da pena o valor do cúcuta então não pode ser corrigido só os da oculta para a saída mas também da entrada para oculta e como é que a gente faz pra fazer essa correção e maneira correta para que os filhos fiquem cada vez mais próximos da nossa saída esperada está a dividir essa técnica e como a gente vai fazê lo como a gente estudar ela em si parte é uma técnica nem tão simples assim eu vou fundamental algumas coisas para que fique tudo bem fechadinho e bem entendido então a primeira transmitindo cálculo dos erros como é que a gente faça transmitir e calcular o exemplo da saída pro culta e também da oculta para entrada porque a gente tem que ter em mente sempre que o valor da saída depende do valor do curso e do curso até na entrada então a gente possa corrigir um lado ou não só o outro em corrigir todos independente do outro então como é que está a calcular esses erros entendendo que a função de custo a gente vai ver isso entendo como é que a idéia levada e eu não vou dar uma ligada pode tranquilo eu vou mostrar algumas coisas que a gente precisa entender derivada para entender como é que a gente vai utilizar técnicas de correção entendendo que a igreja de sant que é basicamente a técnica por dentro e calculando delta w calculando as peças famosas de correções dos pesos vamos lá gradativamente pra gente entendendo melhor que a técnica ela o pode parecer um pouco complexa mas você vai ver que na verdade é bem intuitivo vamos lá e como eu tenho um exemplo aqui bem simples que eu tenho na hora em que oculta na hora de saída uma conexão entre eles disseram ponto 8 digamos que na saída de 0. 4 quanto qual é o erro se basear no que a resposta correta era um está fácil o erro da saída vai ser 0. 6 porque vai ser um mero 0.
4 massa mas a pergunta é sabendo que o erro da saída 0. 6 quanto é o erro da camada oculta porque o erro da saída ele é a multiplicação da 0. 5 dos pra com peso 0.
8 então é a multiplicação da conexão com o cúcuta que dá saída então aqui pucci nossa saída e rua 0. 6 o quanto nosso oculta errou prata e esse erro de 0 com vocês qual é o valor nosso erro da camada oculta mais intuitiva e correta nesse caso por exemplo é pegar 0. 8 que é o peso que é o que determina certo porque a gente não pode modificar o valor da oculta que o valor da multa já é a multiplicação da entrada com as conexões da entrada para o cúcuta lembra nisso então 0.
5 é um valor de entrada a gente não pode mudar ele o que a gente como pode mudar para mudar 0. 5 as conexões entre entrada e oculta massa mas a gente também só depois como eu falei porque um depende do outro então veio a gente sabe que ao curta gestão pode mudar porque na entrada 0. 5 a oculta 0.
8 de 10. 4 o que acredito vai mudar o ponto 8 que a nossa conexão é o nosso peso - valores massa então como é que a gente calcula o erro da camada culta sabendo que a gente um pouco quente pode mudar é o peso 0. 8 o peso então a gente pega basicamente a gente sabe que o erro foi 0.
6 então a gente vai tirar a 60% desse erro 0. 8 porque assenta 10. 6 é 60% então a gente sabe que vai fazer falta se sair e só tem um peso que só tem um peso esse peso vai ser multiplicado pelo erro que vai dar um erro da camada curta então o r 10.
600 1. 8 então se o erro da saída 0. 6 o erro da camada cultura 0.
48 porque é 60% de 0. 8 já que o erro foi de 60% entendendo então é calcular o quanto nosso peso tem de valor nesse erro baseado no erro da saída e assim a gente consegue achar o ideal oculta ficou claro vamos lá complicar e aqui é basicamente a maneira literal de representar r 1 carrefour são menos ainda um vai ser igual ao erro da saída 1 é assim oculta é igual à s ingleses dw igual a é um erro oculta e só para a gente ficar alinhado aqui como a gente vai utilizar as votações vamos lá por exemplo agora um pouquinho mais complexo mas que você vai ver que ainda bem intuitivo se aqui nesse aqui só tem um peso e esse peso ele é responsável pela saída então a gente é multiplicá o erro que deu vezes o peso certo porque ela é 100% responsável pelo valor da saída mas nesse caso aqui por exemplo a gente tem dois neurônios não oculta em um neurônio na saída e agora é a hora que a gente analisa porque se um memorando da oculta certo ele tem um peso de 0. 1 e outro neurônio tem 0.
4 que dá um valor que é o valor da saída a pergunta é o quanto esse valor de 0. 1 está alterando na equação qual a porcentagem dele enquanto valor 0. 4 pautaram nossa equação porque relembrando a saída de 0.
1 de 0. 5 mas 0 com três meses 0. 4 então a pergunta é o quanto essa parcela 0.
1 de 0. 5 está fazendo e peso nessa equação inteira que é 0 10 ponto 5 + 0. 4 mesmo é ver 0.
3 que dá 0. 17 a gente sabe que a resposta correta legal - estamos fazendo aqui é um saída de 0. 17 qual é o erro 0.
73 a gente sabe isso calcular o erro da saída é tranquilo agora é quanto é o erro da oculta quanto é o erro desse peso 0. 1 contra o erro desse neurônio 0. 5 e 10.
413 sabendo que o ano da saída 0. 80 e 3 pensa comigo se a gente sabe que esses eram um é 20% no peso total 20% do quanto é modificado a nossa saída então a gente vai colocar 20 por cento do nosso peso se a gente sabe que 0. 4 10.
308 30% da nossa equação a gente só coloca 80% da saída como aqui a gente colocou cem por cento porque só tem um peso aqui agora a gente vai dividir isso entendeu aqui agora a gente vai dizer 'não você só terá 20% a nossa equação e você até 80 então você vai ter 80 por cento da correção 80% do erro e você vai pegar 80% e 20% do erro ela ativa o quanto cada um tem influênciando nessa saída então novamente a maneira literal da gente apresentar isso é um erro da saída um r 1 - assim isso ok agora o erro da oculta um é w álbum e / w ou mais abril a 12 isso é só uma maneira matemática de dizer como é que ele vai saber quantos porcento nosso erro ele está alterando nossa saída que vai ser o seu valor dividido pelo valor total w1 / w 11 w12 vezes o s1 vezes o erro da saída e nem para baixo w2 w12 milito gabriel o mazda abril 12 meses é é assim que o erro da saída então a com essa é a fórmula zinha na verdade é bem simples é o quanto nosso peso ele está alterando na equação a 10% e 20% calcula isso e multiplica pelo erro fechou um exemplo um pouquinho mais complexo mas que é só um passo à frente do que a gente tinha acabado de ver agora digamos que a gente tem dois na hora de o curta e dois memorandos de saída qual como é que a gente já distribuiu os erros das saídas para esse rearranjo da oculta vamos lá a gente sabe que vamos focar no primeiro na hora da saída a gente sabe que o primeiro na saída 21 20. 212 um logo é 0. 7 88 beleza mas aí a pergunta é como é que está a distribuir esse erro a gente já sabe por que eles lá em 2000 isso que vai ser digamos que essa saída ela tem 0.
10 ponto 9 que é como foi calculada a saída realizando mais uma vez calcula a saída do primeiro no olivais e 0. 10 com 32 mas era ponto 90 ponto dos quanto essa parcela era de r 120 com 32 está alterando essa equação inteira 10% porque vai ser 0. 1 / 10.
1 10. 9 isso a gente viu então a gente sabe que é 10% do erro dessa saída pra usar o ponto 1 e 90% pró peso 0. 9 beleza vão guardar essa informação um guarda especificamente é certo - a gente sabe que 0.
1 vai ser vai ser corrigido em 10% da sdu erro dessa saída que 0. 88 isso a gente sabe que a gente viu já é passado seguro agora é se é um hormônio que tem esse peso 10. 1 não tem só pensar ponto ele tem peso 0.
6 ea perguntar é quanto é que eu devo alterar conta que eu devo transmitir hierro para esse peso 0. 6 vamos focar 10 pontos e isso a gente sabe que é a mesma coisa qual é o meu grande saída que ele está conectado 0. 23 nos qual é o erro desses neurônios - 10.
232 então a pergunta é como é quanto é que eu vou transmitir nesse erro zero pontos 32 pra esse 0. 6 da mesma maneira que a gente fez até agora vai ser 0. 6 / 0.
6 mas era o ponto 2 porque esse é o horário de saída ele é 0. 6 vezes 20 com 32 mas era o ponto 20. 2 que vai da ss e valor da saída então a gente sabe que a porcentagem que esses eram pontos e está fazendo na equação final nessa saída e pega o erro dessa saída e transmitir 30.
6 proporcionalmente agora calma percebe que esse na hora do culto que tenha 0. 1 e agora tem a 0. 6 qual é o erro deste hormônio a soma é exatamente como fim de forma e parece muito né você vai pegar você vai tomar o erro de todos o erro percentual de todos os horários de saída que esse memorando de oculta ele está conectado você só um erro percentual de cada peso desse então o litoral mesmo padrão até agora ele vai ficar basicamente assim w 11 / w omar w12 vezes e erro vezes o erro da saída 1 mas agora pagando da saída 2 porque esse neurônio está conectado com duas saídas é gabriel 21 em vídeo o w 21 e w22 que existe erro da saída 2 é s2 recebe é bem intuitivo porque nesse exemplo 2 a gente percebeu a gente introduzir o conceito de dar percentualmente o quanto cada peso ele está pesando na equação que dá saída e agora a gente só levou isso a outro nível a gente tá só posso mando esses erros percentuais das saídas que neurônios do curso estão conectados pegou então fica www1 / w 11 mas gabriel rondon dois meses de s mas w 21 / w o 2 1 mas na prova de 2010 e 2011 respectivamente na camada de baixo é o 2 na áfrica mas bastante culpa no neurônio de baixo vai ficar a gente corrigiu w12 e corrigiu w22 relativo ao contexto pesam na equação final e aos erros das suas saídas respectivas massa vamos dar um enfoque nessa forma melhor vamos dar um enfoque nesse erro mas sabe que esse erro a gente calculando o quanto cada peso ele está parcialmente causando uma equação final e multiplicando pelo erro a gente sabe mas é ainda está um pouco complicado ainda está um pouco complicado pra gente fazer esse cálculo calcular quanto vai ser também percentualmente cada um vale que somente lidando com matrizes ainda é um pouco complicado mas é uma boa notícia que é a gente vai votar depois uma coisa chamada lane lady light é o quanto a nossa rede neural vai absorver da nesse cálculo de erro porque a gente tem esse cálculo de erro inteiro e quando você multiplica por leite que vai ser um número de 0 10 ponto a 11 10% para 2 20% enquanto o pai sei qual a gente vai absorver esses erros essa é a pergunta como é quando quem está absorver e porque a gente faz isso há uma explicação simples é basicamente assim eu gosto de explicar como lorelei funciona de maneira metafórica digamos que você quer chegar nesse ponto aqui do meio mas você está nesse ponto aqui você só sabe que a direção é essa você não sabe o quanto você tem que até aqui então é a pergunta é o quanto eu vou dar de passos eu vou dar um passo muito grande eu vou dar um passo pequenininho e vou verificar se ainda estou certo para chegar aqui com esse é um passo muito grande digamos eu vou que passei e agora eu vou ter que voltar eu vou dar outro passo muito grande e aí esta o momento eu vou chegar eu vou me aproximando mas isso custa tempo qual é a melhor maneira de lidar com esse espaço que eu tenho que dá talvez se eu der um passo médio e verificar se há ainda toda a direção certa vai ser melhor o outro passo médio e vou verificar tom eleição certa do outro passo médio e aí eu vou chegando mais vagarosamente ao lugar certo com certeza que estou chegando no lugar certo o direito é isso é o quanto nossa redacção ver esse erro ela vai absorver 100 por cento não é melhor a gente colocar pelo menos 10% a 20% do erro assim evite que além de onde não é apenas para que ela tenha uma maior velocidade de aprendizado mas é também uma prenda muito e aí depois eu vou conversar um pouquinho melhor sobre alguns detalhes filhos de sobre machine rede neural coisas como o perfilhe para evitar que nossa rede elas ordem tão boa mas tão boa que está no burro mas não vou explicar isso posteriormente por agora é bom saber que a gente vai colocar uma constante à noite que vai ser um valor de 0 a 100% do quanto o nosso vai ser absolvido pela rede e apreendido se a gente colocar alan eidi percebe que a gente estava brincando com um constante então esse w ou mais w12 w a 21 mas w22 que são também constantes eles podem ser por agora desconsiderados ele pode ser considerado pelo simples motivo que esse w1 madri onde está a 21 e domingo 22 é o que a gente chama de normalização para saber o quanto parcialmente o erro é como a gente pode ver mas já que estamos que ficar jabulani leite a gente acaba de uma porcentagem isso aí o que a gente vai fazer é ignorar esse w1 w a 21 essa normalização para facilitar o nosso cálculo tirando agora essas nacionalizações e terão 98 que vai ser o futuro como é que fica a situação agora é bem mais simples né calma se tá tão mais simples assim está me parecem uma coisa que a gente viu antes aparece uma multiplicação matricial w a um país é sim mais w210 s2 e é exatamente isso lembra que está muito parecido com o futebol une mas é o futebol e voltando então é peso da oculta transposto vezes os erros da saída a gente conseguiu botar pra nossa multiplicação matricial de maneira muito mais simples porque a gente já percebeu que se a gente na normalização porque a gente vai colocar um constante de multiplicação e também o que não faz diferença a gente facilita esse cálculo e aí vai ficar apenas executa transposto vez deve ser a saída que vai dar o erro da oculta respectivo cada neurônio com o seu erro calculado dessa maneira simples peso do custo transposto bezerra da saída mas eu não queria só dá essa fórmula 1 só dizer isso eu queria mostrar o porquê eles intuitivamente para que assim você aprenda de verdade entenda o porquê está acontecendo nesse cálculo na sua rede pra quem não lembra transpomos atriz é pegar as linhas e colunas e inverter agora o que alinha na coluna cada coluna vir a linha simplesinho tentam entender como se calcula ou executivos da camada oculta de tv e outras coisas que são também muito importante vamos deixar isso um pouquinho de lado e agora vamos perder o que é função de custo o que é função de custo para que ela serve e como essa habilidade dela nesse nosso cálculo de corrigir a nossa rede vamos lá a primeira pergunta é para que saibam sobre custo bem a função de custo é basicamente uma maneira ea gente vê o quão nossa rede neural tá indo bem ou mal porque a função de custo sendo ela a soma de todos os erros que tiver alta a opção de curso tiver um número alto significa que nossa rede tornando muito ao mesmo lado que significa que se a fusão em curso ou baixa nossa eterna do pouco ou seja votar mais inteligente ela tá com a acurácia maior entender o conceito as demais basicamente a opção de curso vai somar todos os erros de uma maneira específica para que a gente consiga enxergar melhor o como nossa rede ela está errando e beleza da nossa rede mais inteligente o nosso propósito é abaixar essa função do custo porque achava que funciona em curso significa que não se está certo mas o erro está cada vez menor vamos dar uma olhadinha mais técnica específica de como esta a conclusão dos técnicos tem utilizado um só uma função chamada ms é nem escola e não quer basicamente romário quadrado simplesmente eu vou pegar resposta correta - a saída quero que ele estava fazendo mas ao invés de somar isso dessa maneira eu vou somar todos ao quadrado então vou pegar resposta correta - a saída ao quadrado e esse vai ser o valor individual de cada erro e cada neurônio de saída ao invés de resposta correta - saída pra nossa opção de custas e refaz correta - a ida ao quadrado o porquê é o quadrado em algumas questões técnicas mais sendo rápido e objetivo é para hiper sensibilizar os nossos erros a gente está tratando de valores muito muito pequenos está tratando de e de pesos que vão de zero a um e então vamos ter aqui um exemplo que uma regra que está errando muito tem a função de custo 2.
6 dois pontos e tem um valor muito baixo e se não fosse o quadrado é mais baixo ainda então gente a hipersensibilização as mudanças dos pesos para que a gente consiga e chegar com mais precisão e mudar com mais precisão os nossos pesos que são valores descem mais muito pequenas beleza tem se alinhado vamos lá vamos lá que mostrar exemplo a função de custo ruim digamos que a gente tenha cinco saídas ea esponja gp respectiva de saída seja 100 00 mas a saída da nossa rede trazendo 1. 508 0. 76 0.
9 a gente calcula o erro meio quadrado 10. 50 1. 25 0 40 ponto - 0.
8 ao quadrado 0 - 0. 7 quadrado 0 - ela aconteça quadrados assim por diante a gente calcula todos esses valores ao quadrado e soma eles olha aí quanto a nossa opção de curso nesse nosso exemplo dois pontos 55 a um valor baixo né mas nossa rede está louca essa muito burra ela está dizendo que vários valores ela está com valores altos identificando valores como resposta correta quando na verdade só tenho agora vou mostrar uma rede neural inteligente como ela funcionaria a reação à ida correta fica 0. 9 enquanto as saídas que são 10 ficam bem pertinho de 00.
06 0. 0 10. 09 e quando você faz todo esse cálculo dof dada função de custo dessa rede era inteligente olha quanto fica quando você soma tudo vai ficar 0.
02 34 agentes saíram de uma função de custo 2. 551 a rede burra para 10. 02 34 e percebe que fizeram com 234 só acontece porque a nossa renda ela está hiper sensibilizada por que ela ao quadrado então o que a gente está fazendo aqui na realidade mas sabe que esse erro 10.
06 60. 00 36 na mesma maneira que esse erro 0. 8 pira 0.
Copyright © 2025. Made with ♥ in London by YTScribe.com