Inteligência Artificial brincando de Pique-Esconde

2.01M views2188 WordsCopy TextShare

Universo Programado

Seja muito bem vindo ao Universo Programado! Neste vídeo você vai ver como a OpenIA conseguiu trei...

Video Transcript:

E aí Olá seja muito bem-vindo e bem-vinda ao universo programada no vídeo de hoje a gente vai dar uma olhada nesse projeto maravilhoso que conseguir ensinar a dois times de inteligências artificiais a brincar de pique-esconde e sério o resultado ficou incrível se você já viu esse dinossauro pulando esse espinho se prepara porque vem agora o jogo funciona assim cada partida tem dois times e uma arena com alguns objetos o time Azul vai se esconder e o vermelho vai tentar achar no início da partida o time vermelho começa a bloqueado sem conseguir enxergar nada que é

para poder dar tempo para o time azul se esconder cada personagem Zinho desse tem a sua própria rede neural e algumas habilidades ele consegue Claro se mover aplicando uma força em si mesmo nos eixos x y e também consegue girar o corpo ele consegue enxergar os objetos e os outros personagens que estão no campo de visão que é esse ícone vermelho aí eles conseguem medir a distância dos objetos ao redor usando esse sensores eles e os objetos e arrastar e também dá para travar o objeto quando um objeto é travado Ele só pode ser destravados

pela mesma equipe que travou esse projeto muito simpático foi desenvolvido pela openeight se você não sabe o que é o creme ai ela é uma instituição de pesquisa sobre inteligência artificial tem feito algumas coisas bem surpreendente principalmente na área de aprendizado por reforço O que é o caso desse piconde talvez você já tenha ouvido falar dela alguma vez por causa do Imam mosque os algoritmos usados Aqui foram os mesmos usados para fazer aí a destruir no J2 é e olha eu parei ele funciona basicamente da mesma forma dando Recompensas e punições para os indivíduos Nesse

caso fica esconde os azuis recebem um ponto se todos os azuis estiverem escondidos e menos uns se algum deles for visto por um vermelho e Os Vermelhos o contrário recebem menos uns se não conseguirem achar ninguém e mais um se acharem pelo menos um azul então agora vamos para o primeiro treinamento nesse treinamento o ambiente é bem simples cada time tem dois indivíduos o cenário tem dois blocos uma rampa e uma espécie de sala com portas as posições dos objetos e das portas são geradas aleatoriamente em cada nova partida ele é considerado simples justamente por

não ser completamente aleatória Então beleza na primeira partida não aconteceu nada demais porque eles começam sem conhecimento nenhum a respeito do jogo e com comportamentos completamente aleatória Só que alguns desses comportamentos aleatórios ocasionalmente fazem vermelho enxergar o azul isso é o suficiente para ele ganhar uma recompensa o e reforçar esse comportamento bem-sucedido aí depois de dois milhões de partidas Os Vermelhos aprenderam a perseguir os azuis e aqui do lado a gente pode ver a recompensa de cada time ao longo de todo o treinamento uma área vermelha tá maior que significa Os Vermelhos estão encontrando os

Azuis na maioria dos jovens e você deve estar pensando mais Victor dois milhões de jogos e muito o ser humano jogando aprenderia muito mais rápida É verdade só que eles estão começando do mais absoluto Zero ao contrário de um ser humano tudo que você aprendeu durante sua vida te ajuda na hora de jogar um jogo Você sabe o que é o conceito de distância O que significa se esconder que Os Vermelhos vão ir para cima dos azuis você sabe que não dá para enxergar através da parede ou será que dá aqui Eles Não Sabem Nada

no cérebro deles não existe nenhuma informação útil antes do aprendizado simplesmente não tem como comparar um ano com esse algoritmo porque são servos massivamente diferentes por enquanto mas isso não vai ficar barato não vamos ver como que o time Azul contra-atacou 8 milhões de partida e se passaram e agora o time Azul aprendeu a bloquear as portas A Perseguição bem esperta Lembrando que esse comportamento de usar objetos não foi incentivado o algoritmo o algoritmo recompensa apenas a vitória sem específica como mais alguns milhões de partidas depois e a subir quase moda Os Vermelhos aprenderam usar

rampa para pular as paredes Tá beleza por essa a gente já esperava depois que os azuis usaram as caixas para bloquear a porta mas Além disso tem mais uma coisa interessante aqui Repara bem nesse carinha antes ele bloqueava a porta e sobrava uma brechinha que o vermelho usava para enxergar ele agora ele aprendeu o que isso tira. Cê tá indo para longe da porta depois que fecha aprendizado por reforço é muito absurdo beleza muitos milhões de partida se passaram e agora eles aprenderam a sequestrar rampa antes de bloquear as portas mano olha a cara dele

de felicidade sacaneando amiguinha lá é só que tem mais que isso se liga nessa semana e para não prejudicar aqueles que não prestaram atenção ao lance e vamos mostrar novamente com a magia do replay imediata e é um dos objetos nascem em posições aleatórias e o tempo que Os Vermelhos ficam bloqueados é relativamente curto às vezes não dá tempo de ir lá sequestrar rampa e voltar para fechar as duas portas da eles se organizaram e cooperaram enquanto um vai pegar a rampa o outro já começa a colocar os blocos nas posições certas e pasmem trocam

de Blocos para economizar tempo apito juiz Rodrigo pega o meu ap sai correndo em direção à porta enquanto isso de alguém vai trazer uma roupa desesperado poderia pensar no problema e passa boa contra o colega Dioguinho solta roupa pega um golpe vai vir tu bloquear a porta conseguindo corre para bloquear a outra e com time perfeito eles ganhou a partida por 1 a 0 para o time ligações pode isso Victor Uma Jogada dessa não eu quero alguém e pensou o que passa na cabeça dela o rapaz Uma Jogada dessa não é todo dia que a

gente vê não hein não vai pegar nasceu danada brasileiro pode isso Sara sim se fosse é o fechava a porta com as costas da rampa foi bonito mas podia ser melhor como sempre sai com comentário muito pertinente e daí foi GG o time vermelho ficou sem nenhum recurso para ganhar a partir daí E você acha que isso foi legal o suficiente meu irmão tu ainda não viu nada um dos vários problemas do aprendizado por reforço tradicional é que o desempenho do a gente fica limitado ao próprio sistema de Recompensas uma vez que ele tenha conseguido

maximizar e Recompensas ao longo prazo vai estagnar e não vai melhorar muito mais que isso por exemplo imagina que você quer ensinar um carro dirigir e dá uma penalidade toda vez que ele bate não treinamento ele vai aprender nunca bater e pronto alcançou a recompensa máxima daí que vem a ideia genial de usar um sistema multiagente quando você coloca dois ou mais a gente para competirem entre si a recompensa de um a gente fica dependendo do outro e isso faz com que o sistema de Recompensas fique muito mais dinâmico e flexível já que cada pequena

melhoria que o seu adversário consegue diminui a sua recompensa forçando você melhorar ainda mais isso acaba criando um look de melhoria onde todo mundo vai se modificando para ficar o aniversário do exemplo do carro se você colocasse um outro a gente com a missão de atrapalhar o carro dirigir Provavelmente o carro iria elaborar estratégias para evitar e chatão que fica fazendo ele bater fala mais informações Acesse o site da UPE es na descrição E é claro que durante o processo é média estratégias que a gente não tava esperando e foi exatamente o que aconteceu agora

o ambiente vai ser mais aleatória ainda quantidade objetos quantidade de jogadores posições as salas e das portas tudo na primeira partida como sempre comportamento aleatório nada demais aqui 22 milhões de partidas depois Os Vermelhos aprenderam a perseguir os azuis novamente provavelmente como o mapa é mais aleatório Demorou mais para os indivíduos conseguirem generalidades comportamento de perseguição e fuga de novo 88 milhões de partida e depois e aqui a parada já começa a ficar interessante os azuis aprenderam a fazer uma espécie de abrigo e aqui nesse cenário eles deram azar e não tem nenhuma de 115

milhões de jogos e como já era de se esperar Os Vermelhos contra-atacaram com a estratégia de usar a rampa para pular as paredes beleza tudo na normalidade repara que ele já começaram a usar os bugs do ambiente do jeito que os problemas 2 não modelaram os movimentos dos personagens eles podem segurar os objetos e andar daí como o personagem tá segurando um objeto em movimento ao mesmo tempo o objeto vai junto com ele perceba a diferença ele não tá empurrando objeto o objeto está grudado nele enquanto ele se move isso não teria nenhum problema é

se o personagem não tivesse em cima do objeto a em alguns muitos milhões de jogos depois e os azuis que não são bobas nem nada aprenderam a travar e rampas Plus vermelhos não usarem e eles não só travaram as rampas repara que eles arremessam elas para bem longe do Esconderijo para não correr nenhum risco dos vermelhos conseguirem saltar por ela e mesmo travadas sensacional muito inteligente 458 milhões de partida se passaram e mais impressionante aconteceu a situação é essa o azul Travou a rampa fez um esconderijo e travou as paredes e agora o que você

faria se [Música] [Aplausos] e se você respondeu aproveitar um Bunny acertou muito Observe atentamente o jeito Ninja de ser um [Música] E ai Sara estou achando que sabia se fala aprende com quem sabe quando a operar em dominar o mundo tu sabe quem é que vai te proteger né então acho melhor você ficar na moral Olha isso ele usou a rampa que estava desativada para conseguir subir no bloco segurando ele enquanto se move é a galera a briga vai ser feia viu Mas agora vamos pegar leve com os humanos também sejamos honestos se humano ficasse

um tempo jogando esse joguinho uma hora ele ia receber esse blog e usar com uma estrela também não quis isso aproveitar falhas para tirar vantagem a humanidade da aula infelizmente e claro eles se defenderam disso bloqueando todos os objetos para não ter risco do vermelho surfar em nada que tem mais esse projeto mostrou para a gente como esse tipo de algoritmo é bom explorar falhas e bois nos ambientes e quando viu que ele é bom é porque ele é realmente muito bom durante o primeiro treinamento eles perceberam que se você bater a rampa na parede

de um jeito específico a colisão Buga e ejeta a rampa para fora do cenário ou seja além de sequestrar e bloquear a rampa agora e descobriram terceiro jeito de utilizar ela quer jogando para fora e Os Vermelhos também conseguiram descobrir o molde se liga nessa situação os azuis em vez de bloquearem a porta bloquearam a si mesmos contra a parede e parece que o vermelho tá vindo boladão com a rampa para pular as caixas correto é E aí oi Calma aí deixa eu ver se eu entendi ele jogou a rampa na parede a parede jogou

a rampa de volta uma força Deveras desbalanceada como a rampa estava na posição certa para subir ela passou por baixo dos pés dele e lançou ele para o alto e como a gente já viu ele não precisa estar no chão para se movimentar logo aplausos irmãos apenas na clause o cara depois de toda essa trapaça uma questão fica no ar seria a inteligência artificial o futuro do Speed Running já que ele é tão boa assim descobrir brechas nos ambientes O que você acha deixe aqui nos comentários sim ou não e o Por que você acha

isso eu acabei de postar lá na área de membros a segunda aula sobre a biblioteca gráfica que eu uso aqui no canal não é a gente viu como controlar a espécie como desenhar Sprite movimentar girar e muito mais mais para frente nós vamos programar gravidade e recriar entropia do canal um programação pura e fazer alguns login também então se você tem vontade de aprender a programar essas coisas considere se tornar um membro do universo programado e agradecimento especial de hoje é para o ilustríssimo Lucas de montando o Lucas também tem um canal onde ele fala

de programação e eu te aconselho demais aí lá dá uma olhada Muito obrigado Lucas é nós meu parceiro aqui em cima do deixando um vídeo onde a inteligência artificial aprender a estacionar nesse vídeo ela também se aproveitou de um bug no código e aqui embaixo e jogando o famoso joguinho 2048 por hoje é isso pessoal muito obrigado por ter chegado até esse ponto do vídeo isso ajuda demais o meu trabalho comenta a hashtag tamo junto para saber que você chegou e até a próxima