Este é um vídeo sobre o problema mais famoso na teoria dos jogos problemas assim surgem em todos os lugares desde nações em conflito até colegas de quarto lavando louça até jogos foram baseados neste conceito descobrir a melhor estratégia pode significar a diferença entre vida e morte Guerra e Paz prosperidade e a destruição do planeta e na mecânica deste jogo podemos encontrar a própria fonte de um dos fenômenos mais inesperados da natureza no dia 3 de setembro de 1949 um avião americano de monitoramento do clima coletou amostras de ar sobre o Japão nessas amostras eles encontraram
vestígios de material radioativo a Marinha rapidamente coletou e testou amostras de água da chuva de seus navios e bases em todo o mundo eles também detectaram pequenas quantidades de sério 141 e ítrio 91 mas esses isótopos têm meias vidas de um ou dois meses então eles devem ter sido produzidos recentemente e o único lugar de onde eles poderiam ter vindo era uma explosão nuclear mas os Estados Unidos não realizaram nenhum teste naquele ano então a única conclusão possível era que a União Soviética havia descoberto Como fazer uma bomba nuclear essa era a notícia que os
americanos temiam suas supremacia militar obtida pelo projeto Manhattan desaparecia rapidamente isso torna o problema da Europa ocidental e dos Estados Unidos muito mais sério do que era antes e talvez aumente a eminência de guerra alguns pensaram que o melhor seria lançar um ataque nuclear não provocado contra os soviéticos enquanto ainda estavam à frente nas palavras do secretário da Marinha Matthews tornar-se agressores pela paz John Von neuman fundador da teoria dos jogos disse se você diz por não bombardeos amanhã eu digo porque não hoje se você diz a 5 horas eu digo por não há 1
hora algo precisava ser feito sobre as armas nucleares e rápido mas o quê em 1950 a research and development Corporation um tin Tank dos Estados Unidos estudava essa questão como parte da pesquisa eles utilizaram a teoria dos jogos no mesmo ano dois matemáticos da research and development Inventaram um novo jogo que sem que eles soubessem na época se assemelhava muito ao conflito Estados Unidos soviético esse jogo é conhecido como o Dilema do Prisioneiro Então vamos jogar um jogo um banqueiro com um baú cheio de moedas de ouro convida você e outro jogador para jogar um
contra o outro cada um tem Duas escolhas você pode cooperar ou pode trair se ambos cooperarem em cada um ganha três moedas se um de vocês cooperar mas o outro trair então aquele que traiu ganha cinco moedas e o outro não ganha nada e se ambos traírem então cada um ganha uma moeda o objetivo do jogo é simples conseguir o máximo de moedas que puder então o que que você faria se o seu oponente cooperar você também pode cooperar e ganhar três moedas ou você poderia desertar e ganhar cinco moedas em vez disso então você
se dá melhor desertando mas e se o seu oponente desertar em vez disso bem você poderia cooperar e não ganhar nenhuma moeda ou poderia desertar e pelo menos ganhar uma moeda então não importa o que o seu oponente Faça a sua melhor opção é sempre desertar se o seu oponente for racional ele chegará a mesma conclusão e também desertar como resultado quando ambos agem ional M vocês acabam na situação subótima de receber uma moeda cada um quando poderiam ter recebido três no caso dos Estados Unidos e da União Soviética isso os levou a desenvolverem enormes
arsenais nucleares com dezenas de milhares de armas mais que suficiente para se destruírem múltiplas vezes como ambos os países possuíam armas nucleares nenhum poderia usá-las e ambos os países gastaram cerca de 10 trilhões dólares no desenvolvimento dessas armas ambos estariam melhor se tivessem cooperado e concordado em não desenvolver mais essa tecnologia mas como ambos agiram em seu próprio interesse acabaram em uma situação em que todos saíram pior O Dilema do Prisioneiro é um dos jogos mais célebres da teoria dos jogos milhares e milhares de artigos foram publicados sobre versões deste jogo em parte isso é
porque ele aparece em todos os lugares emp Palas que habitam florestas e Savanas africanas são suscetíveis a carrapatos O que pode causar doenças infecciosas paralisia e até a morte Portanto é crucial para as impalas removerem os carrapatos através da higiene pessoal mas elas não alcançam todos os pontos de seus corpos precisando de outra empala para ajudar na higiene Agora cuidar de alguém tem um custo a saliva eletrólitos tempo e atenção todosos recursos vitais sob o quente sol africano onde um Predador pode atacar a qualquer momento então para o outro empala seria melhor não pagar esse
custo por outro lado ele também precisará de ajuda para se higienizar então todos os impalas enfrentam uma escolha eles deveriam se limpar uns aos outros ou não em suma eles deveriam colaborar ou trair se eles interagirem apenas uma vez Então a solução racional é sempre desertar aquele outro empala nunca vai te ajudar então por que que se preocupar porém muitos problemas não se resumem a um único Dilema do Prisioneiro os impalas se vem dia após dia e a mesma situação continua acontecendo repetidamente então Isso muda o problema porque agora você está jogando O Dilema do
Prisioneiro muitas vezes em vez de apenas uma vez e Se eu trair agora então meu oponente saberá que eu traí e eles podem usar isso contra mim no futuro Então qual é a melhor estratégia Neste jogo repetido Robert Axel Rod cientista político queria descobrir isso em 1980 ele decidiu realizar um torneio de computador ele convidou alguns dos principais teóricos de jogos do mundo de diferentes áreas para enviar programas de que competiriam entre si Axel Rod chamou esses programas de estratégias cada estratégia enfrentaria todas as outras estratégias e uma cópia de si mesma e cada confronto
duraria 200 rodadas isso é importante e Voltaremos a isso Axel Rod usou pontos no lugar de moedas mas as recompensas eram iguais o objetivo do torneio era ganhar o máximo de pontos possível e no final todo o torneio foi repetido C vezes para garantir que o sucesso fosse robusto e não apenas um acaso Axel Rod exemplificou uma estratégia simples ele começaria cada jogo cooperando e só trairia depois que seu oponente tivesse traído duas vezes seguidas axelrod recebeu 14 estratégias no total e adicionou uma 15ª chamada aleatória que Coopera ou trai aleatoriamente 50% do tempo todas
as estratégias for em um único computador onde elas se enfrentaram uma das estratégias foi chamada de friedman ela começa cooperando mas se o seu oponente trair apenas uma vez ela Continuará traindo pelo resto do jogo outra estratégia foi chamada de Joss ela também começa cooperando mas depois apenas copia a última jogada do outro jogador então cerca de 10% do tempo jos fica astuto e trai existia também uma estratégia orada denominada acampamento de grama essa estratégia funciona como a de Joss Mas em vez de trair probabilisticamente o acampamento de grama trai na qua rodada para sondar
A Estratégia do oponente e explorar possíveis fraquezas a estratégia mais elaborada foi nome retido com 77 linhas de código após todos os jogos os resultados foram contabilizados e a classificação definida a coisa louca foi que o programa mais simples acabou vencendo um programa que passou a ser chamado de olho por olho olho por olho começa cooperando e então copia exatamente o que seu oponente fez na última jogada então ele seguiria a cooperação com cooperação e a traição com traição mas apenas uma vez se o oponente voltar a cooperar o olho por olho também Volta quando
olho por olho jogou contra friedman ambos começaram e continuaram cooperando terminando com pontuações perfeitas de cooperação Total quando olho por olho jogou contra jos eles também começaram cooperando Mas então na sexta jogada Joss traiu isso desencadeou uma sucessão de traições recíprocas como um Efeito Dominó atualmente algumas políticas lembram um sistema alternado onde é necessário tomar medidas contra alguém devido a ações cometidas contra nós e então quando esse programa estranho lança uma segunda traição não provocada agora é realmente ruim porque ambos os programas vão trair um ao outro pelo resto do jogo isso também é o
que observamos na política e nas relações internacionais Atualmente como resultado dessas retaliações mútuas tanto tit for tat quanto Joss se saíram mal mas porque ti forat conseguiu cooperar com estratégias suficientes ainda ganhou o torneio é que estamos sendo acompanhados Ei meu Deus tem que prazer isso é e eu imaginei inicialmente que seria algo como xadrez de computador onde você precisa de um programa bastante complicado para jogar um jogo sofisticado mas na verdade não foi isso foi a estratégia mais simples que se saiu melhor então eu analisei como isso aconteceu Axel descobriu que as melhores estratégias
incluindo olho por olho tinham quatro qualidades em comum primeiro todas eram boas O que significa que não foram as primeiras a trair então olho por olho é uma estratégia boa de bom é ruim essa é uma estratégia que falha primeiro então bom é ruim essa é uma estratégia que falha primeiro jos é desagradável das 15 estratégias no torneio oito eram boas e sete ruins as oito melhores estratégias eram ótimas mesmo a estratégia boa de pior desempenho superou em muito a melhor estratégia desagradável a segunda qualidade importante era ser indulgente uma estratégia indulgente é aquela que
pode retaliar mas não guarda rancor então olho por olho é uma estratégia indulgente ela retalia quando seu oponente trai mas não permite que as traições anteriores influenciem suas decisões atuais friedman por outro lado é maximamente Implacável após a primeira traição apenas o oponente trairia pelo resto do jogo certo é isso Piedade e isso pode até ser bom de fazer mas não acaba dando certo a longo prazo essa conclusão de que vale a pena ser gentil e perdoar foi um choque para os especialistas muitos tentaram criar estratégias sutis e maldosas para vencer o oponente e obter
vantagem mas todos falharam em vez disso neste torneio os caras legais terminaram em primeiro lugar olho por olho é bastante indulgente mas é possível ser ainda mais indulgente a estratégia de amostra de axod era apenas olho por dois olhos agora isso pode parecer excessivamente Generoso mas quando Axel Rod fez os cálculos descobriu que se alguém tivesse apresentado a estratégia de amostra teria Vencido o [Música] torneio É uma história muito inteligente e cheia de camadas depois que axelrod publicou sua análise do que aconteceu o circulou Entre esses teóricos de jogos ele disse agora que todos nós
sabemos o que funcionou bem Vamos tentar novamente então ele anunciou um segundo torneio onde tudo seria o mesmo exceto por uma mudança o número de rodadas por jogo veja no primeiro torneio cada jogo durou exatamente 200 rodadas e isso é importante porque se você sabe quando é a última rodada então não há motivo para cooperar nessa rodada então é melhor você desertar sim seu oponente deve pensar da mesma forma e também desertar na última rodada mas se ambos anteciparem a deserção na última rodada então não há motivo para você cooperar na penúltima rodada ou na
rodada anterior a essa ou antes disso e assim por diante até a primeira rodada e então no torneio de Axel hod era muito importante que os jogadores não soubessem exatamente Por quanto tempo iriam jogar eles sabiam que em média seriam 200 rodadas mas haviam de números aleatórios que os impedia de saber com certeza se você não tem certeza de quando termina então deve continuar cooperando pois continue e você pode precisar deles ao seu lado no segundo torneio Axel recebeu 62 inscrições e adicionou aleatoriedade novamente os competidores tinham os resultados e análises do primeiro torneio que
poderiam usar a seu favor isso criou dois grupos alguns acreditavam que gentileza E perdão eram qualidades vencedoras então apresentaram estratégias com esses atributos um até apresentou olho por dois dentes o segundo grupo antecipou que os outros seriam gentis e Extra perdoador assim eles usaram estratégias desagradáveis para se aproveitar daqueles que perdoavam demais uma dessas estratégias foi chamada de tester ela trairia na primeira jogada para testar a reação do oponente se se ele retali Ava tester pedia desculpas e jogava olho por olho pelo resto do jogo se não retale Ava tester trairia a cada outra jogada
depois disso porém ser desagradável não valia a pena e mais uma vez olho por olho foi o mais eficaz estratégias gentis novamente se saíram muito melhor no top 15 apenas um não era gentil da mesma forma nos 15 últimos apenas um não era depois do segundo torneio axelrod reconheceu as qualidades que diferenciaram as estratégias mais bem sucedidas o terceiro é ser retatório o que significa que se o seu oponente desertar contraataque imediatamente não seja um bobo fácil de ser aproveitado olho por olho por outro lado fácil de ser aproveitado por outro lado a vingança é
muito difícil de ser aproveitada última qualidade que Axel Rod identificou é ser claro programas que eram muito opacos que eram muito semelhantes a um programa aleatório você não conseguia entendê-los porque eram muito complicados era difícil estabelecer confiança com um programa assim pois não se conseguia entender o que ele fazia não você quero dizer os outros programas com os quais ele estava jogando não conseguiam descobrir eles acabavam pensando que cada turno seria a última vez que me veriam então poderiam muito desviar o que me surpreende nisso é que esses quatro princípios ser gentil perdoar provável e
claro São muito parecidos com a moralidade que evoluiu ao redor do mundo e que é frequentemente resumida como olho por olho não é cristianismo A propósito não é a filosofia de virar A Outra Face é uma filosofia mais antiga O interessante é que enquanto o te for two TS teria Vencido o primeiro torneio Ele só ficou em 24º no segundo torneio isso realça um fato relevante no Dilema do Prisioneiro repetido não há uma única melhor estratégia a estratégia que apresenta melhor desempenho sempre Depende das outras estratégias com as quais está interagindo por exemplo se você
colocar olho por olho em um ambiente com apenas os valentões definitivos de sempre trair então olho por olho fica em último eu queria ver se por exemplo o olho por olho se saiu bem porque se deu bem com regras realmente estúpidas que não se saíram bem De forma alguma que basicamente se aproveitavam das pessoas ele realizou uma simulação onde estratégias bem-sucedidas em uma geração aumentariam em número enquanto as mal sucedidas diminuiriam nesta simulação estratégias de pior desempenho rapidamente diminuem e se extinguem enquanto as de melhor desempenho se tornam mais comuns harrington a única estratégia desagradável
no top 15 primeiro cresceu rapidamente no entanto conforme as estratégias que o sustentavam se esgotaram os números de harrington também despencaram isso mostra um benefício principal desta simulação porque Testa o quão bem uma estratégia se sai com outras estratégias bem sucedidas após gerações as proporções são principalmente estáveis e apenas estratégias amigáveis sobrevivem novamente olho por olho sai por cima representando 14,5 da população total agora esse processo pode parecer semelhante à evolução mas há uma diferença Sutil que é o fato de que neste caso não há mutações então é realmente uma simulação ecológica Mas e se
o mundo em que você começou fosse diferente imagine o um mundo desagradável para viver povoado por jogadores desertores com um pequeno grupo de jogadores olho por olho Vivendo em um núcleo e porque eles estão geograficamente isolados eles começarão a acumular muitos pontos e também porque Isso se traduz em descendência eles começarão a dominar a população Então na verdade Axel Rod mostrou que uma pequena ilha de cooperação Pode surgir e se espalhar e eventualmente dominar a o mundo né O que é fantástico Como pode surgir a cooperação em uma população de jogadores que são egoístas que
não estão tentando ser bons porque tem bom coração você não precisa ser altruísta você pode estar cuidando do número um para si mesmo e seus próprios interesses e ainda assim a cooperação Pode surgir alguns argumentam que isso explicaria como passamos de um mundo repleto de organismos egoístas onde cada organismo só se preocupava consigo mesmo para um onde a cooperação surgiu e floresceu limala se limpando até peixes limpando tubarões vários seres vivos enfrentam conflitos similares ao Dilema do Prisioneiro seriam melhores se cooperassem E isso não requer confiança ou seriam melhores se cooperasse E isso não confianç
ou penso consciente porque estratégia pode codific no ácido desoxirribonucleico se uma estratégia as demais [Música] domp as percepções de Axel Rod foram aplicadas áreas como biia evolutiva e conflitos internacionais mas havia um aspecto que seus torneios originais não cobriam O que acontece se houver um pequeno erro aleatório no jogo algum ruído no sistema por exemplo um jogador tenta cooperar Mas isso é visto como traição pequenos erros como esse são comuns no dia a dia como em 1983 o sistema de alerta precoce baseado em satélite soviético detectou o lançamento de um míssil balístico Intercontinental dos Estados
Unidos mas os Estados Unidos não haviam lançado nada o sistema soviético confundiu a luz do sol refletido em nuvens de alta altitude com um míssil balístico felizmente stanislav petrov oficial soviético de serviço descartou o alarme mas este exemplo mostra os custos potenciais de um erro de sinal e a importância de estudar os efeitos do ruído nessas estratégias o termo jogo parece que é um jogo infantil ou sabe talvez haja um equívoco em chamá-lo de teoria dos jogos porque são questões de vida ou morte obviamente como você mencionou isso surgiu na Guerra Fria e poderia significar
a vida ou a morte de todo o planeta poderíamos aniquilar a civilização humana portanto esses não são jogos em nenhum sentido trivial é apenas o termo usado por matemáticos e teóricos tit for tat joga contra si mesmo em um ambiente barulhento ambos começam cooperando mas se uma única cooperação é percebida como uma traição então o outro tit for tat revida e desencadeia uma uma cadeia de retaliações alternadas e se outra cooperação é percebida como uma traição então o resto do jogo é constante traição mútua portanto a longo prazo ambos só conseguiriam 1 ter dos pontos
que conseguiriam em um ambiente perfeito tit for tat passa de um desempenho muito bom para um desempenho ruim então como você resolve isso você precisa de uma forma confiável de evitar esses efeitos de eco e uma maneira de fazer isso é jogando olho por olho mas com cerca de 10% mais de perdão Então em vez de retaliar após cada deserção você só retalia cerca de nove em cada 10 vezes isso ajuda você a sair desses ecos Mas ainda é retatório o bastante para não ser explorado E então nós também realizamos o torneio com ruído e
generosidade isso se saiu muito bem [Música] meu exemplo favorito é olho por olho se sai bem mas nunca melhor que o jogador contra quem joga quero dizer pense sobre isso por design tudo o que eles podem fazer é perder ou empatar mesmo assim quando os resultados de todas as interações são somados eles superam as demais estratégias da mesma forma sempre trair nunca pode perder um jogo Ele só pode empatar ou ganhar mas Noal seu desempen é péssimo isso destaca um equívoco comum porque para muitas pessoas quando pensam em vencer elas acreditam que precisam superar a
outra pessoa em jogos como xadrez ou póker Isso é verdade já que o ganho de uma pessoa é necessariamente a perda de outra esses jogos são de soma zero mas a vida geralmente não é de soma zero para vencer não é necessário obter recompensa do adversário em vez disso você pode obtê-la do banqueiro só que que na vida real o banqueiro é o mundo é literalmente tudo ao seu redor devemos encontrar situações de ganha ganha e trabalhar juntos para desbloquear essas Recompensas a cooperação compensa mesmo entre rivais de 1950 a 1986 os Estados Unidos e
a União Soviética tiveram problemas para cooperar e ambos continuaram desenvolvendo armas nucleares no entanto a partir do fim dos anos 80 eles começaram a reduzir seus arsenais nucleares eles também aprenderam a resolver conflitos em vez de fazer um acordo para abolir todas as armas nucleares de uma vez transformando-o em um único Dilema do Prisioneiro eles desarmaram lentamente Algumas armas a cada ano e então eles se verificaram para garantir que ambos cooperaram E então repetiriam no ano seguinte e no ano seguinte a esse sempre verificando para garantir a cooperação mútua nos mais de 40 anos desde
os torneios de Axel Rod pesquisadores seguem estudando quais estratégias se destacam em diversos ambientes ao fazer isso eles variaram tudo desde estruturas de pagamento até estratégias erros e mais alguns até permitiram mutações nas estratégias embora olho por olho ou Generoso olho por olho nem sempre saiam por cima as principais conclusões de Axel Rod ainda se mantém seja gentil perdoe mas não seja um capacho posso perguntar porque anatoly rapaport apresentou a estratégia olho por olho o motivo foi porque eu pedi a ele para fazer isso e ele escreveu dizendo Sim estou disposto a fazer isso mas
só quero deixar claro que não tenho certeza se isso é realmente uma boa ideia ele era um pesquisador da Paz e eu acho que suas próprias inclinações eram ser muito mais tolerante e talvez ser e não ser tão são os jogadores que moldam o ambiente Então vamos jogar um jogo o jogo da vida e faça suas escolhas com sabedoria porque seu Impacto pode alcançar mais longe do que você pensa