seguiremos agora para o nosso kote a palestra principal eh Panorama daá e auditoria algorítmica desafios práticos e técnicos com o palestrante Wagner Meira Júnior da UFMG Wagner se puder vir ao palco com a palavra Wagner Meira dia a todos todas né antes de eh não bom bom dia né primeiro lugar gostaria de agradecer a oportunidade Luca Xandre dem né velhos conhecidos aí de poder falar um pouco aqui para vocês eh como né minha formação uma formação técnica em computação então eu vou tentar criar as interfaces com as outras dentro da da minha fala e e
colocar um pouco do do momento né e de algumas questões assim que que eu acho que impactam inclusive na na questão da legislação e uma uma coisa que À vezes se confunde eu gosto sempre de reforçar meio que uma catequese é que computação e inteligência artificial Sempre caminharam Juntas tá então a inteligência artificial na verdade ela é uma uma área da da Computação né e é não é algo recente né é algo que vem sendo discutido pelo menos nos últimos 80 anos tá então houve toda uma um um conjunto de evoluções e mais recentemente a
a grande disponibilidade de dados o poder computacional uma evolução muito grande em termos de poder computacional e algoritmos e técnicas que já vinham sendo desenvolvidos habilitaram esse momento que a gente a gente tá vivendo hoje tá bom eh eu tenho praticamente certeza que todo mundo aqui na audiência hoje usou algo de Inteligência Artificial hoje tá então já está aqui não é algo que está vindo ou que vai acontecer já está de variadas formas de variadas maneiras né e e e uma questão crescente que eu vou tentar falar aqui um pouco é o quanto que esse
esses modelos esses algoritmos fazem apenas bem né se eles são justos se eles são razoáveis E inteligíveis se eles são robustos e seguros se eles são responsáveis e vou vou tentar pontuar um pouco com isso o que que é um ponto técnico importante aqui pra gente pautar né é que vendo historicamente olhando a área de computação eh para aqueles que são técnicos a gente falar de acurácia precisão revocação é de lá que a gente vem né E aí de repente a gente começa a ouvir que não basta que o modelo seja preciso matematicamente ele tem
que ser responsável e isso nos leva forçosamente a entender como que esse modelo vai se inserir como que esses modelos sistemas algoritmos vão se inserir na sociedade tá isso já começa a dar alguns problemas são dois exemplos aí tem números tá no sentido de que já há uma reação né de de trabalhadores a algoritm iação do controle do acompanhamento do trabalho né uma greve de entregadores em Nova York funcionários da Amazon reclamando de microgerenciamento né que a Amazon propôs que eles seguissem certos trajetos para ir ao banheiro né que foi o caso do segundo da
segunda foto ali então isso já começa a Gerar algum ruído tá e mais do que isso tem um sentimento crescente em relação a a a grandes empresas de tecnologia que a a Inovação e o controle são polos antagônicos né e e e há uma discussão grande em relação a isso e perguntas como é que eu coloquei ali né ou seja porque os algoritmos utilizados em redes sociais eles são otimizados para otimizar engajamento e não bem-estar dos usuários Então esse tipo de pergunta ela começa a ser recorrente cada vez mais pessoas Coloca esse tipo de pergunta
tá E e aí a gente avança um pouco voltando pra área técnica Quais são os requisitos que esses algoritmos devem satisfazer né para serem compatíveis com aspectos éticos e valores humanos não é uma pergunta respondida gente tá é uma pergunta em curso né até porque a gente facilmente a gente se depara com uma série de dilemas éticos para nós diria para pras máquinas e pros modelos falado aí existe né tá em discussão A regulação da EA no Brasil né Eu não sou jurista né e tive a oportunidade de participar de algumas audiências públicas e algumas
coisas me chamaram atenção do ponto de vista técnico e eu vou aproveitar e vou realçar aqui né em particular né Isso é como que um um cacoete técnico eu tenho muita dificuldade com adjetivos por quê Porque adjetivos não são quantificáveis e quando você mistura uma coisa técnica com uma coisa adjetivada simplesmente relativiza então eu marquei alguns aqui no projeto de lei vou comentar algumas coisas de forma anciosa viu gente não sou jurista não entendo mas assim eu fico eu fico imaginando eu sujeito a essa legislação né então ali no no artigo se né parágrafo único
aparece assim eh incluirá informações suficientes adequadas e inteligíveis né nossa gente eu não tenho a menor ideia do que que é isso né eh em particular o inteligível nos leva num aspecto de Transparência explicabilidade que é muito complicado né Vamos dar um exemplo de urno né de de né rotineiro nosso no Brasil eh num país onde o áudio do WhatsApp é a ferramenta de inclusão digital de analfabetos como que a gente pode falar de inteligibilidade da saída dos algoritmos de nós nós temos um espectro né ontem eu tava conversando com o professor Campolina e ele
me me deu um número que eu fiquei tão estarrecido que eu não sabia Ele me falou que 50% da população do país detém 0,8 patrimônio é desse país que a gente tá falando tá e e e me assusta mas vamos continuar né Então aí a gente tem né quando a gente fala de saúde né um dos temas hoje aqui é EA em saúde é uma aplicação chamada de alto risco e eu não discordo e essa lógica de de risco é uma tendência mundial na regulação dear ou seja estratificar as as aplicações por risco de de
maneira que aquelas aplicações que representem maior risco vão ter um escrutínio mais elaborado né mas aí a gente né continua ressaltando algumas coisas ali que me chamam atenção eh logo na sequência fala assim considerando todas as etapas relevantes toda gente em computação é uma coisa também que chama atenção porque se é difícil você provar que alguma coisa existe você ter completeza em alguma coisa é algo em geral muito desafiador tá aí continua ali eh das suas eh eh acurácia e robustez vou falar de robustez depois na frente tá e eu tô tendo dificuldade é para
ler mesmo níveis apropriados ao adjetivo de confiabilidade né grau de supervisão humana adequados representativos adequad tem adequado para tudo quanto é lado eu não vou falar mais de regulação Tá mas assim eh eu eu acho que eu vou falar né a Renata antecipou isso eu Espero realmente que o Brasil adote um caminho multissetorial multidisciplinar para acompanhar EA e o cgi é um exemplo ótimo disso porque senão gente vai ser uma confusão Vocês não fazem ideia Tá bom então vamos lá quando a gente fala de auditoria a coisa começa a ficar mais horizontalizada né né então
existem diversas propostas isso aqui é um arcabouo que foi proposto pelas supremas cortes de Finlândia Alemanha Holanda Noruega e Reino Unido e ele traz os cinco Pilares típicos ali de governança e gestão né quem faz o qu onde e e e aqui eu reforço a questão do multiss setor e do multidisciplinar quem é o usuário final onde está a sociedade Onde está o interesse da sociedade isso tem isso tem que constar do do do do do do pano de fundo né dados né sim temos muitos dados e temos muitos problemas de qualidade de dados e
isso é o a pontinha do iceberg Porque a partir dos dados a gente vai construir modelos e aí a gente vai cobrar a responsabilidade dos modelos Só que os dados já tavam errados os dados já não tinha qualidade os dados já carregavam vieses né H há há 10 anos atrás a gente fez uma pesquisa né o professor Virgílio e eu que a gente olhou o o o o estigma de máquinas de busca de imagem em relação à beleza tá E e naquela época a gente conseguiu identificar claramente um estereótipo do que era uma mulher bonita
Branca cabelos lisos longos 30 anos de idade né E aí quando você confronta isso com as empresas elas falam mas isso é o mundo não sou eu eu só tô refletindo no mundo então isso dá uma ideia de como é que isso não é uma coisa contemporânea assim imediata monitoramento e evolução é o é a briga do Tuca aí né é grande porque porque a A questão não é só tecnológica a questão é da sociedade é como é que essa essa ia tá tá se envolvendo na sociedade eu vou vou falar um pouco mais sobre
isso daqui a pouco e e dentro de uma avaliação até que ponto que esses aspectos ées valores humanos estão colocados eu vou dar um outro exemplo para vocês aqui que eu não não resisti a falar do pl tá onde é que tá o grande desafio disso eu vou dar alguns exemplos é o dinamismo nós estamos falando de um alvo móvel tá a tecnologia tá evoluindo numa velocidade muito grande e as pessoas estão evolu indo né Elas vão mudar a forma delas vamos vamos vamos fazer a pergunta do dia aqui há quanto tempo eu eu sou
da época do mapa em papel Há quanto tempo alguém não abre um mapa em papel nessa sala eu sou da época do mapa em papel os meus filhos nunca abriram um mapa em papel então muita coisa tá mudando e tá mudando muito rápido e aí a gente tem lá no artigo 32 né uma garantia de 10 anos paraos sistemas de a gente quem se lembra as tecnologias que usava há 10 anos então tem umas coisas assim que eu fico pensando como é que eu como responsável técnico de um sistema 10 anos depois né bom eh
10 segundos de marketing nós temos então o centro de inovação e inteligência artificial em saúde coordenar pelo professor Virgílio ele tá dentro dos centros de pesquisa aplicado apoiados pelo mcti pela Fapesp e é uma coisa que a gente considera né que nós nos orgulhamos muito é que desde a sua concepção isso aí é o é o é o diagrama das linhas de pesquisa em a na concepção dele a gente falava sobre a responsável a gente não dava esse nome porque ainda não tava um nome muito em voga mas a gente já falava sobre o atendimento
à ética e Valores Humanos ali mas essa questão né vocês notem que o resto da figura é uma figura muito típica né um sistema de três níveis a a a questão dos requisitos técnicos etc mas aqui tem duas coisas que eu acho que chamam atenção que eu queria reforçar que eu coloquei ali embaixo tá você suportar a ética e Valores Humanos nesses sistemas nos sistemas existentes basicamente vai exigir a reconstrução desses sistemas né a entre aspas as funções objetivo desse sistemas não consideram esses aspectos éticos e esses valores humanos e mais ainda eh trabalhar o
compromisso entre os requisitos técnicos típicos de sistemas de computação aspectos éticos e Valores Humanos ainda é um um problema em aberto em muitos cenários em muitas dimensões tá então isso aqui até certo ponto justifica o o a a necessidade de se fazer pesquisa para que e eh simplesmente a gente não não não não entenda o que que tá acontecendo E aí a gente começa a falar mais de a responsável né e e e e é interessante como é que tem brotado termos novos né o termo mais a coisa assim que que é muito chocante é
é o que se chama de fatualidade essa tradução é minha viu gente eu não sei se ela é correta não mas em inglês eles estão usando muito factuality né que é aquela coisa meio Miragem né então fala assim mas pera aí mas o sistema tá respondendo isso será que ele tá falando corretamente tem milhares de exemplos de gente que foi morta de gente que reviveu de gente que ganhou prêmio eu acho que todo mundo que já testou a sua biografia numa numa llm ficou surpreso como é certas coisas que você não se lembra estão lá
né questão de lastro de consistência então então o que que aconteceu lembra que eu comentei com vocês que eh eh é um novo conjunto de métricas é um novo conjunto de critérios que vão ter que ser considerados e que não estão sendo considerados ainda né então quando a gente fala do esses já estão mais assim debatidos Justiça responsabilidade privacidade transparência e questões também de segurança e também de contextualização tá não vou detalhar todos eles não porque eu quero dar dar um tempo para discutir algumas outras coisas um conceito que é interessantíssimo e eu vou chegar
nele também é o de beneficiência beneficência né o modelo sempre atua de boa fé tá imagina a confusão para medir uma coisa dessa e eu vou explicar para vocês um pouco sobre isso daqui a pouco tá nessa direção dentro do centro de ia a gente tem implementado com apoio da Secretaria de Saúde digital um núcleo de I responsável para saúde tá onde pelo menos no contexto da saúde a gente tenta estruturar essas várias questões e propor ações em termos de governança dados e modelos e aplicações e e vou vou falar de alguns exemplos de de
como que isso pode né já vem acontecendo mas eu vou voltar um pouco né Porque como foi colocado por por pelos painelistas a gente teve um momento que era razoavelmente controlado até o fim de 2022 E Agora Nós estamos num momento que eu considero de descontrole Total tá a gente não tem ideia do que que tá acontecendo nesse mundo das llms ou como que as coisas estão sendo feitas ou o quanto que isso foi flagado por uma companhia todas as outras correram atrás e agora o mundo todo tá correndo atrás tá até o até o
fim de 2022 a gente tinha uma coisa assim aá etc tal já tinha problemas agora a gente tem né uma coisa que tá bem bem complicada bem bem difícil mas vamos voltar aqui que eu quero trazer um aspecto técnico para vocês e e e e e talvez ilustrar eh uma dificuldade que é nessa questão da da observação e da avaliação né um dos conceitos mais fundamentais desculpa aqueles que já são técnicos né mas tem um dos conceitos mais fundamentais da ia é em particular do aprendizado de máquina é o contraste entre programação e aprendizado matematicamente
a gente tá falando de indução versus dedução né Ou seja você quando você faz um programa né você traduz aquele conhecimento seu em instruções desculpa [Música] gente eh você traduz aquele programa né aquele o seu conhecimento para executar uma tarefa né e e já o aprendizado de máquina ele é diferente né ele aprende a partir dos dados então né eu tenho uma parceria de longo prazo com eu e outros pesquisadores com o nick BR na área de spam e ele não acaba né O espan tá lá o Fishing tá lá as coisas estão lá e
e vai mudando etc então assim a gente não tem um algoritmo para dizer isso é span ou isso não é spam mas a gente a partir de uma quantidade de dados razoável a gente aprende com isso isso explica muita coisa né no sentido Por que as grandes empresas de tecnologia querem tanto os nossos dados pagam por isso entre aspas provendo serviços gratuitos etc porque é a partir deles que elas aprendem Tá mas a questão que que que hoje fica mais clara é que sim modelos aprendem a partir de dados mas esses dados podem conter mais
conhecimento do que Esperamos que ele aprenda gente nós intuitivamente nós fazemos isso né Nós temos uma uma visão periférica ET etc a gente tá sempre capturando muito mais do que objetivamente a gente tá prestando atenção naquele momento né então isso é pode ser pro bem eu vou mostrar um exemplo mas isso também pode ser complicado e levar para outros lados Então veja bem os dados Existem os dados estão aí e por mais que se fala de privacidade etc existe uma coisa O nome disso é uma informação latente nos dados que está sendo e de vez
em quando ela Brota como uma Alucinação né Vamos lá bom isso é um exemplo de um trabalho que nós fizemos lá no centro que é um modelo de aprendizado profundo para eletrocardiograma né então coisa clássica né pré GPT né onde a gente tinha lá um conjunto de eletrocardiogramas muito grande de um serviço de Telessaúde E aí nós construímos um modelo que ele se equipara a cardiologistas em termos de identificação de algumas doenças né trabalho clássico de né Eh o que foi interessante nesse trabalho é que a partir do mesmo modelo né E aí eu tô
ilustrando bom uso e na verdade para mim é um dos usos mais interessantes da ia a partir do mesmo modelo a gente conseguiu criar também um modelo que estima a idade cardiológica que que é idade cardiológica Gente vou aqui fazer a minha Aventura Médica aqui o seu coração dependendo né de toda o seu a sua sua história de vida aí ele pode ser mais velho ou mais novo ou da sua idade cronológica quanto mais ele for mais velho do que a sua idade cronológica maior é a chance de você morrer né Quanto mais você tratou
bem o seu coração e ele for mais novo do que a idade cronológica melhor né a sua qualidade a sua perspectiva de sobrevivência Então a partir desse modelo né a gente conseguiu aqui tem algumas curvas de sobrevivência a curva que cai mais rápido é exatamente a curva daquelas pessoas que o nosso modelo previu como corações envelhecidos tá que é um conceito subjetivo pro médico ou seja não é um diagnóstico o o os médicos cardiologistas eles não são treinados para chegar e falar assim ah o seu coração é mais velho ele olha aquilo de uma conjuntura
mais Ampla e fala é realmente você já tem um coração que não tem a capacidade todo etc mas é que a partir de um eletrocardiograma né usando várias cortes aí o nosso modelo foi capaz de estimar a idade cardiológica daqueles pacientes e olhando historicamente aqueles que a gente disse que tinham o coração mais envelhecido morreram mais Tá ok Não não tô não tô fazendo troça não não vejam bem a o eletrocardiograma só só o professor Antônio Ribeiro lá do centro de para saúde ele faz remotamente 7.000 por dia é o exame mais popular em cardiologia
Toda vez que você entra numa ambulância do SAMU você entra no pronto socorro a primeira coisa que eles fazem el diograma então vocês Imaginem o impacto que isso pode ter em termos de saúde pública no sentido de não apenas eu dizer que aquele coração está envelhecido mas eu alertar o médico cardiologista que olha você tem um paciente que potencialmente tem que ser melhor tratado tá essa informação não foi a informação que a gente quis a gente queria prever doença só que entre os eletrocardiogramas 70% normais a vem uma outra característica muito interessante da área de
saúde tá o normal em eletrocardiografia não é um diagnóstico é a ausência de um diagnóstico quando você não tem nada é normal então não existe o normal o normal é o que não é normal o que para n profissionais de computação cura gente né porque aí é o zero zero é zero 0 x 0 é 0 0 + 0 é 0 tudo é zero é o normal né bom mas vamos em frente então esse é um bom exemplo do que o modelo aprende que não era para necessariamente ter aprendido e nesse caso ele foi usado
pro bem obviamente que pode ser usado pro mal dependendo do contexto aí mas vamos em frente a gente também trabalhou né Eh a questão questões de interpretabilidade então ali é o quê dado um diagnóstico que o modelo tá gerando ou a gente faz um mapinha de calor mostrando no eh no SG o que que explica aquele diagnóstico uma coisa bem bem tranquila também já foi publicada h mais anos etc mas o que que a gente aprendeu com isso a gente aprendeu que convencer as pessoas que o modelo te D uma informação precisa não é simples
em particular em atividades de Missão crítica como a saúde tá E e isso vai diretamente à questão que a gente falou de avaliação de Transparência de inteligibilidade Então o que é a inteligibilidade pro médico o que é a inteligibilidade pro leigo isso são mundos completamente diferentes tá E aí quando a gente leva isso pra pergunta de O que é e a responsável em saúde a gente começa a ver que várias das perguntas já estão muito próximas da gente né as evidências fazem sentido o que que explica esse diagnóstico o diagnóstico discrimina grupos como garantir a
qualidade dos diagnósticos né o conjunto de dados representa a população brasileira esses dias eu assisti uma uma uma apresentação de uma pesquisadora dizendo que nos bancos de Genoma mundiais a a América do Sul ou ou a parte sul do do mundo ela tem acho que 5% dos genomas Então os bancos de genomas mundiais eles estão pegando a população caucasiana do norte e é isso e a gente vai usar os medicamentos estão sendo feitos com base nisso tá eh e dentro do Brasil gente Brasil país extremamente diverso etnicamente em termos de desenvolvimento humano em termos de
condições climáticas que funciona lá no no chui vai funcionar lá no esqueci o lugar do Amapá lá que é o ponto mais ao norte né na verdade rog né e diagnósticos são CL Seguros confiad vou falar disso E aí tem uma pergunta que é clássica clássica de sempre da tecnologia na época que eu tava lá na graduação essa pergunta aparecia toda hora Qual que é o limite da automação a pergunta que o rapaz fez lá sobre os artistas até onde que isso vai gente nem tem resposta tá regulação e legislação já falei bastante né e
e até essa pergunta O que um profissional de saúde deve saber no contexto de a responsável nós temos um problema de Formação gigante nas nossas escolas em geral tá então isso isso é um exemplo mas vamos falar um pouquinho né vou tô tô quase terminando aqui dar tempo as perguntas e vamos falar um pouquinho de segurança e robustez desses modelos que é um aspecto crítico né Por quê Porque se não tiver segurança e robustez alguém vai morrer né Eh então três daquelas perguntas que eu coloquei falam sobre isso né os diagnósticos automatizados são clinicamente seguros
confiáveis de limites da automação modelo etc a tem uma série de estratégias que são usadas aí na literatura para medir segurança e robustez Né desde coisa manual né usando supervisão humana coisas amostrais que são muito típicas transferência de outros domínios Então pessoal técnico conhece grande parte dessas coisas ali tá a gente é que para alguns modelos e é isso que eu vou tentar falar para vocês agora nada disso realmente funciona muito tá a a a pergunta em particular esses grandes modelos de linguagem ninguém sabe avaliá-los eu vou tentar dar um exemplo para vocês aqui tá
por conta daquela questão lá de trás que eu coloquei que eles aprendem a gente a gente fala assim aprende isso aí ele fala ah aprendi mas ele aprende outras coisas também e isso vai brotar lá daqui a 3 km Então vou vou voltar aqui vou pegar um outro exemplo eu não tenho um exemplo em saúde mas eu tenho um exemplo que é bastante amplo que é o nosso Exame Nacional do Ensino Médio tá que que ele é bom né Ele é bom porque ele tem muito dado né são milhões de de eh eh pessoas que
fazem esse exame ao longo dos anos e e ele olha um espectro amplo de conhecimentos né então não não é uma pergunta surpreendente você pegar as llms e colocar para fazer esse ené né são quatro provas né matemática ciências da natureza ciências humanas e linguagens e quando a gente olha né a a as llms então aqui esse gráfico aqui eu tenho que explicar para para vocês entenderem então a mancha Eu ainda tenho uma dificuldade gente se eu errar vocês me perdoem assim eu sou daltônico completamente tá a mancha aparentemente azul é azul mesmo Aquilo é
a população tá as pessoas todas os milhões de de de de estudantes que fizeram O Eném né Cada pontinho ali é uma llm e no eixo do x a a gente tem a acurácia no eixo do y a gente tem o tri que é a teoria de resposta ao item que é como que é a dificuldade da questão tá então a ali humanidades notem que as llms T algumas que até superam o desempenho da maioria né Eh linguagens também vão bem ciências naturais já fica mais variável e matemática é um desastre né Eh quando a
gente olha assim fala assim no né acabou né Elas são melhores que a maior parte da população do Brasil será vamos ver não é tão bem assim tá Por quê Porque o conceito fundamental por trás da teoria de resposta ao item é que se a pessoa acerta a fácil Desculpa se a pessoa acerta difícil ela tem que ter acertada a fácil sobre o mesmo tema toda a teoria de resposta ao item ela se baseia nesse princípio é um princípio só isso que eu quero enfatizar aqui a gente tá colocando llms diante de um princípio né
E aí a gente foi entender o que que tava acontecendo eu vou dar alguns exemplos depois por que que né o que elas são boas assim mesmo aí a gente começa a olhar né esses gráficos esse gráfico aqui eu tenho que explicar também então em cima de cada uma das quatro provas aquele gráfico em cima lá é a dificuldade do item então a gente ordenou as questões por dificuldade tá e cada linha ali preto branco cinza etc é uma uma llm português e inglês tá E e o quanto mais escuro for o quadradinho mais acertou
quanto mais claro o quadradinho mais errou que que a gente vê que humanidades lá algumas acertam muito outras não acertam tanto etc até que vira matemática aqui que é quase tudo branco mas o que que chama atenção nisso é que vocês notem que não é um espectro regular de preto para branco do nada você tem questões como uma no meio ali da humanidade que quase todo mundo errou tudo né aí a mesma coisa acontece nos outros e E você tem questões da a difícil que vários acertaram a questão então o que que tá acontecendo né
a gente aprofundou mais essa discussão tá eh e aí a teoria de resposta ao item ela tem um gráfico que chama lz lz basicamente é um gráfico normalizado de desempenho que leva em consideração essa medida normalizada de desempenho em relação à população né tipo um zor tá E e ele tem a teoria de resposta a E aí Acontece uma coisa muito legal aqui né que quando você tem lzs negativos significa inconsistência significa que aquele caso daquele aluno que colou ou que chutou porque ele não corresponde ao que o tri fala né e de novo né
a mancha azul é a população população real humana né e os pontinhos são llms as mais variadas com as suas variações é importante também mencionar que quando ela tem o pontinho que é a mesma cor e ele tá espalhado isso aí São simplesmente sementes diferentes na execução da llm Ou seja é a mesma llm mas ela tá separada mas aí quando você olha isso você vê que tem várias llms né Inclusive a que se desempenhavam muito bem o GPT lá na época 3.5 que a gente utilizou que elas estão fora da população né Elas não
são humanas elas não satisfazem as premissas do exame né A gente pegou um alien e colocou para fazer o Enem né Foi isso é isso aqui ó o que esse gráfico mostra é isso né Aí você fala ah não mas olha a matemática a matemática elas são são Mas é porque aquele lugar ali ó a do Tri da Matemática embaixo à direita ali é o chute gente a a a o desempenho da llm ela é compatível com as pessoas que chutam a prova de matemática toda tá E aí só para concluir esse ponto eu vou
vou colocar uma uma discussão maior aqui eh o que que que que a gente consegue aprender com isso aqui né é que algum né e eh eh eh Será que faz sentido a gente avaliar essas llms com instrumentos de avaliação né Eu eu acho que não por vamos pegar uns exemplos aqui pegar vou falar duas observações aqui a primeira observação é a seguinte a gente foi entender essas questões que eles erravam né E aí nos chamou a atenção a seguinte coisa a gente viu três casos muito típicos um Inclusive tem tem uma coisa meio né
complicada da gente pensar que os erros que elas cometeram o primeiro caso que era clássico em geral as llms trabalham muito mal com isso são questões que T imagem el fal assim mas como assim como é que viu imagem falei não não é porque esqueci de mencionar a gente usou o Enem para cegos tá então quando a gente viu o quão mal né as llms desempenhavam nas questões que tinham imagens e que são descritas a gente parou para pensar o que que os pobres dos deficientes visuais estão sofrendo no ENEM tá segundo caso é um
caso até intuitivo né quanto maior o texto da questão maior a probabilidade da llm errar ou seja tem claramente uma questão de memória de curto prazo mas o terceiro caso ninguém conseguiu explicar se alguém da audiência tiver alguma explicação é Bem dito são cinco itens são cinco questões né a lógica do Enem ela é de que em geral aquela coisa clássica de múltipla escolha né você fica sempre entre duas uma é a certa a outra é a pegadinha né tem um nome técnico se eu esqueci qual que é né Eh e se são cinco questões
se a gente pegar vão ser quantas 120 permutações possíveis né Você pode ordenar aquelas questões de 120 formas diferentes eh o desempenho da llm muda completamente dependendo da permutação isso não faz sentido isso não é humano a menos da galera que marca D isso não é humano Então tem alguma coisa em alguma dimensão que a gente não tá capturando né aí vem a pergunta Como avaliar llms e Como avaliar e né considerando que isso as llms se tornaram uma coisa chave aí nesse processo todo eh num evento que eu participei recentemente o debate para vocês
tem uma ideia como é que a coisa tá confusa o debate era se llms tinham habilidades ou memorização e na habilidade na habilidade tinha uma o pesquisador foi bem interessante a proposta dele ele considerou 100 habilidades básicas e Ele mediu se a llm era capaz de compor habilidades básicas né e deu uns resultados bem bem surpreendentes então tem né metade do pessoal fala assim a llm tem habilidades e é capaz de compô-las aí o outro pessoal fala assim não a llm é um papagaio ela só repete o que ela já vu e ninguém chegou à
conclusão ainda tá mas de de qualquer maneira quando a gente pensa na na na Miria de de instrumentos de avaliação que nós temos né de toda ordem por exemplo um que a gente tá trabalhando agora até por conta da saúde é o o exame revalida né que também é do INEP também é baseado em tri mas mas o o aí eu desenhei esse gráfico né diagrama de venha aqui que eu acho que reflete um pouco o que que se passa na minha cabeça nesse momento tá a gente tem aqui à direita instrumentos de avaliação Para
humanos eles já estão aí né eles já levam em consideração sérias várias premissas tem uma premissa que não faz sentido para llm que é o seguinte que a pessoa cansa ao longo da prova mas não cansa ao longo da prova então você não pode levar em consideração que ela cansou e aquilo ser um uma forma impactar a avaliação de alguma maneira e e entre elas várias outras tá e do outro lado você tem lá avaliação de llms sim existe um espaço de interseção nessas coisas que não necessariamente a gente sabe E existe um espaço que
tá lá do outro lado que é esse do que ela aprende que a gente não sabe essas questões de habilidades etc a da boa fé e e outros critérios que já estão surgindo então o o ponto em particular um ponto de pesquisa é como que a gente faz isso né e qual que é o impacto que isso vai ter em termos do uso da ia pela sociedade como um todo né porque voltando à questão do dinamismo gente tem um aspecto que eu acho que é novo paraa maior parte da sociedade durante né a dos últimos
20 5 anos né trabalhei muito com Virgília em caracterizar o comportamento de usuários na internet e a gente viu de tudo né Ou seja notem que nossos usuários são criativos né a gente vive um momento muito peculiar na internet com duas internets que não conversam entre si um negócio nós estamos num momento muito complicado eh mas eu acho que vem da coisa humana agora a a questão que é nova e a desafiadora é que não são só os usuários que são alvos móveis a tecnologia virou um alvo móvel como é que você lida com isso
a gente tava trabalhando no mundo unidimensional usuários né aí de repente a gente tem um mundo bidimensional de uma tecnologia que também a gente não sabe o que esperar dela e nem da interação dela com os usuários então eu acredito que haja muito espaço para essa discussão né e ela é muito complicada e ela e ela não não fala assim ah resolveu numa áa tá resol não como o rapaz das Artes aí falou tem dimensões que a gente nem faz ideia ainda tá então é uma é uma mudança e isso é talvez o que mais
me assusta no PL é é o estático né a gente tá falando de uma coisa que tá ali congelada a área de computação ela tem uma premissa que a gente há anos a gente tem um PL lá uma tentativa de PL ou coisa assim que proíbe a regulamentação da área de computação porque ela muda muito o último PL que que nós derrubamos como área falava de digitador a profissão de digitador o o senhor ali levantou uma coisa nova engenharia de prompt vai tá no PL já a profissão de engenheiro de prompt duvido e duvido até
que ela sobreviva sinceramente do ponto de vista técnico tá então me assusta mais essa coisa de que eu não sei se a gente tem uma experiência de algo que seja dinâmico e Dimensional os dois são dinâmicos tá ô acabando bom eh por outro lado eu acho que é uma uma realidade né não tem como dizer que dados e algoritmos não vieram para ficar tá ética e valores humanos são fundamentais porque agora dados eu sou de uma época gente que quando eu falava ah fiz um algoritmo aí a pessoa me corrigia e falava assim logaritmo né
hoje todo mundo sabe o que é um algoritmo isso é de uma responsabilidade social e técnica da área de computação como um todo não trivial nós nós somos uma coisa a serviço da sociedade nesse sentido tá sistemas atuais são insatisfatórios eles não foram pensados como um instrumento para sociedade né por outro lado a gente tem que tem que pensar e essa a grande provocação o o as pessoas vão estar reinserido patamar porque quando você fala de justiça transparência e eh auditabilidade tudo isso só vai poder ser validado e ratificado por um humano Então aquela falácia
que eu acho que falara assim as máquinas vão substituir o homem não vão só que a gente vai entrar numa outra num outro patamar diferente do do que a gente tá hoje né e há um problema multiset e mul ar e eu eu vejo isso com muito otimismo eu acho que mais uma vez a gente tem uma oportunidade de tentar fazer algo não só importante Tecnicamente mas também pro nosso país muito obrigado viu gente espero que tenha sido Interessante não sei é o critério aí ele é o dono eu só só alô eh pessoal a
gente não vai ter tempo para perguntas para poder manter a programação no horário a gente vai quer uma pergunta então para ter ali já ficou tá uma pergunta para depois poder ter o intervalo a gente poderia tentar manter a programação mais próxima possível do horário por gentileza então meu nome é Carlos gabaldo eu sou auditor há mais de 30 anos eu quero parabenizar você porque você fez um um relatório de auditoria sobre A Extraordinário eu nunca tinha ouvido nunca tinha visto um relatório tão perfeito eu só quero parabenizar mesmo foi Fantástico você Olha você provou
o que eu vejo direto com sistema de segurança em condomínio eu não quero detalhar aqui mas são coisas Absurdos Então eu acho que você fez assim um apanhado bem técnico e bem profissional Parabéns professor M obrigado se você pudesse eu queria cópia da sua presença com a organização tá Wagner Então eu queria agradecer muito pela excelente kin obrigado pela oportunidade vi espero que tenha sido Mimo divertido e avisar que eh a gente vai ter 5 minutos de intervalo para água e café e a gente vai voltar para manter um pouco mais de 5 minutos para
fazer mas tentar voltar o mais próximo possível do pra gente poder continuar a programação do evento e preservar o horário do intervalo de almoço obrig n