É, pessoal, hoje a gente vai ver como é que faz uma versão do operator, uma coisa estilo manos para controlar o navegador e colocar um agente ali que faz tarefas localmente no computador. Isso significa que a gente só vai gastar a luz que a gente vai utilizar. Mas vamos entender em detalhes como é que a gente chega até lá.
Então vem comigo. Vamos lá, pessoal. sempre agradecendo a todo mundo que deixou o seu like, a todo mundo que inscreveu.
Um agradecimento especial a todos os membros do canal que patrocinam esse canal aqui de inteligência artificial. Sempre lembrando que os membros têm acesso a vídeos exclusivos de agentes inteligentes e tem uma playlist completa que te leva desde a construção de um agente até a integração com WhatsApp e também tem vídeos antecipados. Então, no vídeo de hoje, a gente vai falar sobre esse browser aqui, ó, que diz aqui, ó, habilite a para controlar seu navegador.
Bom, há muito tempo atrás o pessoal da Manus já tinha falado que eles utilizam o browser used para fazer navegação enquanto o Manos faz as operações deles ali. Eu até fiz um vídeo na época contando os segredos da Manos ali e expliquei isso que eu vou explicar hoje. Porém, temos detalhes, temos novidades que naquela época eu não sabia e que agora tô sabendo que faz toda a diferença.
E o que que esse browser use faz? O browser use faz isso aqui, ó. Navegação, fica ali consultando o preço, fazendo tudo automatizado.
Nessa telinha aqui tá controlando o agente e nesse canto esquerdo tá enlouquecido ali, clicando em um monte de coisas, consultando preço, fazendo um monte de coisas automatizadas para você. É isso que a gente vai aprender a fazer aqui, colocar a inteligência artificial para trabalhar pra gente no nosso computador e vai fazer isso localmente, totalmente gratuito. Vem comigo.
Bom, esse projeto aqui é um projeto que se você quiser, você pode utilizar ele aqui online, né? Então vai ter uma assinatura aqui que você pode fazer totalmente gratuita e que você só paga por aquilo que você usa. Fechou?
Isso aqui funciona. E tem esses planos aqui que você paga também. Porém, esse cara aqui é um código aberto, é um código livre.
E esse browser aqui você pode simplesmente instalar no seu computador e utilizar. Então, por exemplo, para rodar utilizando o Python é pip installer use. Bem tranquilo, ele já vai instalar.
E depois ele tá utilizando aqui o patch write, que é o novo playrht que consegue fazer navegação. Na verdade, esse patch rightght aqui, ele faz umas melhorias ali que ele consegue driblar melhor as detecções de bot que existem. Mas eu confesso para vocês que eu instalei o Playright.
Por quê? O Playwright aqui é feito pela galera da Microsoft, né? E ele integra com Chromium, com Web Kit e com Firefox.
Já o Patch Wright, ele é feito pela comunidade e só funciona com o Chromium. Talvez isso não seja um problema, mas de qualquer forma vocês já estão entendendo porque que mudou, né? Ó a explicação aqui, ó.
O Patch é uma versão corrigida e não detectada do Playwright Testing e automation Framework. Ele pode ser usado como um substituto imediato do Playwright. Então fica por sua conta se você vai utilizar o patch Wright ou Playwright.
Mas de qualquer forma, você tem que dar um pip install ou um pip install. E depois que você fizer isso, você dá um playw ou patch right install Chromium, que daí ele vai fazer a instalação tudo certinho. Feito isso, você já consegue rodar aqui um exemplinho que ele tá utilizando GPT for0 e que é bem simples, né?
Ó, ele carrega a biblioteca do browser use, carrega a biblioteca do chat GPT, aqui cria um agente super simples para comparar o preço do GPT forow e do Deepsic V3. Ele roda o agente e o agente vai funcionar, tá? Mas vocês já sabem que a gente não vai fazer isso com essa telinha feia aqui.
O que a gente vai utilizar é esse web UI aqui, que vai ser uma extensãozinha ali que faz uma interface gráfica e facilita um pouco ali o nosso uso. E a instalação desse cara aqui é basicamente clonar esse repositório aqui e entrar no diretório web Wi, fazer as instalações e todas as dependências e das bibliotecas que são necessárias. Se você não tiver utilizando o UV, é só não escrever UV, coloca o pip install daqui para frente e depois com isso tudo instalado, Pythonwebi.
p. E aí, se você quiser configurar o teu IP, a tua porta, você fica à vontade. Mas vamos lá para entender na prática como é que isso funciona.
Bom, o que que você vai ter que fazer aqui é dar um pip installe. No meu caso, eu já instalei, então não vai acontecer nada, ele vai dizer que já tá tudo instalado. Depois de ser instalado, pip install, que aqui no meu caso vai dar na mesma coisa, já tá instalado.
E aí para finalizar, Playwrite Install Chromium, que também no meu caso também já tá instalado, então não vai acontecer nada, mas aí na casa de vocês ele vai instalar. Depois a gente vem aqui no site do web UI, vai fazer um clone desse site aqui. No meu caso eu não vou clonar de novo porque ele vai acabar apagando.
E depois disso você dá um CD web Wii e dá um Python men pip install - rrequirements. txt. E aí ele ia fazer uma instalação bem mais longa dessa vez.
Pode mandar ver. Eu também não vou fazer isso de novo, mas isso aqui vai dar certo para vocês. Com isso, tudo funcionando, é só da Python Web.
E agora vai chegar na parte que a gente interessa, que vai subir esse sisteminha. E agora sim a gente vai conseguir ver o que que tá acontecendo aqui. Eu vou clicar aqui para ele abrir esse link e ele vai cair nessa telinha aqui, ó, de browser use weby, em que tem as configurações do agente, as configurações do navegador, rodar o agente, um marketplace aqui de agentes e configurações que você consegue salvar e carregar.
Então, o que que você vai fazer? Vem aqui nos agentes. Se você quiser fazer uns testes iniciais para ver como é que a coisa funciona, eu recomendo você colocar aqui open AI, coloca o GPT 40 e coloca a tua PI ke aqui que vai funcionar.
E um detalhe interessante e esse que eu não sabia, tá vendo aqui que você consegue optar por utilizar ou não a visão? Então significa que se você tiver utilizando um modelo local que não tem visão, você vai configurar o teu modelo aqui e vai funcionar. E ele aceita, por exemplo, o olhama, que é um sisteminha que você roda localmente e que depois eu vou contar o que que aconteceu quando utilizei ele e explicar como é que eu fiz para ele funcionar.
Na verdade, eu utilizei a própria P de Open AI porque direto no olhama não rolou. Então, ó, eu vou deixar o GPT 40 aqui. Aqui no planner eu vou colocar o GPT 40 também.
E não vou ligar a visão em nenhum dos dois casos. Vou deixar assim. Não vou mexer aqui no máximo de passos que tá em 100 e não vou mexer no máximo de ações aqui que são 10 para cada passo.
Isso significa que se o seu agente demorar mais de 100 passos para fazer uma tarefa, ele vai parar no meio dela, não importa o que aconteça. Isso ajuda aqui caso o seu agente entre em loop infinito ali e você não gaste todo o seu dinheiro da tua vida que você juntou com tanto esforço, rodando um sisteminha de IA, né, gente? A gente não quer isso.
Então, na versãozinha final, tudo configurado, GPT forow, Open AI, AP key, tudo funcionando. Us vision vai ficar desabilitado e tá tudo certo. Depois a gente vem aqui no browser settings e vai deixar aqui selecionado aqui, ó, deixar o navegador aberto, tá entendido?
As opções é utilizar o seu navegador próprio, que pelo que eu entendi é utilizar o seu próprio navegador, que eu não recomendo por questões de segurança. Deixa o navegador aberto porque você consegue visualizar o que que tá acontecendo, inclusive intervia se você quiser. Esse modo aqui que é sem a interface gráfica, eu não recomendo.
Em geral deixar ele desabilitado. E a segurança aqui você não mexe nada, deixa ela habilitado. Se você quiser mudar o tamanho da janela do teu navegador, é aqui que você muda.
Como esse programinha aqui é um programinha bem simples, essa configuração só vai ser lida na primeira vez que você roda. Se você alterar ela depois que você começou, não vai fazer efeito. Então, se você quiser mudar, já muda agora.
Aqui ele vai gravar alguns históricos da gente e vai fazer o download de alguns prints da tela que ele tá tirando enquanto ele roda. Feito isso, gente, agora é vim pro run agent. Aqui é basicamente correr pro abraço.
Deixa eu diminuir um pouco a tela aqui que senão não vai caber. E eu vou pedir para ele aqui, ó, busque o site do inteligência 1000 grau e acesse ele. Então, gente, eu vou fazer uma coisa bem simples, só para demonstrar como é que ele funciona e depois eu vou comentar coisas que eu testei aqui que tem a ver.
Aí eu vou dar um submitk aqui. Ele vai começar a trabalhar, ó, o agente já começou a trabalhar. Aparece aqui, ó, busque o site de inteligência 1000 grau e acesse ele.
E aqui no nosso terminal vai começar a mostrar o que que o nosso agente tá fazendo. Por exemplo, passo um, tá fazendo uma análise aqui de estado. Ele tá raciocinando a tarefa precisa encontrar e acessar um site específico.
E aí ele vai primeiro fazer uma busca do site específico. Enquanto ele tá fazendo essa busca aqui, ó, ele começa a acessar, começa a tirar os prints, começa a mostrar tudo que ele tá fazendo, ó. Ele jogou ali o inteligência 1000 grau na busca, ele encontrou o site, já encontrou aqui, ó, e falou assim, ó, fechou, terminado com sucesso.
Maravilha, né, gente? Eu não tive nem tempo de explicar e ele já terminou. E se vocês perceberem para vocês, ó, vai aparecer isso que tá aparecendo para mim aqui também, o navegador que ele utilizou aqui com o site.
Esse aqui é o navegador do browser Use. Quando eu fico aqui utilizando aqui, que eu vejo ele mexer, ele simplesmente sai clicando que nem um doido. E essa que é a parte interessante.
Então vocês já perceberam, né? Funciona super bem ali. E quando a gente olha aqui as tarefas, ó, ele vai fazendo bem certinho, ó.
O passo um era fazer um planejamento, uma análise. Ele começa ali buscar aqui, ó, buscando pelo site inteligência 1000 grau no Google. Aí ele vai pro passo dois, ele começa a avaliar se deu certo, se as coisas foram clicadas, se apareceu o link ali para ele clicar, as coisas que ele tem que fazer, ele vai pro passo três, ele comenta ali, ó, o site foi aberto com sucesso e até que no fim ele faz uma ação aqui, ó, dizendo que foi tudo feito com sucesso, que tá tudo top e que rodou e que funcionou.
Bem interessante, né? Bem doido isso aqui, né, gente? Para falar a verdade, eu fico surpreso toda vez que eu vejo essa coisa acontecendo.
Ele mostra aqui que ele fez tudo isso em 38 segundos e mostra aqui embaixo aqui, ó, as etapas que ele foi fazendo. Ele faz um gif animado aqui de tudo que aconteceu conforme ele foi fazendo, né? Ele entrou nessa tela aqui, entrou no site e ali o texto, o que que ele tá fazendo?
O que que ele tá falando? E aí fica rodando em loop esse negócio. Se quiser fazer download, é só fazer o download aqui.
Aí algumas coisas que eu fiz aqui que eu achei estranho e achei interessante, mas que funciona. Por exemplo, busque o preço da coxinha no terminal de ônibus do centro de Floripa. Então, gente, o que que eu percebi?
Agora a gente vai assistir ele trabalhando aqui, ó. O que que eu percebi quando eu pedi, por exemplo, para ele fazer busca de preço de passagem de avião? Ele simplesmente começou a entrar nos sites.
Olha lá, ele já tá procurando o preço da coxinha, mas ele simplesmente começou a entrar nos sites, começou a querer comprar já as passagens. Eu só tinha perguntado o preço. Isso significa que tem que ser feito um trabalho do prompt ali antes de começar a utilizar essas coisas e colocar alguns detalhes a mais de perguntas para ele pedir autorização, de coisas para ele fazer.
Aqui ele já tá entrando aqui, ó. Monteverde, Florianópolis. Monteverde não é no centro, mas ele já começou a acessar os sites e ele tá tentando enlouquecidamente achar o preço de uma coxinha.
E é muito interessante assim que a gente tá conversando aqui e ele simplesmente vai dar um jeito de achar esse preço dessa coxinha. Aonde que a gente conseguiria fazer alguns ajustes aqui, ó? A gente consegue colocar aqui um prompt que vai passar por cima do prompt nativo dele ou a gente consegue fazer um prompt estendido para colocar coisas a mais, inclusive pedir autorização de certas coisas, né, para ele não sair fazendo igual um doido desembestado ali, ó, igual ele tá fazendo agora.
É interessante aqui, ó, que a gente consegue ver, ó, ele tá no passo 10 aqui e ele já começou a querer entrar no WhatsApp. Olha só, clicou no botão do WhatsApp. Muito provavelmente, se a gente ler com atenção aqui, eu acho que ele vai tentar entrar em contato mesmo, ó, fazer uma comunicação direta aqui com a central do salgado, pode ser mais rápido.
E aí, ó, ele vai tentar realmente abrir o WhatsApp. Isso que eu achei que tem que ter um pouco de atenção, porque ele sai fazendo ali, ele põe as coisas na cabeça e já sai fazendo que nem um doido. Ele não quer saber de te perguntar se pode fazer ou não.
Então você tem que complementar o prompt ali para ele não fazer essas coisas, para não sair comprando passagem e fazendo tudo enlouquecidamente. Bom, o que que eu vou fazer aqui nesse caso? Eu vou cancelar.
Eu não vou deixar ele ficar fazendo essas coisas do WhatsApp. Vocês já perceberam que ele vai fazer patetice. A gente volta aqui, vem pro nosso agente, eu vou dar um stop aqui, ó, e ele vai automaticamente já encerrar aqui.
Ele não vai continuar tentando encontrar o preço da coxinha lá, mas de qualquer forma, ó, a navegação, tudo que ele fez ali para chegar no negócio da coxinha, tá registrado aqui os passos, as etapas, o que que ele tava fazendo. Inclusive comentando aqui, ó, que o próximo passo dele é usar o WhatsApp para fazer o contato com a pessoa pr saber se tem coxinha disponível ali, ó, no terminal de Floripa, sendo que aqui não é o centro, né? Esse lugar que ele encontrou não é realmente o centro, tá?
Mas aí você deve estar se perguntando: "Mas, Bob, você não falou que ia ser local, que você não ia gastar nada, que a gente ia fazer tudo de graça? " Exatamente isso. Então agora, gente, vocês conseguem ver aqui que eu inclusive já tava testando, ó.
Se eu der um olhama PS, eu consigo ver os modelos que eu tô rodando. E não tô rodando modelo nenhum agora. Então vou dar um olhama run queen 3 4B, que é para carregar esse modelo aqui na memória.
Agora, como eu tô gravando, muito provavelmente não vai dar certo, porque da outra vez que eu tentei gravar modelo de A e gravar vídeo ao mesmo tempo, ficou tudo tão lento aqui que não dava para utilizar. Mas se eu der um olhama agora PS, vai aparecer que o Quen tá carregado, tá 100% na minha GPU. Esse modelo é um modelo super pequeno.
E agora o que a gente tem que fazer é pegar esse Quen 3B aqui, trocar o nome aqui do nosso GPT para 3B, porque ele fala aqui, ó, escolha o modelo no dropd, né, nas opções ou escreva diretamente o modelo customizado. E é o que a gente tá fazendo aqui, ó, utilizando Quen 3 de 4B, porque a minha GPU é ruim e aí que tá a diferença. Talvez na sua casa você consiga rodar uma versão do Quen bem melhor do que essa.
Eu consigo rodar a 8B, consigo rodar até a 14B, mas fica muito devagar para mim aqui, então não vale a pena. Você vai manter openi aqui porque o olhama tem compatibilidade com a openi. Agora o que fica faltando é essa base URL aqui você tem que mudar.
Se você não fez nenhuma alteração, se você não fez nada de diferente, rodou teu olhama tudo no padrão, é esse endereço aqui, ó. http 2/localhost 2. 1434/V1.
E a senha, gente, como o olhema não tem senha, deixa qualquer texto ali que vai funcionar. Só não deixa em branco, mas coloca pelo menos um caracter ali que é o suficiente. A senha vai ser a mesma, então vai ter que funcionar isso aqui igual.
Então agora eu vou rodar meu agente, vou voltar aqui, vou limpar essa tela aqui, vou no nosso navegador aqui e começar uma aba nova, porque eu já sei que esse modelo pequenininho é modelo pateta. e vou colocar aqui, ó, acesse o Google e busque por inteligência artificial. Então, isso significa que agora a coisa vai ficar super lenta, super demorada, mas mas agora ao mesmo tempo estamos de graça, não estamos pagando nada.
E por isso que eu espero que na sua casa ali, ó, ó lá, ele já começou, já acessou o Google ali bem certinho, já tá fazendo ali as buscas, escreveu ali inteligência artificial. E uma das coisas que eu percebi utilizando Coin TR aqui nesse modelinho pequeno é que agora na hora do clique de fazer a pesquisa agora foi ela ó lá agora só porque eu grave perfeito gente na na vale aquele like hein olha só fizemos uma busca aqui super rápida de graça. Tô até na dúvida se ele deu certo se ele tá usando Queen mesmo, porque ele foi definitivamente até o fim.
Eu acho que ele não utilizou Queen. Não, não. Mas ó, funcionou sim, ó.
Tá no modelo Quen 4B. Sim. Eu não sei porque que ficou rápido dessa vez.
Talvez eu tenha limpado um cash, tenha limpado a memória e por isso ficou bem mais rápido. Mas eu fiquei na dúvida se ele utilizou o Quen ou não. Eu vou iniciar e vou rodar de novo essa mesma busca, porque eu acho que ele não rodou aqui, ó.
Vamos lá de novo. Vou rodar o Python UI aqui. Ele já carregou, tá tudo certinho, tá tudo na memória aqui ainda.
E nós vamos colocar aqui, ó, busque inteligência artificial no Google. E vamos mandar pra gente ter certeza agora, porque tem que demorar, não pode ser tão rápido assim, ó. Agora é certeza que ele tá rodando ali, ó, no Quen 3B, no Quen 3 4B.
Aqui, ó. Aqui tá certinho. Estão lendo aqui, ó.
Quen 3 4B. É para ser muito mais lento. Não tem como ele ser mais rápido.
É porque é aquela coisa, a primeira configuração que ele faz ali é a que fica. Ó, ele já subiu o navegador aqui. Navegador funcionando.
Já começou o ventiladorzinho aqui soprar que nem um doido. Realmente, ele não tava utilizando não o Queen. Aquela hora.
O que eu percebi é que o Quen nesse modelinho 4B ele é meio zoadinho. Ele não só demora, como ele acaba errando na hora de dar os cliques. E foi por isso que eu desconfiei aquela hora aqui.
Ó, gente. Agora ele começa a demorar muito mais, mas ele tá funcionando. Ele começa assim fazer as buscas, ó.
Ele tá falando que realmente, ó, estamos numa página em branco, os elementos estão em branco, ele tem que navegar ali para fazer a busca de inteligência artificial. Ele tá realmente fazendo tudo isso, só que como é textão, ó, você tá vendo? Ele é um modelo de raciocínio.
Ó o tanto de texto que ele gera. Olha ali, ó. Ó lá.
Tá funcionando, ó. Ele já começou a chegar aqui, ó. Ele já tá entrando.
Como ele gera muito texto e tá rodando na minha placa de vídeo, que não é muito boa, que é uma 1060. É uma placa antiga. E vou te falar, até agora não tinha encontrado nenhuma razão para trocar ela, mas agora que eu percebi que dá para rodar o browser use aqui dentro do PC, é a primeira vez que eu vejo uma coisa útil que dá para fazer e que de repente valeria a pena fazer um upgrade.
Bom, vocês estão vendo já, né? Ele continua ali fazendo as coisas ali, ó. Tem que ali na busca e depois clicar ali no submit button que é o index 6.
Se vocês olharem aqui, ó, a pesquisa, ó, é o índice se ele precisa escrever o texto no índice dois, que é o que ele tá falando assim, ó, colocar o texto aqui no texta, no index 2. Então, é dessa forma que ele vai navegando. E por que que ele não precisa de imagens?
Porque ele tá pegando essas imagens aqui direto do navegador. Porque ele tá utilizando ali o playght, ó lá, ó. Colocou inteligência artificial.
E tecnicamente agora só falta a última coisa que é clicar no botão. Que da minha experiência clicar no botão utilizando Quen é a pior parte. Ele realmente nunca acerta.
Vamos ver se dessa vez que tá gravando funcionar, hein? Ele já detectou aqui que é o campo 17 que ele tem que clicar, hein? Essa parte tá bem clara, hein?
Só falta ali pro campo 17. Eu já vi o que que ele fez, ó. Ele tentou clicar, não conseguiu.
Ele clicou de novo na janela no campo dois. Ele não acertou o clique 17, mas existe uma chance dele dizer para si mesmo: "Não deu certo". Sim, porque eu tô vendo que ele achou aqui inteligência artificial, Google e um monte de coisas, quando na verdade ele não encontrou não.
Mas aqui, ó, essa execução dele, ó, tá bem certinha. Esse aqui é o co 3 de 4B que tá fazendo aí. Ele diz que ele tá esperando aqui o resultado da busca carregar, mas a verdade é que não vai carregar porque ele já clicou errado.
Eu vou encerrar aqui, não vou deixar ele terminar, vou clicar no stop porque eu já sei que ele vai ficar me enrolando e não vai conseguir clicar. Eu não sei porque que ele não acerta esse clique, mas eu acredito é porque é o modelo é pequeno mesmo. Ele consegue entender o que ele tem que fazer.
Alguns cliques ele acerta e outros ele não acerta. Então comenta aí você que tá testando na sua casa se você consegue fazer esse teste aqui, de repente rodando numa 4090 ou numa 5090 ou numa placa melhor assim e vê se dá certo rodando um modelinho maior. Mas a princípio é para funcionar assim, hein?
E aí, o que que você achou? Se animou para rodar modelo de inteligência artificial fazendo operator, rodando dentro do PC, sem precisar ficar fazendo assinatura? Aí sim, hein?
Comenta aqui que que você tá achando, se vai valer a pena fazer esse teste aí na sua casa. E eu vou dizer o seguinte, mesmo que não vale a pena, eu fiz vários testes utilizando for mini e funcionou super bem e com o for também. E uma das coisas que deixa caro é utilizar a visão, que é uma confirmação que ele pode fazer ou não.
E aí eu recomendo que se você não ativar a visão, vai ficar bem baratinho. Dá para utilizar o GPT 40 e dá para fazer muito teste com esse negócio aqui e fazer um monte de navegações. Essa parte aqui do agente market eu não testei, mas aparentemente são pessoas ali, ó, que estão fazendo agentes personalizados, já com prompts personalizados para fazer algumas coisas.
Inclusive, dá para carregar MCP Server. Eu também não testei o MCP Server. E no final aqui, ó, se você quiser gravar sua sessão, é só dar um save UI settings e ele vai gravar toda essa tela aqui, tudo que aconteceu com a gente, toda a sessão que ele fez, com as telinhas, com os logs e com tudo mais.
Então, já comenta aqui se você gostou desse negócio aqui. Uma coisa importante que vocês tm que ter em mente também é que só vai funcionar modelos que t ferramentas como acessório. Aqui, ó, tem que marcar aqui na tools e o seu modelo tem que acessar tools aqui, ó.
De preferência, se ele tiver visão e tus é melhor, mas aí os modelos que tm visão e toos ao mesmo tempo, eles são meio grandes. O Quen é um deles, o F é outro que também aceita tools. Então tem várias opções que aceitam tools.
Então fiquem atentos a esse detalhe. Se você quiser apoiar o canal para continuar vendo conteúdos como esse, seja membro. Os membros têm acesso a vídeos exclusivos de agentes inteligentes e vídeos antecipados.
É isso aí, deixa aquele like.