Montamos um COMPUTADOR apenas para rodar IA (e você também precisa de um?)

47.48k views2194 WordsCopy TextShare
Asimov Academy
Quer aprender mais sobre como trabalhar com IAs e LLMs locais? Confira a Trilha Aplicações IA com Py...
Video Transcript:
Esse é o A1 o super computador que construímos aqui nas imóvel com apenas um objetivo em mente rodar modelos de inteligência artificial com ele a gente consegue não só rodar llms a uma velocidade impressionante mas também testar modelos multimodais desenvolver projetos de visão computacional modelos de geração de imagem modelos de geração de vídeo transcrição de áudios e muitos dos projetos que vocês já viram ou vão seguir vendo no nosso canal Aqui foram e vão ser feitos nesse cara aqui e até o final desse vídeo eu vou testar com vocês o quão mais rápido é esse computador que uma máquina comum e também responder a importante pergunta que pode estar passando pela tua cabeça Você também precisa de um desses para trabalhar com ia e que peças Esse cara tem para começar a gente tem essa gabinete da Lian Lee lancool 3 três fãs que suga um ar por aqui um fuck joga para fora e muito espaço pras peças dele aqui dentro a gente tá utilizando o ryzen 9 7950x que é um processador que tem 16 núcleos e 32 threads top de linha para suportar tudo isso a gente usou uma Asus Prime x670 que é uma placa mãe que tem soquete a M5 compatível com esse processador que eu acabei de citar mas principalmente por ter suporte a duas placas de vídeo que é o que a gente colocou aqui embaixo Além do mais a gente tem aqui quatro memórias R ddr5 de 32 GB cada da Lancer um water cooler aqui em cima da kuger é o posidon Elite uma fonte de 1500 w aqui embaixo ele também tem TR ssds de 1 ta cada m2 um HD daqueles antigos mesmo que eu encontrei per perido aqui de 4 ta não são os principais só para ver Car e agora a parte mais importante desse setup duas placas de vídeo rtx 3090 de 24 GB de vram que por sorte a gente encontrou usada por R 4500 é esse cara aqui voa agora vamos levar esse cara pra casa é naquela salinha lá do canto que ele vai morar como vocês podem ver vocês estão chegando no porão das Imóveis aqui a gente tem uma série de coisas de outros computadores e outros projetos notebooks mas o que Import porta de fato tá aqui embaixo esse nosso computador tem acesso a um nobreak com internet dedicada refrigeração ligada 24 por7 tudo que ele precisa para não parar de trabalhar computador [Música] pesado eu sei galera eu podia ter uma cadeira aqui só que reparem o incrível sistema operacional que a gente colocou nesse super computador M server 24. 04 é galera só dá para controlar esse computador aqui com comandos de terminal e para quem estava esperando ver alguma gameplay de joguinho sinto muito não vai acontecer mas tudo isso porque a gente não vai controlar esse computador daqui na verdade é daqui que vamos utilizar ele e pronto eu já posso me conectar com a máquina através de uma conexão SSH e acreditem ou não eu estou dentro dela aqui olha as duas placas de vídeo que eu comentei e o nosso processador de 32 threads a parte mais legal é que o posso programar nesse cara de qualquer dispositivo inclusive de um iPad seguindo o mesmo processo a gente fez isso para que todos os membros da zimov possam se conectar naquela máquina e testar novos modelos de Inteligência Artificial sempre que forem lançados para trazer para vocês aqui OK mas quão poderoso de fato esse computador e para medir isso eu preparei aqui dois testes com modelos dei entre o A1 nosso super computador e esse outro incrível computador aqui que é o meu computador Diário de trabalho o MacBook Pro com processador M1 Max 32 Gb de Ram Esse é um dos computadores mais potentes da Apple e para vocês terem uma ideia Ele novo tá saindo aí por volta de R 27. 000 só que por sorte eu consegui encontrar ele alguns meses atrás pagando menos de R 1.
000 no usado e para medir o desempenho deles em a eu vou fazer dois testes o primeiro deles o mais clássico eu vou medir quantos tokens por segundo cada um desses computadores consegue me entregar rodando o mesmo modelo a mesma llm local e no segundo teste eu vou medir quanto tempo eles levam para fazer uma transcrição de um podcast que tem 1 hora me usando o modelo Whisper x começando com llm local eu tô utilizando aqui o olama que a gente já ensinou em outro vídeo do canal a Como configurar no teu próprio computador eu vou rodar o modelo lama 3. 1 de 8 bilhões de parâmetros eu vou utilizar uma tag verbals que vai me dar algumas estatísticas para poder avaliar esse teste começando pelo MacBook Pro e aqui eu vou passar um prompt escreve o jogo da cobrin em Python que eu sei que ele leva bastante tempo para rodar e essa aqui é velocidade que eu tô tendo nesse que é um dos melhores processor adores da Apple ao todo ele gerou para mim por volta de 17 tokens por segundo e agora rodando o mesmo modelo com o mesmo pron nesse nosso super computador Olha a diferença de velocidade no A1 a geração de tokens ficou por volta de 115 tokens por segundo comparado com 17 tokens por segundo no Mac e a avaliação de prompts ficou em 1200 tokens por segundo contra 60 uma diferença aqui de 20 vezes e aqui de quase 10 vezes e já pro segundo teste eu desenvolvi um script para fazer a extração de texto de um podcast de mais de 1 hora e meia usando um modelo pequeno aqui do Whisper x e no A1 ele levou por volta de 70 segundos contra 110 segundos do Mac uma performance aí quase 15 vezes mais rápida pro nosso super computador mas então por que que um processador tão potente como o M1 Max apanhou tão feio desse nosso super computador e a resposta como eu comentei anteriormente tá nas placas de vídeo isso acontece porque quando a gente tá falando de modelos de Inteligência Artificial especialmente os dependentes de redes neurais a performance é diretamente afetada pela existência ou não de um hardware dedicado com muita verran são os casos das placas de vídeo como eu imagino que você já saibam placa de vídeo é um hardware muito muito muito bom em conseguir fazer operações matemáticas em paralelo é por isso que eles conseguem fazer processamento de gráficos muito potentes e a partir do desenvolvimento da cuda pela NVIDIA os pesquisadores dei também viram que poderiam utilizar ela para poder otimizar os seus modelos e a variável mais exaltada nos fóruns gringos que eu vejo quando o assunto é montar computador para ia é quanto de memória tu tem na tua placa de vídeo ou vram Mas vram significa que tu vai conseguir rodar modelos cada vez maiores inteiramente dentro da placa e não deixar com que nenhuma parte do cálculo precise ser feita pela CPU ou pela memória RAM tradicional que são muito mais lentas vocês podem ter visto aqui nesse teste e quem vai determinar se a tua placa vai ou não conseguir carregar um modelo de ai inteiramente dentro dela são duas variáveis a quantidade de parâmetros do modelo que que tu tá escolhendo e a quantização desse cara como eu imagino que você já Saiba quanto mais parâmetros um modelo tem melhor a versão do liama 3. 1 de 70 bilhões de parâmetros é muito melhor que a versão de 8 bilhões de parâmetros Mas é claro H uma diferença de performance modelos pequenos não costumam passar aí de 12 bilhões de parâmetros modelos médios podem chegar até 70 96 bilhões de parâmetros e acredita-se que os maiores modelos de mundo que são os proprietários tanto o chat GPT 40 quanto o cloud 3.
5 sonet podem passar da casa do trilhão de parâmetros e sabendo a quantidade de parâmetros do teu modelo segundo passo é entender a quantização que tu vai utilizar dele a quantização representa o quão comprimido os parâmetros do teu modelo tão um modelo quando é recém treinado e não é comprimido costuma levar o nome de f16 que ele possui precisão float 16 em todos os seus dados e se você pegar esse modelo e começar a ignorar Algumas casas decimais lá no final vai perceber que pode reduzir o tamanho Total dele em sacrifício é claro de performance o primeiro nível de quantização que a gente chama é chamado de q8 na qual algumas poucas casas decimais foram cortadas e o modelo pode chegar até metade do tamanho do modelo original e a gente pode ir avançando de q6 q4 até Q2 quando o modelo já se torna muito rápido mas ao mesmo tempo completamente desfigurado começa a alucinar demais em geral o modelo entre q4 e q6 costuma ter um bom equilíbrio entre precisão e tamanho e de posse da quantidade de parâmetros da quantização tu tem tudo que vai precisar para conseguir calcular se o teu computador suporta ou não certo modelo a regra de bols que eu utilizo é um modelo f16 vai demandar duas vezes a quantidade de parâmetros em GB de vram ou seja o Lhama 3. 1 de 8 bilhões de parâmetros f16 precisa de um computador com 16 GB de vram o lama 3. 1 q8 esse valor cai pela metade se usarmos um q4 isso cai para 1/4 essa é a lógica que você tem que ter em mente quando tiver trabalhando com llms locais e essa é inclusive também uma das razões de nós termos colocado ali duas rtx 3090 porque esse o nosso computador tem acesso a 48 Gb de vram e consegue rodar modelos bem grandes como Lhama 3.
1 de 70 bilhões de parâmetros e uma segunda vantagem é que a gente consegue usar uma biblioteca como a LM Deploy e transformar ele em um servidor de inferência porque ele vai conseguir rodar múltiplos modelos em Paralelos então alguns tipos de aplicações se beneficiam de poder acessar os modelos ao mesmo tempo por exemplo um dos projetos que a gente desenvolveu aqui no canal envolvia utilizar um modelo de linguagem para poder fazer a categorização de transações financeiras eu pegava a descrição de uma transação e perguntava para ele qual era a categoria disso e como as transações são independentes entre si Se eu conseguisse rodar tudo isso aqui em paralelo eu teria uma resposta muito mais rápida usar um servidor assim para análise de dados e para PIP learnings de limpeza por exemplo é algo muito eficiente mas agora vem a pergunta mais importante você precisa de um computador como esse e sendo bem sincero eu acho que muito muito muito provavelmente não pela nossa experiência a gente tem visto que mais de 95% dos projetos vão ser melhores desenvolvidos quando utilizarem as api das bigtec porque estes ainda são os melhores modelos ji shat GPT 4 o Gini 1. 5 pro Cloud 3. 5 sonet vão ter desempenhos muito melhores a uma velocidade bem parecida do que tu conseguiria com modelos locais como liama 3.
Related Videos
Rode IAs na sua PRÓPRIA MÁQUINA
17:13
Rode IAs na sua PRÓPRIA MÁQUINA
Asimov Academy
36,155 views
COMO MONTAR UM PC GAMER (COMPUTADOR) PASSO A PASSO 2024
37:19
COMO MONTAR UM PC GAMER (COMPUTADOR) PASSO...
TecnoArt
1,004,323 views
Nigel Farage MP Speaks Out on Brexit, Trump & No. 10 Aspirations | This Morning
17:52
Nigel Farage MP Speaks Out on Brexit, Trum...
This Morning
39,976 views
Esse é o maior PROBLEMA dos donos de PC GAMER 😭
22:37
Esse é o maior PROBLEMA dos donos de PC GA...
TJ Gaming
252,971 views
I Can’t Put a Positive Spin on the RTX 5080 - Full Review
14:44
I Can’t Put a Positive Spin on the RTX 508...
Linus Tech Tips
800,915 views
URGENTE: O DeepSeek Está Matando o ChatGPT
19:54
URGENTE: O DeepSeek Está Matando o ChatGPT
Copfy | Lucas Bernardes
98,153 views
AGORA DÁ PRA ALUGAR SUA PLACA DE VÍDEO PARA TAREFAS DE IA NA INTERNET
14:32
AGORA DÁ PRA ALUGAR SUA PLACA DE VÍDEO PAR...
MW Informática
181,048 views
É o fim do Power BI? Criando Dashboard com Python em 15 minutos
17:46
É o fim do Power BI? Criando Dashboard com...
Asimov Academy
372,418 views
The Perfect Home Server 2025 – 56TB, ECC, IPMI, Quiet & (kind of) Compact
24:19
The Perfect Home Server 2025 – 56TB, ECC, ...
Wolfgang's Channel
373,263 views
Como usar o GPT com seus próprios dados?
27:42
Como usar o GPT com seus próprios dados?
Asimov Academy
98,364 views
The Real Reason Why Analog Recording Is Better
12:19
The Real Reason Why Analog Recording Is Be...
Freaking Out With Billy Hume
685,129 views
NVIDIA GeForce RTX 5080 Founders Edition Review & Benchmarks vs 5090, 7900 XTX, 4080, & More
31:39
NVIDIA GeForce RTX 5080 Founders Edition R...
Gamers Nexus
236,516 views
VOCÊ ESTÁ SENDO ESPIONADO? TESTE AGORA MESMO!
17:52
VOCÊ ESTÁ SENDO ESPIONADO? TESTE AGORA MESMO!
Douglas Lockshield
163,739 views
O livro que MUDOU a forma como eu ESTUDO e PENSO - O método Zettelkasten
18:53
O livro que MUDOU a forma como eu ESTUDO e...
Asimov Academy
379,929 views
NEVER install these programs on your PC... EVER!!!
19:26
NEVER install these programs on your PC......
JayzTwoCents
4,913,126 views
A China Lançou uma Nova Geração de Transportes que ASSUSTOU os EUA
20:23
A China Lançou uma Nova Geração de Transpo...
Construções de Elite
326,633 views
Tour do SETUP 2025!
25:02
Tour do SETUP 2025!
BRKsEDU
422,291 views
IA DO GOOGLE VIROU PHOTOSHOP?
12:03
IA DO GOOGLE VIROU PHOTOSHOP?
CORTES - Leon e Nilce [Oficial]
158,442 views
Montamos o Melhor PC GAMER do MUNDO 🔧 para Rodar CS2 a 1000 FPS 🤣 Novo PC do ferGOD
26:53
Montamos o Melhor PC GAMER do MUNDO 🔧 par...
Pichau
660,943 views
O Grande Problema da Inteligência Artificial...
21:55
O Grande Problema da Inteligência Artifici...
Elementar
113,156 views
Copyright © 2025. Made with ♥ in London by YTScribe.com