Como Rodar DeepSeek Na Sua Máquina (Guia Completo)

5.68k views3123 WordsCopy TextShare
Felipe Fontoura
Quer rodar o DeepSeek na sua própria máquina e quebrar o monopólio da OpenAI e Anthropic? Neste víde...
Video Transcript:
Todo mundo já sabe que o DeepSeek  é uma revolução. Você já consegue rodar ele lá no site do DeepSeek, mas  também por ser um modelo open source, você consegue rodar na sua máquina, quebrando  assim o monopólio de tecnologia da OpenAI, da Anthropic e tantas outras empresas de  modelos de inteligência artificial. É claro que, devido às limitações de hardware e as limitações  de memória, de equipamentos, placas de vídeo.
A gente não consegue rodar o modelo do DeepSeek  e outros modelos no que a gente chama de modelo full, com todos os parâmetros, mas a  gente já consegue rodar com bastante com bastante satisfação, de uma forma muito  satisfatória, o modelo que é chamado modelo Distilled. E é por isso que eu estou aqui  gravando esse vídeo para você, que hoje eu vou ensinar você a rodar na sua máquina, obter  respostas do DeepSeek no modo ainda console. Vou ensinar você a fazer esse programinha aqui,  Python, e ainda vou te ensinar a rodar aqui ele num sitezinho aqui que você pode rodar local  e também você colocar aqui no seu N8n local.
Tudo isso com bastante facilidade e tudo  isso já documentado nesse repositório, que eu vou deixar o link abaixo. Então, não se  preocupe em ficar digitando os comandos, porque todos esses comandos já estão aqui disponíveis  para você e você pode clicar ao final desse vídeo, beleza? Então, antes da gente começar, vamos só  Vamos recapitular um detalhe.
O DeepSeek, como todo mundo, ou imagino que você já saiba, é um  modelo open source que você pode baixar, beleza? Só que ele precisa de uma, digamos, engine,  algo que ele possa rodar de fato na sua máquina. E a forma de você rodar eles existem mais de  uma forma, mas a forma mais fácil atualmente através do projeto Olhama.
Olhama que é um  projeto que nasceu como iniciativa da Meta e hoje eles permitem aqui que nós possamos rodar  Olhama de várias possibilidades com inclusive vários modelos aqui, beleza? Então tudo que  você precisa para Rodar o Olyama, instalar na sua máquina, acessar o olyama. com, clicar aqui em  download e seguir as instruções para sua máquina.
No caso, se você tiver Windows, você  clicar aqui, rodar, se você tiver Linux, Mac e assim sucessivamente, beleza? Bom, o Olyama,  como eu já disse, ele tem vários modelos. Se você clicar aqui no menu Models, você vai perceber aqui  todos os modelos.
Então, olha só que interessante. Então, já é uma coisa bem legal. Você não tem só o  DeepSeek para rodar aí, você tem também o Olyama, o P4, que é uma coisa que é um  modelo bem legal, Mistral ou QN, que também tá dando muito o que falar, mas a gente  vai se concentrar aqui inicialmente no DeepSeek, que é a proposta inicial do vídeo. 
E você tem aqui as possibilidades. Lembrando que, como eu já disse, você tem  os modelos Full, que tem aqui 671 bilhões de parâmetros, mas também temos outros modelos  Distiller, que são os modelos destilados, que não são exatamente os modelos que foram  treinados com todos os parâmetros, mas sim que foi treinado sobre a supervisão de outra IA.  Portanto, eles são modelos com menos parâmetros, então eles poderiam ter uma forma bem grosseira,  uma forma bem análoga, grosseira, menos neurônios, menos parâmetros.
Então, se você rodar um  modelo bem pequeno, por exemplo, esse com 1. 5 bilhões de parâmetros, já é parâmetro  pra caramba, Mas enfim, se você rodar, não espere a mesma performance de resposta com  relação de 671 bilhões, simplesmente porque ele tem menos parâmetros. Então eu, analisando aqui e  baixando e experimentando, aconselho você também experimentar, eu rodei aqui o 7B e já dá pra você  brincar.
Também existe uma outra forma, como eu já comentei, que é o LM Studio, que é uma forma bem  bacana também, Só que o LMStudio não é, digamos assim, tão fácil de você integrar no N8n quando  você, se for o caso, quiser colocar numa VPS. Imagina você alugar lá uma máquina da Hetzner e colocar lá. Fica bem legal.
Ou  então da DigitalOcean, tanto faz. Ok? Então, esse é o ponto de partida. 
Uma vez que você instalou aqui o Oyama, deixa eu só sair do meu editor aqui, basta  você digitar aqui ó, Oyama, no seu console, serve. E o que que vai acontecer? Ele vai rodar  o servidor na sua máquina, beleza?
Então, ele vai deixar o servidor rodando e basta você digitar  agora o comando, olhama, run deepseq-r1-7b. E, inclusive, esse comando tá aqui, ó. Então,  se você selecionar um outro tipo, por exemplo, 14 bilhões de parâmetros, é só você literalmente  copiar o que tá escrito aqui.
Como eu disse, o de sete bilhões de parâmetro de parâmetros  ele rodou e ele vai então baixar o modelo na sua máquina esse modelo já está baixado na minha  máquina mas você pode baixá-lo e você vai esperar ele completar o download e aqui ele está pronto  para você rodar dentro do seu console beleza então o que você pode fazer agora a partir desse momento  você pode basicamente interagir com o modelo. E é claro que esse modelo ainda está na  sua tela preta, ali no seu console. Mas você pode falar assim, mandar um hello pra  ele.
Você não precisa falar só em inglês. Aqui eu tô colocando em inglês, por  quê? Porque ele tem menos parâmetros, por isso ele tende a entender um pouco  mais o inglês.
Mas eu posso colocar aqui, olá. Tudo bem, que ele vai  também entender alguma coisa. Então, veja que aqui ele está colocando o modo  dele de pensamento, ok?
E por isso que ele está falando aqui que o usuário falou, olá, eu tenho  que agora responder olá de uma forma positiva, olá, estou bem, obrigado, que  eu posso ajudar hoje. E aqui, você já tem o DeepSeek rodando na  sua máquina através do Ollama Server, beleza? Só que agora a gente quer fazer uma  coisa um pouco mais útil com isso aqui que a gente tem.
Por quê? Porque você não vai ficar só  brincando e tendo delírios de tecnologia aqui. O que você quer?
Você quer fazer  uma coisa bastante útil. Então, por isso, eu vou pressionar aqui o CTRL D, vou sair desse modelo e agora eu vou acessar  aqui a minha pastinha. Então, vou dar um CD.
Python, e aqui eu vou acessar o meu editor.  Você não precisa exatamente saber programar, porque eu quero aqui só que você consiga entender  como que tá a estrutura desse programa aqui, aliás, tá bastante simples. Aqui,  ele é um programinha em Python, e veja que eu quero destacar que esse  programa utiliza a mesma biblioteca da OpenAI.
Então, olha só que interessante, na  OpenAI, ou melhor, nessa biblioteca, você pode colocar aqui, então, o base URL.  que é basicamente o endereço onde o Olhama Server está rodando, que seria o local  host, no caso sua máquina, dois pontos, a porta dele, barra, avião. Então, olha só  que interessante já esse projeto Olhama.
Ele cria uma base de API com os mesmos comandos  que a OpenAI possui. E por isso você pode, digamos, enganar a OpenAI, a biblioteca da OpenAI, para que você possa utilizar o Olhama com o  DeepSeek por trás. Então, você pode colocar, inclusive, o seu digamos, programa que  eventualmente você já esteja fazendo, só redirecionando o Base URL e colocando  aqui qual é o modelo selecionado.
E com isso você já consegue, digamos assim,  testar até a performance do modelo e fazer uma comparação até um pouco mais elaborada de  como está a resposta de um quanto de outro. Nesse caso aqui, eu já trouxe uma pré-interação  com mensagens em que ele fala que, no caso, o System é um assistente Que ajuda e aqui eu  quero saber alguma coisa sobre o Los Angeles Dodger se ele ganhou ou não 2020. Aqui eu  peguei esse exemplo exatamente do Oyama, então não adaptei nada, você  pode adaptar se você quiser.
A única coisa que eu coloquei aqui foi string  true para que ele possa fazer uma interação e enviar os chunks e ter aquela percepção que a IA  está rodando alguma coisa. Beleza? Eu ainda tenho aqui na minha pasta o Readme, que vai explicar  como você pode instalar e rodar tudo isso aqui com o Python, mas basicamente é só você entrar  no seu console e você rodar aqui o comando, se você tiver no Linux como eu,  no Mac, src.
env-binactivate. Você também pode fazer isso no Windows, que seria  basicamente você rodar esse envScriptActivate. Depois disso, o que você tem aqui é rodar o  Python main.
py. Aqui, no caso, eu tenho que entrar na pastinha do Python, vou dar um search  de novo, e aqui eu vou rodar o Python main. py.
E o que ele vai fazer? Ele vai começar agora a rodar  e ele vai agora começar a interagir com o modelo. Veja que isso aqui ainda está em  console, mas agora não é mais você interagindo com aquela tela preta.
Agora  é o Python executando um prompt, que ele, claro, ainda não é tão útil, a não ser que  seja fã dos esportes do L. A. Dodgers aqui, eventualmente, mas você pode  ter algum tipo de resposta aqui.
Então, a partir desse ponto, se você já  tiver algum outro conhecimento em Python, você já pode começar a brincar. Você pode  fazer seu chatbot, você pode começar a pedir as interações, prompts e tudo mais. Agora, então,  não é mais um usuário digitando uma tela preta, e agora é um programa Python, como se fosse  um agente de inteligência artificial rodando.
Lembrando que, nesse caso, eu já tenho aqui esse  repositório, que é só você acessar a pasta Python, e o programinha vai estar aqui  com aquele readme todo funcional, ok? Com a melhor explicação possível para  você. só que eu quero ir ainda além.
Esse programinha aqui, Python, ele é um  programinha de teste de conceito. Isso significa que eu estou no main  brincando ali com o LA Dodgers. E agora, para que você possa brincar, para  que a gente possa brincar ainda mais, nós vamos fazer uma experiência  ainda mais profunda.
O que eu vou fazer com você? Então eu vou abrir aqui o  editor, vou abrir aqui o docker compose. Eu preparei um docker compose, para quem  não sabe o que é o docker, o docker em si, só acessando aqui o site do docker, é uma forma  de você rodar sistemas operacionais em container, ou seja, você coloca ele dentro de uma caixinha. 
E você pode fazer isso não só pelo console, mas também você pode baixar o Docker  Desktop e ele vai rodar de uma forma interativa para você no Windows, beleza?  Lembrando que eu não consigo aqui no vídeo do YouTube explicar exatamente todos os  passos que você precisa fazer, então tem outros vídeos do canal. mas também eu tenho a  minha comunidade, que o link está na descrição, caso você queira aprender um pouco mais sobre  isso, ok?
Então, eu coloquei aqui os serviços do N820, coloquei o serviço do Olhama Server,  do Olhama Init, então, no caso, o Olhama Init, ele vai aqui habilitar o Olhama Server, já fazendo  o pull do DeepSeek R17B dentro do programa, vai habilitar aqui a interface de visual chamada  Open Web UI e vai acrescentar aqui mais ainda outros serviços como o próprio N8n, Postgres e  o Quadrant que é um Vector Store Open Source. Então, digamos esse pacote do  Docker Desktop, ou pior, ou melhor, do Docker Compose, é uma stack completa  para que você possa rodar tudo Tudo com relação a Python, tudo com relação a  N8n totalmente offline na sua máquina, que é exatamente a revolução do DeepSeek e  dos modelos open source. Você conseguir rodar alguma coisa sem que você tenha que ficar  dependendo da OpenAI ou dos seus parceiros, beleza?
O que você precisa fazer agora é ter  certeza que o docker está rodando na sua máquina e digitar o comando docker compose up-d. O que  ele vai fazer? Ele vai subir todos os serviços.
Você pode visualizar através do seu  docker desktop, mas eu tenho, digamos, um docker desktop aqui, modelo console, que você  vai ter então o n8n rodando agora na porta 5678, Você teve o n8n import rodando credenciais e  serviços, olhamos init, que no caso aqui ele baixa o modelo para você. Então, se você estiver  rodando esse Docker Compose pela primeira vez, ele vai baixar, fazer todo o processo.  Olhamos a server que está rodando, OpenAI, UI, Postgres e Quadrant, ok?
Então,  o que a gente vai fazer? Vou mudar agora para o modo console e vou entrar  aqui no meu endereço, localhost 2. 5678.
O que é isso? É o endereço local do seu N8n,  se você já conhece. Se você não conhece, você também pode digitar aqui, localhost 2.
3000.  O que você vai fazer aqui? Habilitar o OpenWebUI.
O que é esse carinha aqui? É um chat GPT versão  aberta que você pode colocar aqui o seu modelo, no caso já temos o DeepSeek R17B, para que  ao invés de você ficar brincando, então, no modo console, que digamos não é um modo muito  user friendly bacaninha para usuário e aqui ele tenta simular bastante coisa então você pode  colocar aqui ó help me to study alguma coisa então ele vai ficar pensando lembrando que  eu estou interagindo aqui em inglês porque isso aqui já estava pronto mas você também pode  colocar em português mas lembrando que por ser modelo de novo um pouco menos capacidade você  pode colocar aqui então ele tá pensando rodando aqui só por curiosidade a gente pode ver o quanto  de memória que o DeepSeek, desculpa, o Llama com o DeepSeek está rodando e está consumindo, no  caso, o modelo 7B, 4. 9GB.
Então, se você tiver i32% de CPU, no caso aqui, esse Docker não está  configurado ainda para você rodar na sua GPU, você pode colocar ele em modo GPU, alterando  o seu Docker Compose, aqui as configurações, colocamos profiles, colocamos resources e tudo  mais, beleza? Não sei se exatamente você tem uma GPU aí para rodar na sua máquina, mas em todo  caso eu deixei aqui só para ele. .
. GPU, eu deixei ele rodando aqui em caso de ser CPU, porque eu  não sei se você tem placa de vídeo ou não e eu queria melhorar bastante a sua experiência,  ok? Então a gente pode colocar aqui, voltar no Betop e a gente vai ver aqui nos recursos  da máquina que ele está aqui consumindo 4.
9 giga e eu fiz uma brincadeira aqui, a minha  máquina ela tem uma RTX 3050, uma placa de vídeo de entrada no notebook, 16 gigas de memória RAM e  eu consegui rodar até os 70 bilhões de parâmetros. e a máquina não foi. Minto, até os 32 bilhões de  parâmetros, a partir dos 70 ela reclamou falando que ela precisava de 18 gigas de memória RAM  e ela não tinha mais memória RAM suficiente.
E quanto que você precisa para rodar o projeto  completo com 671 bilhões de parâmetros? É bastante controverso, algumas pessoas  estão conseguindo com pouco, com hardware, um pouquinho menos hardware, o outro com um  pouco mais de hardware, não relativo ao meu, mas relativo às configurações que se falam de  Tera, de memória, mas tudo mais. Mas eu tenho aqui um post, um comentário do pessoal do Olhama,  aqui no Twitter, para você rodar o DeepSeek R1, 671 bilhões de parâmetros, com 16 pontos  flutuantes você precisa no mínimo de 1.
3 terabytes de VRAM, não é o meu caso, então  muito provavelmente não vai ser o seu, mas você pode escolher aqui versões do modelo  distilled, beleza? Então ele colocou aqui ó, a resposta, ele respondeu e é por isso que  no caso ele tá demorando um pouquinho mais. aqui para poder responder.
No caso do n8n,  o que eu fiz aqui para você é já deixar as credenciais prontas, porque essas credenciais  são importadas a partir dessa pasta aqui, credations, no momento que esse n8n sobe  no docker. Então, ele já deixou o quadrant, já deixou ele é uma server totalmente conectado  e eu já coloquei para você um basic chat agent, que faz aqui uma coisa bem simplesinha, ele  abre aqui um chat e eu posso colocar aqui, nesse caso, lembrando que ele vai ficar  rodando aqui na máquina e ele vai ter uma performance ridícula de ruim porque ele  não está utilizando a GPU e sim a CPU nesse caso aqui de novo se a gente botar ao B top você  vai ver o consumo dele nesse caso agora tá 5. 0 5 giga redondo, ele tá consumindo aqui 50%  de recurso de CPU.
Só nesse carinha aqui, 33% de recurso de CPU, que é bastante  CPU. Então, não espere, no caso, se você não tiver uma placa GPU, não habilitar  isso no Docker, não fazer essas coisas. Uma resposta exatamente, uma experiência  exatamente rápida, até porque isso daqui são as próprias limitações de hardware do DeepSeek. 
E ao depender da sua máquina ele vai rodar com mais ou menos velocidade e a gente já sabe isso  principalmente se você habilitar a GPU. Mas de qualquer forma eu vou deixar aqui novamente esse  repositório para que você possa entender todos os processos que eu fiz aqui e assistir o vídeo até  se você tiver um pouco mais de conhecimento olhar aqui e até quem sabe contribuir para esse próprio  repositório para que a gente possa fazer um repositório um pouco mais robusto e interessante,  beleza? Então, se você gostou desse vídeo, se você achou legal e interessante rodar o  DeepSeek e olhar localmente na sua máquina, se você viu esse tipo de liberdade e uma luz  no fim do túnel para que você possa colocar isso até eventualmente no futuro para os seus  clientes, deixa aqui um like, deixa um comentário.
Eu não deixo de assistir aos próximos vídeos das  séries que a gente vai explorar com um pouco mais de profundidade, o DeepSeek e todos os outros  modelos, para que a gente vá caminhando e eu caminhando junto com vocês e vocês junto comigo a  um estudo um pouco mais aprofundado, não só da IA, de Prompt Engineer, mas sem deixar de  lado, claro, a parte de automação N8n, para que você também possa colocar tudo isso em  prática e entregar um serviço do estilo 1-1-1, um tipo de serviço, um tipo de oferta  para um tipo de cliente de uma forma totalmente lucrativa e produtizada. Então, não  esquece de acompanhar aqui os próximos passos do canal e aqui caminhar junto comigo.  Um forte abraço, até o próximo vídeo.
Related Videos
Como Rodar Modelos de IA na Sua Máquina e na nuvem (deepseek, gemma, docker e mais)
22:39
Como Rodar Modelos de IA na Sua Máquina e ...
Erick Wendel
7,728 views
DeepSeek MASTERCLASS - O que sabemos até agora (e como rodá-lo LOCALMENTE)
29:20
DeepSeek MASTERCLASS - O que sabemos até a...
Asimov Academy
43,995 views
DA Batch - 1 (25th Video)
1:01:39
DA Batch - 1 (25th Video)
A2M INFOTECH PRIVATE LIMITED
No views
Testei o QWEN e fiquei IMPRESSIONADO. É o novo REI?
22:51
Testei o QWEN e fiquei IMPRESSIONADO. É o ...
Copfy | Lucas Bernardes
45,941 views
POR QUE DEEPSEEK É UMA M*
15:10
POR QUE DEEPSEEK É UMA M*
Felipe Fontoura
14,738 views
Descubra o Poder do DeepSeek para Dominar qualquer PDF do Estratégia Concursos (Melhor que GPT)
18:30
Descubra o Poder do DeepSeek para Dominar ...
Carlos Ribeiro
208,889 views
Como Faturar R$50 Mil Com Uma Ideia Simples de WhatsApp
33:16
Como Faturar R$50 Mil Com Uma Ideia Simple...
Felipe Fontoura
6,212 views
O PLANO GEOPOLÍTICO MAIS OUSADO DA HISTÓRIA QUE PODE MUDAR O MUNDO
23:53
O PLANO GEOPOLÍTICO MAIS OUSADO DA HISTÓRI...
Market Makers
276,024 views
How to Run Deepseek R1 in Minutes – The Simplest Guide!
18:10
How to Run Deepseek R1 in Minutes – The Si...
Sandeco
92,227 views
A Solução Definitiva Para Dashboards No N8N
29:47
A Solução Definitiva Para Dashboards No N8N
Felipe Fontoura
10,713 views
100% Local RAG with DeepSeek-R1, Ollama and LangChain - Build Document AI for Your Private Files
30:45
100% Local RAG with DeepSeek-R1, Ollama an...
Venelin Valkov
21,512 views
DeepSeek-R1 no seu PC de GRAÇA (PASSO A PASSO)
14:42
DeepSeek-R1 no seu PC de GRAÇA (PASSO A PA...
Sem Segredos Tech
13,414 views
Como O Zerox Está Mudando O Futuro Do RAG
20:17
Como O Zerox Está Mudando O Futuro Do RAG
Felipe Fontoura
6,016 views
TUTORIAL: RODANDO DEEPSEEK E OUTROS MODELOS ABERTOS NO OLLAMA | Tecnologia e Classe
19:47
TUTORIAL: RODANDO DEEPSEEK E OUTROS MODELO...
Tecnologia e Classe (TeClas)
11,587 views
Use DeepSeek for Free on VS Code (We Tested It!)
15:37
Use DeepSeek for Free on VS Code (We Teste...
Código Fonte TV
135,315 views
SaaS vs Agentes Verticais: O Que Você Precisa Saber
10:27
SaaS vs Agentes Verticais: O Que Você Prec...
Felipe Fontoura
18,827 views
Conversor Markdown e OCR (Python + N8N)
41:56
Conversor Markdown e OCR (Python + N8N)
Felipe Fontoura
4,051 views
Rode IAs na sua PRÓPRIA MÁQUINA
17:13
Rode IAs na sua PRÓPRIA MÁQUINA
Asimov Academy
38,343 views
deepseek lmstudio n8n
21:52
deepseek lmstudio n8n
Promovaweb Marketing e Automação
3,621 views
Seu primeiro projeto de Inteligência Artificial com Python (usando Machine Learning)
24:04
Seu primeiro projeto de Inteligência Artif...
Empowerdata | Python
77,519 views
Copyright © 2025. Made with ♥ in London by YTScribe.com