Como Rodar DeepSeek Na Sua Máquina (Guia Completo)

5.68k views3123 WordsCopy TextShare

Felipe Fontoura

Quer rodar o DeepSeek na sua própria máquina e quebrar o monopólio da OpenAI e Anthropic? Neste víde...

Video Transcript:

Todo mundo já sabe que o DeepSeek é uma revolução. Você já consegue rodar ele lá no site do DeepSeek, mas também por ser um modelo open source, você consegue rodar na sua máquina, quebrando assim o monopólio de tecnologia da OpenAI, da Anthropic e tantas outras empresas de modelos de inteligência artificial. É claro que, devido às limitações de hardware e as limitações de memória, de equipamentos, placas de vídeo.

A gente não consegue rodar o modelo do DeepSeek e outros modelos no que a gente chama de modelo full, com todos os parâmetros, mas a gente já consegue rodar com bastante com bastante satisfação, de uma forma muito satisfatória, o modelo que é chamado modelo Distilled. E é por isso que eu estou aqui gravando esse vídeo para você, que hoje eu vou ensinar você a rodar na sua máquina, obter respostas do DeepSeek no modo ainda console. Vou ensinar você a fazer esse programinha aqui, Python, e ainda vou te ensinar a rodar aqui ele num sitezinho aqui que você pode rodar local e também você colocar aqui no seu N8n local.

Tudo isso com bastante facilidade e tudo isso já documentado nesse repositório, que eu vou deixar o link abaixo. Então, não se preocupe em ficar digitando os comandos, porque todos esses comandos já estão aqui disponíveis para você e você pode clicar ao final desse vídeo, beleza? Então, antes da gente começar, vamos só Vamos recapitular um detalhe.

O DeepSeek, como todo mundo, ou imagino que você já saiba, é um modelo open source que você pode baixar, beleza? Só que ele precisa de uma, digamos, engine, algo que ele possa rodar de fato na sua máquina. E a forma de você rodar eles existem mais de uma forma, mas a forma mais fácil atualmente através do projeto Olhama.

Olhama que é um projeto que nasceu como iniciativa da Meta e hoje eles permitem aqui que nós possamos rodar Olhama de várias possibilidades com inclusive vários modelos aqui, beleza? Então tudo que você precisa para Rodar o Olyama, instalar na sua máquina, acessar o olyama. com, clicar aqui em download e seguir as instruções para sua máquina.

No caso, se você tiver Windows, você clicar aqui, rodar, se você tiver Linux, Mac e assim sucessivamente, beleza? Bom, o Olyama, como eu já disse, ele tem vários modelos. Se você clicar aqui no menu Models, você vai perceber aqui todos os modelos.

Então, olha só que interessante. Então, já é uma coisa bem legal. Você não tem só o DeepSeek para rodar aí, você tem também o Olyama, o P4, que é uma coisa que é um modelo bem legal, Mistral ou QN, que também tá dando muito o que falar, mas a gente vai se concentrar aqui inicialmente no DeepSeek, que é a proposta inicial do vídeo.

E você tem aqui as possibilidades. Lembrando que, como eu já disse, você tem os modelos Full, que tem aqui 671 bilhões de parâmetros, mas também temos outros modelos Distiller, que são os modelos destilados, que não são exatamente os modelos que foram treinados com todos os parâmetros, mas sim que foi treinado sobre a supervisão de outra IA. Portanto, eles são modelos com menos parâmetros, então eles poderiam ter uma forma bem grosseira, uma forma bem análoga, grosseira, menos neurônios, menos parâmetros.

Então, se você rodar um modelo bem pequeno, por exemplo, esse com 1. 5 bilhões de parâmetros, já é parâmetro pra caramba, Mas enfim, se você rodar, não espere a mesma performance de resposta com relação de 671 bilhões, simplesmente porque ele tem menos parâmetros. Então eu, analisando aqui e baixando e experimentando, aconselho você também experimentar, eu rodei aqui o 7B e já dá pra você brincar.

Também existe uma outra forma, como eu já comentei, que é o LM Studio, que é uma forma bem bacana também, Só que o LMStudio não é, digamos assim, tão fácil de você integrar no N8n quando você, se for o caso, quiser colocar numa VPS. Imagina você alugar lá uma máquina da Hetzner e colocar lá. Fica bem legal.

Ou então da DigitalOcean, tanto faz. Ok? Então, esse é o ponto de partida.

Uma vez que você instalou aqui o Oyama, deixa eu só sair do meu editor aqui, basta você digitar aqui ó, Oyama, no seu console, serve. E o que que vai acontecer? Ele vai rodar o servidor na sua máquina, beleza?

Então, ele vai deixar o servidor rodando e basta você digitar agora o comando, olhama, run deepseq-r1-7b. E, inclusive, esse comando tá aqui, ó. Então, se você selecionar um outro tipo, por exemplo, 14 bilhões de parâmetros, é só você literalmente copiar o que tá escrito aqui.

Como eu disse, o de sete bilhões de parâmetro de parâmetros ele rodou e ele vai então baixar o modelo na sua máquina esse modelo já está baixado na minha máquina mas você pode baixá-lo e você vai esperar ele completar o download e aqui ele está pronto para você rodar dentro do seu console beleza então o que você pode fazer agora a partir desse momento você pode basicamente interagir com o modelo. E é claro que esse modelo ainda está na sua tela preta, ali no seu console. Mas você pode falar assim, mandar um hello pra ele.

Você não precisa falar só em inglês. Aqui eu tô colocando em inglês, por quê? Porque ele tem menos parâmetros, por isso ele tende a entender um pouco mais o inglês.

Mas eu posso colocar aqui, olá. Tudo bem, que ele vai também entender alguma coisa. Então, veja que aqui ele está colocando o modo dele de pensamento, ok?

E por isso que ele está falando aqui que o usuário falou, olá, eu tenho que agora responder olá de uma forma positiva, olá, estou bem, obrigado, que eu posso ajudar hoje. E aqui, você já tem o DeepSeek rodando na sua máquina através do Ollama Server, beleza? Só que agora a gente quer fazer uma coisa um pouco mais útil com isso aqui que a gente tem.

Por quê? Porque você não vai ficar só brincando e tendo delírios de tecnologia aqui. O que você quer?

Você quer fazer uma coisa bastante útil. Então, por isso, eu vou pressionar aqui o CTRL D, vou sair desse modelo e agora eu vou acessar aqui a minha pastinha. Então, vou dar um CD.

Python, e aqui eu vou acessar o meu editor. Você não precisa exatamente saber programar, porque eu quero aqui só que você consiga entender como que tá a estrutura desse programa aqui, aliás, tá bastante simples. Aqui, ele é um programinha em Python, e veja que eu quero destacar que esse programa utiliza a mesma biblioteca da OpenAI.

Então, olha só que interessante, na OpenAI, ou melhor, nessa biblioteca, você pode colocar aqui, então, o base URL. que é basicamente o endereço onde o Olhama Server está rodando, que seria o local host, no caso sua máquina, dois pontos, a porta dele, barra, avião. Então, olha só que interessante já esse projeto Olhama.

Ele cria uma base de API com os mesmos comandos que a OpenAI possui. E por isso você pode, digamos, enganar a OpenAI, a biblioteca da OpenAI, para que você possa utilizar o Olhama com o DeepSeek por trás. Então, você pode colocar, inclusive, o seu digamos, programa que eventualmente você já esteja fazendo, só redirecionando o Base URL e colocando aqui qual é o modelo selecionado.

E com isso você já consegue, digamos assim, testar até a performance do modelo e fazer uma comparação até um pouco mais elaborada de como está a resposta de um quanto de outro. Nesse caso aqui, eu já trouxe uma pré-interação com mensagens em que ele fala que, no caso, o System é um assistente Que ajuda e aqui eu quero saber alguma coisa sobre o Los Angeles Dodger se ele ganhou ou não 2020. Aqui eu peguei esse exemplo exatamente do Oyama, então não adaptei nada, você pode adaptar se você quiser.

A única coisa que eu coloquei aqui foi string true para que ele possa fazer uma interação e enviar os chunks e ter aquela percepção que a IA está rodando alguma coisa. Beleza? Eu ainda tenho aqui na minha pasta o Readme, que vai explicar como você pode instalar e rodar tudo isso aqui com o Python, mas basicamente é só você entrar no seu console e você rodar aqui o comando, se você tiver no Linux como eu, no Mac, src.

env-binactivate. Você também pode fazer isso no Windows, que seria basicamente você rodar esse envScriptActivate. Depois disso, o que você tem aqui é rodar o Python main.

py. Aqui, no caso, eu tenho que entrar na pastinha do Python, vou dar um search de novo, e aqui eu vou rodar o Python main. py.

E o que ele vai fazer? Ele vai começar agora a rodar e ele vai agora começar a interagir com o modelo. Veja que isso aqui ainda está em console, mas agora não é mais você interagindo com aquela tela preta.

Agora é o Python executando um prompt, que ele, claro, ainda não é tão útil, a não ser que seja fã dos esportes do L. A. Dodgers aqui, eventualmente, mas você pode ter algum tipo de resposta aqui.

Então, a partir desse ponto, se você já tiver algum outro conhecimento em Python, você já pode começar a brincar. Você pode fazer seu chatbot, você pode começar a pedir as interações, prompts e tudo mais. Agora, então, não é mais um usuário digitando uma tela preta, e agora é um programa Python, como se fosse um agente de inteligência artificial rodando.

Lembrando que, nesse caso, eu já tenho aqui esse repositório, que é só você acessar a pasta Python, e o programinha vai estar aqui com aquele readme todo funcional, ok? Com a melhor explicação possível para você. só que eu quero ir ainda além.

Esse programinha aqui, Python, ele é um programinha de teste de conceito. Isso significa que eu estou no main brincando ali com o LA Dodgers. E agora, para que você possa brincar, para que a gente possa brincar ainda mais, nós vamos fazer uma experiência ainda mais profunda.

O que eu vou fazer com você? Então eu vou abrir aqui o editor, vou abrir aqui o docker compose. Eu preparei um docker compose, para quem não sabe o que é o docker, o docker em si, só acessando aqui o site do docker, é uma forma de você rodar sistemas operacionais em container, ou seja, você coloca ele dentro de uma caixinha.

E você pode fazer isso não só pelo console, mas também você pode baixar o Docker Desktop e ele vai rodar de uma forma interativa para você no Windows, beleza? Lembrando que eu não consigo aqui no vídeo do YouTube explicar exatamente todos os passos que você precisa fazer, então tem outros vídeos do canal. mas também eu tenho a minha comunidade, que o link está na descrição, caso você queira aprender um pouco mais sobre isso, ok?

Então, eu coloquei aqui os serviços do N820, coloquei o serviço do Olhama Server, do Olhama Init, então, no caso, o Olhama Init, ele vai aqui habilitar o Olhama Server, já fazendo o pull do DeepSeek R17B dentro do programa, vai habilitar aqui a interface de visual chamada Open Web UI e vai acrescentar aqui mais ainda outros serviços como o próprio N8n, Postgres e o Quadrant que é um Vector Store Open Source. Então, digamos esse pacote do Docker Desktop, ou pior, ou melhor, do Docker Compose, é uma stack completa para que você possa rodar tudo Tudo com relação a Python, tudo com relação a N8n totalmente offline na sua máquina, que é exatamente a revolução do DeepSeek e dos modelos open source. Você conseguir rodar alguma coisa sem que você tenha que ficar dependendo da OpenAI ou dos seus parceiros, beleza?

O que você precisa fazer agora é ter certeza que o docker está rodando na sua máquina e digitar o comando docker compose up-d. O que ele vai fazer? Ele vai subir todos os serviços.

Você pode visualizar através do seu docker desktop, mas eu tenho, digamos, um docker desktop aqui, modelo console, que você vai ter então o n8n rodando agora na porta 5678, Você teve o n8n import rodando credenciais e serviços, olhamos init, que no caso aqui ele baixa o modelo para você. Então, se você estiver rodando esse Docker Compose pela primeira vez, ele vai baixar, fazer todo o processo. Olhamos a server que está rodando, OpenAI, UI, Postgres e Quadrant, ok?

Então, o que a gente vai fazer? Vou mudar agora para o modo console e vou entrar aqui no meu endereço, localhost 2. 5678.

O que é isso? É o endereço local do seu N8n, se você já conhece. Se você não conhece, você também pode digitar aqui, localhost 2.

3000. O que você vai fazer aqui? Habilitar o OpenWebUI.

O que é esse carinha aqui? É um chat GPT versão aberta que você pode colocar aqui o seu modelo, no caso já temos o DeepSeek R17B, para que ao invés de você ficar brincando, então, no modo console, que digamos não é um modo muito user friendly bacaninha para usuário e aqui ele tenta simular bastante coisa então você pode colocar aqui ó help me to study alguma coisa então ele vai ficar pensando lembrando que eu estou interagindo aqui em inglês porque isso aqui já estava pronto mas você também pode colocar em português mas lembrando que por ser modelo de novo um pouco menos capacidade você pode colocar aqui então ele tá pensando rodando aqui só por curiosidade a gente pode ver o quanto de memória que o DeepSeek, desculpa, o Llama com o DeepSeek está rodando e está consumindo, no caso, o modelo 7B, 4. 9GB.

Então, se você tiver i32% de CPU, no caso aqui, esse Docker não está configurado ainda para você rodar na sua GPU, você pode colocar ele em modo GPU, alterando o seu Docker Compose, aqui as configurações, colocamos profiles, colocamos resources e tudo mais, beleza? Não sei se exatamente você tem uma GPU aí para rodar na sua máquina, mas em todo caso eu deixei aqui só para ele. .

. GPU, eu deixei ele rodando aqui em caso de ser CPU, porque eu não sei se você tem placa de vídeo ou não e eu queria melhorar bastante a sua experiência, ok? Então a gente pode colocar aqui, voltar no Betop e a gente vai ver aqui nos recursos da máquina que ele está aqui consumindo 4.

9 giga e eu fiz uma brincadeira aqui, a minha máquina ela tem uma RTX 3050, uma placa de vídeo de entrada no notebook, 16 gigas de memória RAM e eu consegui rodar até os 70 bilhões de parâmetros. e a máquina não foi. Minto, até os 32 bilhões de parâmetros, a partir dos 70 ela reclamou falando que ela precisava de 18 gigas de memória RAM e ela não tinha mais memória RAM suficiente.

E quanto que você precisa para rodar o projeto completo com 671 bilhões de parâmetros? É bastante controverso, algumas pessoas estão conseguindo com pouco, com hardware, um pouquinho menos hardware, o outro com um pouco mais de hardware, não relativo ao meu, mas relativo às configurações que se falam de Tera, de memória, mas tudo mais. Mas eu tenho aqui um post, um comentário do pessoal do Olhama, aqui no Twitter, para você rodar o DeepSeek R1, 671 bilhões de parâmetros, com 16 pontos flutuantes você precisa no mínimo de 1.

3 terabytes de VRAM, não é o meu caso, então muito provavelmente não vai ser o seu, mas você pode escolher aqui versões do modelo distilled, beleza? Então ele colocou aqui ó, a resposta, ele respondeu e é por isso que no caso ele tá demorando um pouquinho mais. aqui para poder responder.

No caso do n8n, o que eu fiz aqui para você é já deixar as credenciais prontas, porque essas credenciais são importadas a partir dessa pasta aqui, credations, no momento que esse n8n sobe no docker. Então, ele já deixou o quadrant, já deixou ele é uma server totalmente conectado e eu já coloquei para você um basic chat agent, que faz aqui uma coisa bem simplesinha, ele abre aqui um chat e eu posso colocar aqui, nesse caso, lembrando que ele vai ficar rodando aqui na máquina e ele vai ter uma performance ridícula de ruim porque ele não está utilizando a GPU e sim a CPU nesse caso aqui de novo se a gente botar ao B top você vai ver o consumo dele nesse caso agora tá 5. 0 5 giga redondo, ele tá consumindo aqui 50% de recurso de CPU.

Só nesse carinha aqui, 33% de recurso de CPU, que é bastante CPU. Então, não espere, no caso, se você não tiver uma placa GPU, não habilitar isso no Docker, não fazer essas coisas. Uma resposta exatamente, uma experiência exatamente rápida, até porque isso daqui são as próprias limitações de hardware do DeepSeek.

E ao depender da sua máquina ele vai rodar com mais ou menos velocidade e a gente já sabe isso principalmente se você habilitar a GPU. Mas de qualquer forma eu vou deixar aqui novamente esse repositório para que você possa entender todos os processos que eu fiz aqui e assistir o vídeo até se você tiver um pouco mais de conhecimento olhar aqui e até quem sabe contribuir para esse próprio repositório para que a gente possa fazer um repositório um pouco mais robusto e interessante, beleza? Então, se você gostou desse vídeo, se você achou legal e interessante rodar o DeepSeek e olhar localmente na sua máquina, se você viu esse tipo de liberdade e uma luz no fim do túnel para que você possa colocar isso até eventualmente no futuro para os seus clientes, deixa aqui um like, deixa um comentário.

Eu não deixo de assistir aos próximos vídeos das séries que a gente vai explorar com um pouco mais de profundidade, o DeepSeek e todos os outros modelos, para que a gente vá caminhando e eu caminhando junto com vocês e vocês junto comigo a um estudo um pouco mais aprofundado, não só da IA, de Prompt Engineer, mas sem deixar de lado, claro, a parte de automação N8n, para que você também possa colocar tudo isso em prática e entregar um serviço do estilo 1-1-1, um tipo de serviço, um tipo de oferta para um tipo de cliente de uma forma totalmente lucrativa e produtizada. Então, não esquece de acompanhar aqui os próximos passos do canal e aqui caminhar junto comigo. Um forte abraço, até o próximo vídeo.