¡Hola, muy buenas! Soy Lorenzo y hoy te traigo el episodio número 791 de Atareao con Linux. Si has estado siguiendo mis últimas aventuras tecnológicas, sabrás que me he sumergido de lleno en el fascinante mundo de los modelos de lenguaje locales. Sin embargo, a raíz de mis vídeos y artículos sobre Ollama, ha surgido una pregunta recurrente en la comunidad: ¿Por qué usar Ollama y no Llama.cpp directamente? ¿O es que acaso uno es mejor que el otro? En este episodio me he propuesto despejar todas tus dudas y, de paso, contarte algunas novedades sobre hardware que te van a dejar con la boca abierta.
El origen: Entre amigos y tecnología en el Linux Center
Todo esto empezó a fraguarse en las recientes jornadas de Inteligencia Artificial que vivimos en el Linux Center junto a los amigos de Slimbook. Fue una experiencia increíble donde pude compartir charla con Alejandro López y Manuel Lemos. Ver el interés de la gente y cómo el curso se llenó por completo me dio una pista clara: todos queremos tener el control de nuestra propia IA. Alejandro, que es un gran impulsor de estos temas, me prestó un equipo que ha sido clave para mis pruebas actuales y del cual te hablo un poco más adelante en este audio.
Llama.cpp: El quirófano de los tensores
Para entender la diferencia, hay que saber qué es cada cosa. Llama.cpp es el motor puro. Imagínate que es el motor de un coche de competición donde puedes ajustar hasta la última tuerca. Está escrito en C++ por Georgi Gerganov con un objetivo claro: el máximo rendimiento.
Ollama: La experiencia de usuario elevada al máximo
Por otro lado, tenemos a Ollama. Muchas veces se ven como rivales, pero la realidad es que Ollama utiliza Llama.cpp por debajo. La diferencia es que Ollama es un "envoltorio" o orquestador escrito en Go que nos facilita la vida de una manera brutal. Se encarga de gestionar la memoria de tu tarjeta gráfica (VRAM) de forma inteligente.
Cacharreando con contenedores y personalidad propia
Como no podía ser de otra forma, yo he montado Llama.cpp usando Podman y Quadlets, integrándolo totalmente en mi flujo de trabajo. En este episodio te cuento cómo he configurado mi NVIDIA RTX 4060 Ti de 16GB para que vuele, permitiéndome usar contextos de hasta 128K.
Hardware: NVIDIA y el silencio de las NPU
Uno de los grandes temas de este episodio es el hardware. Hago un repaso por las tarjetas de NVIDIA, desde la serie 30 hasta la potente serie 50. Pero la verdadera sorpresa ha sido el Slimbook One con NPU (Neural Processing Unit).
La anatomía de los modelos: Rompiendo el código
¿Alguna vez has visto nombres de modelos como "Mistral-7B-Instruct-v3-Q4_K_M.gguf" y te has sentido perdido?
Capítulos del episodio para que no te pierdas nada:
00:00 - Bienvenidos al episodio 791: Ollama vs Llama.cpp
01:35 - Crónica de las jornadas de IA en el Linux Center con Slimbook
03:34 - ¿Por qué hay tanta polémica entre Ollama y Llama.cpp?
04:42 - Llama.cpp: El "quirófano" de los tensores y el rendimiento puro
05:18 - Ollama: El orquestador que nos facilita la vida
06:40 - Comparativa: ¿Qué hace uno que no haga el otro?
07:59 - ¿Eres de IKEA o de fabricar tus propios muebles?
09:00 - Cacharreando con Llama.cpp, Podman y Quadlets
10:48 - Leslie: Mi IA con personalidad propia en OpenWeb UI
12:44 - Cómo descargar modelos a mano con Rust HF Downloader
13:50 - Hardware para IA: Guía rápida de tarjetas NVIDIA
17:15 - La experiencia con el Slimbook One y su NPU integrada
18:05 - Anatomía de un modelo: Entendiendo los nombres
19:40 - La piedra de Rosetta de la cuantización
21:08 - Conclusiones y próximos pasos con OpenWeb UI
Más información y enlaces en las notas del episodio
🌐 Aquí lo puedes encontrar todo 👉 https://atareao.es
✈️ Telegram (el grupo) 👉 https://t.me/atareao_con_linux
✈️ Telegram (el canal) 👉 https://t.me/canal_atareao
🦣 Mastodon 👉 https://mastodon.social/@atareao
🐦 Twitter 👉 https://twitter.com/atareao
🐙 GitHub 👉 https://github.com/atareao