Hoy vamos a meternos de lleno en las tripas de la inteligencia artificial local, porque sigo dándole vueltas a una herramienta que me tiene completamente robado el corazón: OpenWeb UI.
Seguramente habrás oído hablar de ChatGPT, Gemini o Claude. Son herramientas increíbles, pero tienen un problema: no son tuyas. En este episodio, y probablemente en el siguiente, quiero contarte cómo estoy consiguiendo que mi propia IA en local no solo iguale a estas opciones comerciales, sino que en muchos aspectos las supere, especialmente en algo que a veces olvidamos: la soberanía digital y la capacidad de organización.
¿Por qué OpenWeb UI es un cambio de juego?
Lo que me ha volado la cabeza de OpenWeb UI es cómo reúne lo mejor de cada casa. He estado probando decenas —y no exagero, de verdad, decenas— de modelos distintos estos días. Mi objetivo era claro: ver cuánto consumen, qué rapidez de respuesta tienen y, sobre todo, hasta qué punto puedo sustituir mi flujo de trabajo en la nube por algo que corra en mi propio hardware. Una de las funciones que más me han gustado es el sistema de carpetas. Poder asignar un modelo específico a una carpeta de proyectos de Rust, y otro modelo distinto para resúmenes de artículos, es una maravilla que me permite "cacharrear" con una precisión que no encontraba en Gemini o ChatGPT.
El misterio de la IA que se "emborracha"
¿Te ha pasado que estás hablando con una IA y de repente empieza a decir cosas sin sentido o se olvida de lo primero que le dijiste? Eso es lo que yo llamo "borrachera de datos", y la culpa la tiene la ventana de contexto. En este episodio te explico qué es exactamente este espacio de memoria a corto plazo del modelo. Me encontré con un problema frustrante: mi IA local parecía tener memoria de pez. Y después de mucho investigar, descubrí que Ollama, el servidor de modelos que utilizo, define por defecto una ventana de contexto muy pequeña, a veces de solo 2.048 o 4.096 tokens.
Para que te hagas una idea (esta es la regla de la servilleta que cuento en el audio): 4.000 tokens equivalen a unas 5 o 6 páginas de texto. Si le pasas unas instrucciones iniciales largas (el system prompt), le haces un par de preguntas y la IA te responde, ¡pum!, se acabó el espacio. En cuanto llegas al límite, la IA empieza a descartar lo primero que le dijiste. Por eso parece que se olvida de quién es o de qué le habías pedido.
Matemáticas para no volverse loco con la RAM
Capítulos del episodio:
00:00:00 Presentación: Exprimiendo OpenWeb UI
00:01:21 El experimento: Probando decenas de modelos locales
00:02:19 Organización y carpetas: La gran ventaja frente a ChatGPT
00:03:53 El núcleo del episodio: Modelos y Prompts
00:05:00 LLM FIT: Cómo encontrar el modelo ideal para tu hardware
00:06:14 ¿Qué es la ventana de contexto y por qué es vital?
00:07:08 El límite oculto de Ollama: ¿Por qué tu IA tiene memoria de pez?
00:08:33 Automatización: Ollama Audit y scripts de personalización
00:10:38 Cómo modificar el contexto y crear modelos custom
00:11:42 Matemáticas de la RAM: ¿Cuántos tokens caben en tu equipo?
00:13:00 Guía rápida: Ventanas de contexto recomendadas según la tarea
00:14:23 El equilibrio: Peso del cerebro vs Memoria de trabajo (KV Cache)
00:15:42 El idioma importa: Tokens en español vs Inglés
00:16:35 Por qué 4.000 tokens se quedan cortos (System Prompt e Historial)
00:18:27 La analogía de la servilleta: Ejemplos de uso del contexto
00:20:12 Calidad vs Velocidad: ¿Qué modelo elegir?
00:21:41 Organización real: Mis Prompts y carpetas en OpenWeb UI
00:24:33 Soberanía digital y despedida
Más información y enlaces en las notas del episodio
🌐 Aquí lo puedes encontrar todo 👉 https://atareao.es
✈️ Telegram (el grupo) 👉 https://t.me/atareao_con_linux
✈️ Telegram (el canal) 👉 https://t.me/canal_atareao
🦣 Mastodon 👉 https://mastodon.social/@atareao
🐦 Twitter 👉 https://twitter.com/atareao
🐙 GitHub 👉 https://github.com/atareao