Cómo instalar y usar Ollama en Windows para ejecutar IA local

  • Ollama permite ejecutar en Windows modelos de IA como DeepSeek, Llama o Gemma de forma local y privada.
  • La instalación es sencilla, pero el rendimiento depende del hardware y del tamaño del modelo elegido.
  • Los modelos se manejan por línea de comandos y pueden integrarse con interfaces como OpenWebUI o ComfyUI.
  • Elegir bien el modelo (chat, código, multimodal) es clave para sacar el máximo partido a Ollama.

Instalar Ollama en Windows

Si quieres trastear con modelos de inteligencia artificial en tu propio PC con Windows sin depender de la nube, Ollama es ahora mismo una de las mejores puertas de entrada. Con esta herramienta puedes bajar modelos como DeepSeek, Llama, Mistral, Phi, Qwen, Llava o Gemma y ejecutarlos en local, con tus datos bien guardados en casa y sin pagar suscripciones mensuales.

En esta guía vas a ver qué es exactamente Ollama, cómo instalarlo en Windows paso a paso, cómo lanzar tus primeros modelos desde la terminal y cómo sacarle partido tanto en modo chat como integrado en otras herramientas como OpenWebUI o incluso ComfyUI. La idea es explicarlo de forma clara, sin tecnicismos raros, para que puedas tener tu propio “ChatGPT local” en unos minutos.

Qué es Ollama y por qué merece la pena usarlo en Windows

Qué es Ollama

Ollama es un programa ligero y de código abierto que se instala en tu ordenador (Windows, macOS o Linux) y actúa como una especie de “motor” o cliente de modelos de IA. Por sí solo no es un chatbot, sino la base sobre la que luego descargas y ejecutas modelos como DeepSeek, Llama 3.2, Gemma 2 o Mistral.

Su primera gran ventaja es que todo funciona en local: los modelos se descargan y se guardan en tu disco, y las consultas que haces se procesan en tu propio hardware. Eso implica que no tienes que ir a ninguna web, no dependes de una API externa, y tus mensajes no viajan a servidores de terceros, algo clave si te preocupa la privacidad.

El segundo punto clave es que puedes usar la IA incluso sin conexión a Internet. Necesitas red solo para bajar Ollama y los modelos la primera vez; a partir de ahí, si no vas a instalar nada nuevo, puedes seguir chateando con tu LLM favorito en modo offline, ideal para portátiles o equipos que no siempre están conectados.

Además, al ejecutar los modelos en tu máquina, te saltas muchas de las restricciones y filtros que suelen tener las versiones web. Eso no significa que puedas hacer cualquier cosa sin límites, pero sí que tienes más margen que cuando dependes de un servicio online con políticas muy estrictas.

La otra particularidad de Ollama es que se maneja por línea de comandos. No trae una interfaz gráfica propia; tú abres el Símbolo del sistema o PowerShell, escribes un comando tipo ollama run deepseek-r1:8b y a partir de ahí chateas directamente desde la terminal, que mostrará un indicador como >>> para que sepas que está listo para recibir prompts.

Ventajas de ejecutar modelos de IA en local

Ventajas de IA local con Ollama

Un modelo de lenguaje grande o LLM es, simplificando, el “cerebro” que genera texto, código o descripciones a partir de lo que le pides. Con Ollama puedes tener ese cerebro instalado en tu PC con Windows en lugar de alquilarlo a un tercero a través de la nube.

Desde un punto de vista práctico, ganas en privacidad: todo lo que escribes, el historial de chats y los contenidos generados se quedan en tu dispositivo. Esto resulta especialmente interesante si quieres tratar documentación interna, código propietario, información sensible o, simplemente, no te apetece regalar tus datos.

También notarás ventajas a nivel de costes y flexibilidad. No hace falta pagar planes Pro ni preocuparte por límites de tokens o de consultas. Una vez que tienes tu PC y los modelos descargados, puedes chatear, generar texto, programar o describir imágenes sin cargos adicionales.

Otro punto fuerte es que puedes personalizar mucho mejor tu entorno. Con modelos locales puedes probar distintas familias (Llama, Mistral, Phi, Gemma, DeepSeek…), elegir tamaños en función de tu RAM, e integrarlos en tus propios flujos de trabajo: desde interfaces web como OpenWebUI hasta nodos en ComfyUI para mejorar prompts o describir imágenes.

Eso sí, la cara B es que tu hardware manda. Un modelo pequeño de 1B o 3B suele ir fluido en casi cualquier equipo moderno, mientras que uno de 33B o 70B exige mucha RAM y, si quieres algo realmente ágil, una GPU potente. Por eso Ollama ofrece variantes de cada modelo en varios tamaños, para que ajustes el consumo de recursos a tu PC.

Requisitos y rendimiento: qué necesitas para usar Ollama en Windows

Requisitos de hardware para Ollama

Ollama, como aplicación, es bastante ligero; el peso real recae en los modelos que decidas instalar. Un modelo como Llama 3.2 en una variante pequeña puede ocupar en torno a 2 GB, mientras que monstruos como Gemma 2 de 27B pueden disparar el consumo de memoria y hacer que tu equipo ni siquiera sea capaz de arrancarlos.

Los propios desarrolladores de Ollama recomiendan tener al menos 8 GB de RAM disponibles para modelos 7B, subir a 16 GB para modelos 13B y alcanzar los 32 GB para los de 33B. Esto no significa que no arranquen con menos, pero sí que puedes encontrarte bloqueos, cuelgues o tiempos de respuesta eternos.

En pruebas prácticas con modelos como Llama 3.2 en portátiles relativamente modestos, se ha visto que la CPU se sitúa en torno al 50 % mientras el modelo genera textos largos (por ejemplo, artículos de unas 1000 palabras sobre AGI), y el impacto en la memoria RAM es razonable. En muchos equipos de gama media actuales, estas variantes pequeñas y medias funcionarán sin problemas.

Si pasas a modelos más pesados como Gemma2:27b o algunos DeepSeek grandes, la cosa cambia. En ordenadores con poca RAM disponible, al intentar arrancar estos modelos puedes encontrarte errores directos por falta de memoria. Por eso es importante empezar con tamaños más contenidos y escalar solo si tu PC lo permite.

En el terreno de DeepSeek, los modelos distilled R1 con tamaños como 1.5B, 8B o 14B han demostrado un equilibrio muy interesante entre rendimiento y recursos, hasta el punto de que Microsoft ha anunciado que integrará variantes 1.5B y superiores en sus Copilot+ PCs para aprovechar su eficiencia.

Descargar e instalar Ollama en Windows paso a paso

Para empezar a usar esta herramienta en tu equipo, el proceso de instalación es bastante parecido al de cualquier otro programa de Windows, aunque luego se gestione por comandos.

Entra en la web oficial de Ollama (ollama.com). Nada más entrar, verás un botón de Download. Haz clic y te llevará a una página donde se listan las descargas para Windows, macOS y Linux. La web suele detectar automáticamente tu sistema y te ofrece la descarga que toca.

Selecciona la opción de Windows y vuelve a pulsar en Download para bajar el instalador. Se trata de un ejecutable estándar, así que cuando termine la descarga, haz doble clic sobre él para arrancar el asistente.

Durante la instalación de Ollama en Windows, no hay misterio: aceptas, pulsas en “Siguiente” las veces que haga falta y, cuando aparezca el botón de Install, lo marcas para que copie los archivos y registre el servicio que se ejecutará en segundo plano.

Al finalizar, es posible que no veas ninguna ventana nueva. Esto es normal, porque Ollama se queda corriendo en segundo plano. Si abres el área de notificaciones de la barra de tareas (parte inferior derecha), deberías ver el icono indicando que el servidor local está activo.

Configurar Ollama en Windows: inicio automático y carpeta de modelos

Una vez instalado, merece la pena ajustar un par de detalles en Windows para tener más control sobre cuándo arranca Ollama y dónde guarda los modelos, sobre todo si vas justo de espacio en disco.

Por defecto, Ollama se inicia automáticamente con Windows. Si prefieres arrancarlo solo cuando lo necesites, abre el Administrador de tareas (por ejemplo, con Ctrl+Alt+Supr), ve a la pestaña de Aplicaciones de inicio, busca la entrada de Ollama, haz clic derecho y selecciona “Deshabilitado”. Así evitarás que se cargue cada vez que enciendes el PC.

El otro punto clave es elegir la carpeta donde se guardarán los modelos. Puedes indicar a Windows que Ollama use, por ejemplo, un disco secundario con más espacio. Para ello, abre el buscador del menú Inicio y escribe ENV, luego pulsa en “Editar las variables de entorno del sistema”.

En la ventana de Propiedades del sistema, haz clic en “Variables de entorno”. Dentro del apartado de Variables de usuario, pulsa en “Nuevo…”. En el campo Nombre de la variable escribe exactamente OLLAMA_MODELS, y en Valor de la variable pon la ruta de la carpeta donde quieras que se guarden los modelos, por ejemplo H:\Ollama\Models.

Es importante que no cambies el nombre de la variable; si pones otro, Ollama ignorará esa ruta y seguirá usando la ubicación por defecto. Cuando termines, pulsa en Aceptar en todas las ventanas abiertas para que se guarden los cambios.

Cómo usar la línea de comandos para trabajar con Ollama

Con el servicio ya instalado y configurado, llega el momento de abrir una terminal en Windows para hablar con tus modelos. Puedes utilizar tanto PowerShell como el clásico Símbolo del sistema (CMD); ambos funcionan bien con Ollama.

Para abrir CMD, ve al buscador de Windows, escribe cmd, y si quieres evitar problemas de permisos, puedes hacer clic derecho y seleccionar “Ejecutar como administrador”. Con esto ya tendrás la ventana de la línea de comandos lista.

Si en la terminal escribes simplemente ollama y pulsas Enter, verás un listado de comandos disponibles. Entre ellos están los más importantes para el día a día: run para lanzar modelos, list para ver los que tienes descargados, o rm para eliminar aquellos que ya no quieras conservar.

Cuando ejecutas ollama run <modelo>, si ese modelo no está descargado, Ollama lo baja automáticamente y, cuando termina, se queda cargado esperando tus prompts. En la propia terminal verás el indicador >>>; todo lo que escribas a partir de ese punto se envía al LLM, y la respuesta se genera línea a línea en esa misma ventana.

Durante una sesión, el modelo mantiene el contexto de la conversación, de manera que puedes hacer preguntas encadenadas: primero consultas por el clima en Barcelona en verano, y luego preguntas “¿Y en París?” sin necesidad de repetir todos los datos. Si quieres limpiar ese contexto y empezar de cero, puedes usar el comando /clear dentro de la sesión.

Instalar y probar modelos con Ollama (Llama, DeepSeek y compañía)

El catálogo de modelos de Ollama es bastante amplio. Puedes consultar la lista completa desde la web oficial, en la sección de Search (ollama.com/search), donde verás opciones como Llama 2, Llama 3.2, Mistral, Gemma, Phi, Qwen, Llava, Fuyu, CodeLlama, WizardCoder, Alpaca y muchos más.

Al entrar en la ficha de un modelo concreto, verás una descripción, el número de parámetros y las distintas variantes por tamaño (indicadas con algo como 1B, 7B, 13B, 70B, etc.). También aparece claramente el comando que tienes que pegar en la terminal para descargar y ejecutar esa versión concreta.

Por ejemplo, para arrancar un modelo sencillo como Llama 3.2, podrías usar un comando del estilo ollama run llama3.2. Al ejecutarlo por primera vez, el programa se descargará (ocupando unos cuántos GB, según la variante) y, cuando termine, podrás empezar a chatear con él como si fuera un ChatGPT local.

Si te interesa especialmente DeepSeek R1, muy de moda por su capacidad de mostrar “pensamiento profundo” mientras razona, tienes varias versiones a tu alcance. En Windows puedes abrir CMD y lanzar, por ejemplo:

  • ollama run deepseek-r1:1.5b (la más ligera, ideal para equipos modestos)
  • ollama run deepseek-r1:8b (equilibrio entre calidad y recursos)
  • ollama run deepseek-r1:14b
  • ollama run deepseek-r1:32b
  • ollama run deepseek-r1:70b (muy exigente en hardware)

Cuando el modelo está cargado, verás que empieza a mostrar su proceso de razonamiento interno antes de la respuesta definitiva. Esa parte puede ser muy larga, y no lleva etiquetas, así que en cuanto detectes que cambia a un español más fluido o deja de “pensar en voz alta”, sabrás que está dándote la contestación final.

Para gestionar lo que tienes instalado, el comando ollama list te mostrará todos los modelos presentes en tu máquina, mientras que ollama rm nombre_modelo te permite borrar los que ya no uses para liberar espacio. Si en algún momento quieres ver ayuda rápida mientras estás en una sesión de chat, puedes escribir /? y se mostrará el listado de comandos internos (como /bye para salir o /show para ver detalles del modelo actual).

Usar Ollama con una interfaz gráfica: OpenWebUI

Aunque la terminal funciona bien, es normal que te apetezca una interfaz más amigable para chatear, guardar conversaciones, adjuntar imágenes o ver el formato de código con colores. Una de las opciones más completas para esto es OpenWebUI, una interfaz web de código abierto que se conecta al backend de Ollama.

OpenWebUI está pensada para ofrecer una experiencia tipo chat moderno: soporta Markdown, LaTeX, resaltado de código, gestión de parámetros del modelo y uso de RAG (Recuperación Aumentada de Generación) para enriquecer las respuestas con fuentes externas. Además, funciona bien en ordenadores de sobremesa y también desde el móvil, todo ello sobre tu red local.

La forma más sencilla de desplegar OpenWebUI es con Docker. En Windows, eso implica tener instalado Docker Desktop y activar previamente el Subsistema de Windows para Linux (WSL), ya que Docker se apoya en él para montar los contenedores.

El flujo general sería: primero instalar Docker y WSL, después asegurarte de que Ollama está en marcha en tu PC, y finalmente ejecutar el contenedor de OpenWebUI que se conecta a Ollama como motor de IA. Una vez arrancado, accedes mediante el navegador a una dirección local (tipo http://localhost:3000, según cómo lo tengas configurado) y desde ahí gestionas chats, modelos y ajustes con una interfaz visual.

Una vez que tengas todo esto funcionando, puedes probar distintas funciones avanzadas desde OpenWebUI: usar Markdown para estructurar notas, LaTeX para fórmulas, ajustar temperatura o longitud máxima de las respuestas, o incluso integrar fuentes de datos externas para consultas más ricas.

Integrar Ollama con ComfyUI y otros flujos creativos

Más allá del chat de texto, los modelos que gestionas con Ollama pueden ser pieza clave en workflows creativos, por ejemplo junto a ComfyUI y Stable Diffusion para generación de imágenes y vídeo.

En ese contexto, un LLM se utiliza para escribir o mejorar prompts que luego alimentarás a Stable Diffusion u otros modelos visuales. Puedes pedirle que amplíe una descripción sencilla para un vídeo, que refine el estilo o que adapte el texto a un formato muy concreto.

Otra utilidad interesante es la descripción automática de imágenes: un modelo como Llava o Florence2 (según el flujo de trabajo) analiza una imagen y genera un texto descriptivo detallado. Ese texto puede servir para replicar el estilo, documentar datasets o alimentar otros procesos creativos.

Para usar Ollama dentro de ComfyUI, necesitas primero instalar los nodos necesarios, como los del proyecto Plush-for-ComfyUI. Luego, en tu flujo, incorporas nodos LLM que se conectan al servidor local de Ollama. En las opciones del nodo, sueles poder elegir directamente cuál de tus modelos descargados quieres usar.

Por ejemplo, en un workflow de imagen a vídeo, puedes tener un primer LLM que describe la imagen y un segundo que reescribe el prompt para optimizarlo para vídeo. Si en lugar de depender de modelos en la nube los enlazas con Ollama, tendrás todo ese proceso corriendo en local, con la ventaja de la privacidad y sin límites de uso.

Elegir el modelo adecuado según lo que quieras hacer

A la hora de escoger qué descargar en Ollama, te conviene tener claro qué tipo de tareas vas a hacer más a menudo y qué tal anda tu hardware. No todos los modelos valen para todo ni todos consumen lo mismo.

Para chat general y respuesta a preguntas, las familias Llama 2 / Llama 3.2 o Mistral en tamaños medios suelen ir muy bien. Suelen dar respuestas coherentes y naturales para uso diario, sin exigir una barbaridad de recursos.

Si te centras en programación y generación de código, modelos especializados como CodeLlama o WizardCoder pueden darte mejores resultados que un modelo generalista, ya que están ajustados para interpretar y producir código, entender errores y proponer soluciones.

Para tareas multimodales (texto + imagen), modelos como LLaVA o Fuyu están diseñados para entender imágenes, generar subtítulos, responder preguntas sobre lo que ven o combinar entrada visual y textual.

Y si lo que quieres es experimentar con el famoso “pensamiento profundo” de DeepSeek R1, puedes empezar por la variante 8B, que ofrece una relación muy llamativa entre calidad de las respuestas y recursos necesarios. Si más adelante te haces con una máquina con más RAM y una GPU potente, puedes saltar a tamaños superiores.

En todos los casos, al visitar la ficha del modelo en la web de Ollama, verás claramente el comando a ejecutar y el tamaño aproximado del archivo. Cuanto mayor es la B (número de parámetros), más memoria y almacenamiento va a consumir, pero en general también obtendrás respuestas más matizadas y potentes.

Con todo esto, montar tu propio entorno de IA con Ollama en Windows es, al final, cuestión de unos pocos pasos: instalas la aplicación, ajustas un par de opciones en el sistema, descargas el modelo que más te llame la atención y empiezas a hablarle desde la terminal o a través de una interfaz como OpenWebUI. A partir de ahí, puedes ir añadiendo más modelos, integrarlos en flujos de trabajo creativos o de desarrollo y refinar poco a poco tu “laboratorio” de IA local sin depender de servicios externos.