OpenAI da un giro relevante con GPT-OSS, una familia de modelos de IA con pesos abiertos que cualquiera puede descargar, probar y adaptar. La jugada recupera el pulso de la comunidad open y abre la puerta a usos locales sin pasar por una API comercial.
La apuesta llega con dos variantes (120B y 20B) y está enfocada a seducir a desarrolladores y equipos que quieren controlar costes, latencia y privacidad. No hay fuegos artificiales, pero sà un mensaje claro: más apertura, más opciones para quien necesite ejecutar modelos en su propio hardware.
¿Qué es exactamente GPT-OSS y qué incluye?

GPT-OSS es un modelo de lenguaje con pesos abiertos que se distribuye bajo licencia Apache 2.0. Se puede descargar y utilizar incluso con fines comerciales, sin depender de la plataforma de OpenAI o restricciones similares.
La compañÃa publica los pesos y recursos de integración (scripts, plantillas y ejemplos para vLLM, LangChain o una CLI estilo ChatGPT), asà como versiones cuantizadas a 4/5 bits en Hugging Face para facilitar la inferencia en hardware más modesto. Para entornos que busquen entender mejor las ventajas del modelo open source.
La propuesta técnica combina arquitectura Mixture-of-Experts (MoE) con selección de expertos por token. En la versión grande, GPT-OSS-120B activa ~5,1B de parámetros por paso, mientras que GPT-OSS-20B mueve ~3,6B, manteniendo una ventana de contexto de 128.000 tokens para cargas largas (código, manuales o libros enteros).
Según la documentación, el tokenizador o200k_harmony reduce la longitud media de las secuencias, y los pesos utilizan BF16/INT8 y un esquema de 4 bits para reducir memoria sin penalizar demasiado el rendimiento.
Diferencias clave y requisitos de hardware
Existen dos perfiles claros: 120B destinado a entornos profesionales y 20B pensado para equipos de consumo avanzados. OpenAI sitúa el modelo 120B cerca de o4-mini en razonamiento y el 20B en la lÃnea de o3-mini, siempre dentro de la categorÃa de modelos abiertos.
En recursos, gpt-oss-120b requiere memoria de alto rendimiento, como una GPU de 80 GB (por ejemplo, H100), mientras que gpt-oss-20b está orientado a equipos con 16 GB de memoria (VRAM o memoria unificada), siendo viable en PCs de consumo bien equipados.
Resumiendo la operativa:
- gpt-oss-120b: modelo grande (MoE), entorno profesional, alto rendimiento.
- gpt-oss-20b: modelo más ligero, apto para uso en local con 16 GB, ideal para pruebas y fine-tuning básico.
Es importante tener en cuenta que la carga de trabajo es intensiva: si tu GPU no está a la altura, el sistema usará más RAM y experimentará latencias altas. Es recomendable cerrar aplicaciones y dedicar máximos recursos a la inferencia para obtener un rendimiento óptimo.
Cómo ejecutarlos en local: Ollama y LM Studio
Para empezar sin complicaciones, Ollama es una opción sencilla para descargar y ejecutar modelos en Windows, macOS y Linux. Solo selecciona «gpt-oss:20b» en la interfaz, envÃa un mensaje y el cliente descargará el paquete (cerca de 12,8 GB) antes de comenzar.
Si buscas mayor control sobre el comportamiento del modelo y del sistema, LM Studio ofrece opciones avanzadas y soporte para múltiples variantes, incluyendo GPT-OSS-20B. Requiere algo más de experiencia técnica para ajustar parámetros y perfiles.
Quienes prefieran usar terminal o integrarse en servidores pueden apostar por vLLM o llama.cpp, que soportan cargas optimizadas y cuantizadas, facilitando el despliegue en GPU modernas sin rehacer todo el stack.
La experiencia de uso es similar a un chat al estilo ChatGPT, pero todo funciona en tu máquina: menor dependencia de terceros y mayor control sobre datos y costes.
Rendimiento, razonamiento y riesgos
OpenAI describe un selector de profundidad de razonamiento (Low/Medium/High) que ajusta la cadena de pensamiento y el uso de herramientas (navegador o intérprete de Python) según la tarea. De esta forma, puedes priorizar velocidad o exhaustividad de forma flexible.
En pruebas internas y benchmarks conocidos, los GPT-OSS se sitúan por debajo de los modelos cerrados de gama superior, pero compiten bien frente a otras alternativas abiertas. Sin embargo, tienden a alucinar más en tests como PersonQA, una consecuencia lógica por tamaño y cobertura.
Antes del lanzamiento, se realizó una revisión de seguridad: la empresa detectó mejoras marginales en capacidades sensibles (por ejemplo, biologÃa), pero por debajo de su umbral de riesgo para publicar los pesos.
En cuanto a latencia, el rendimiento dependerá de GPU, cuantización y configuración. Con hardware adecuado, la generación puede ser lo suficientemente rápida para interacción fluida en tareas de desarrollo o asistencia técnica.
Descarga, licencia y grado de apertura
Los checkpoints están disponibles en Hugging Face (120B y 20B, con variantes cuantizadas). También puedes probar los modelos a través de plataformas en la nube habituales o acceder a una demo web en gpt-oss.com para experimentar sus capacidades sin necesidad de instalar nada.
La licencia Apache 2.0 permite uso comercial y modificaciones, aunque con ciertas restricciones: no se han divulgado los datos de entrenamiento ni todos los detalles del proceso. Es, en esencia, un modelo de pesos abiertos (no exactamente código abierto según la OSI).
Para equipos y startups, esto implica que puedes añadir auditorÃa, ajustar sesgos y hacer fine-tuning sin pagar por tokens ni depender de SLA externos, con la responsabilidad de asegurar el despliegue.
Este movimiento también se puede entender como una estrategia para responder a la presión del ecosistema abierto, ofreciendo una opción pragmática para desarrolladores que buscan mayor control.
Con todo ello, GPT-OSS se presenta como una alternativa viable para trabajar en local, equilibrando apertura y rendimiento, con margen para experimentar. La versión 20B, con 16 GB de RAM, permite empezar a trastear sin necesidad de supercomputadoras; mientras que la 120B, equipada con GPU de 80 GB, es ideal en escenarios profesionales de alto nivel.