OpenAI mueve ficha con GPT-OSS: modelos de IA abiertos para cualquiera

  • OpenAI publica GPT-OSS con pesos abiertos y licencia Apache 2.0.
  • Dos variantes: 120B (MoE) y 20B, con requisitos muy distintos.
  • Se pueden ejecutar en local con Ollama, LM Studio, vLLM o llama.cpp.
  • Rendimiento sólido, pero con más alucinaciones que los modelos cerrados tope de gama.

Tecnología open source

OpenAI da un giro relevante con GPT-OSS, una familia de modelos de IA con pesos abiertos que cualquiera puede descargar, probar y adaptar. La jugada recupera el pulso de la comunidad open y abre la puerta a usos locales sin pasar por una API comercial.

La apuesta llega con dos variantes (120B y 20B) y está enfocada a seducir a desarrolladores y equipos que quieren controlar costes, latencia y privacidad. No hay fuegos artificiales, pero sí un mensaje claro: más apertura, más opciones para quien necesite ejecutar modelos en su propio hardware.

¿Qué es exactamente GPT-OSS y qué incluye?

IA de código abierto

GPT-OSS es un modelo de lenguaje con pesos abiertos que se distribuye bajo licencia Apache 2.0. Se puede descargar y utilizar incluso con fines comerciales, sin depender de la plataforma de OpenAI o restricciones similares.

La compañía publica los pesos y recursos de integración (scripts, plantillas y ejemplos para vLLM, LangChain o una CLI estilo ChatGPT), así como versiones cuantizadas a 4/5 bits en Hugging Face para facilitar la inferencia en hardware más modesto. Para entornos que busquen entender mejor las ventajas del modelo open source.

La propuesta técnica combina arquitectura Mixture-of-Experts (MoE) con selección de expertos por token. En la versión grande, GPT-OSS-120B activa ~5,1B de parámetros por paso, mientras que GPT-OSS-20B mueve ~3,6B, manteniendo una ventana de contexto de 128.000 tokens para cargas largas (código, manuales o libros enteros).

Según la documentación, el tokenizador o200k_harmony reduce la longitud media de las secuencias, y los pesos utilizan BF16/INT8 y un esquema de 4 bits para reducir memoria sin penalizar demasiado el rendimiento.

Diferencias clave y requisitos de hardware

Existen dos perfiles claros: 120B destinado a entornos profesionales y 20B pensado para equipos de consumo avanzados. OpenAI sitúa el modelo 120B cerca de o4-mini en razonamiento y el 20B en la línea de o3-mini, siempre dentro de la categoría de modelos abiertos.

En recursos, gpt-oss-120b requiere memoria de alto rendimiento, como una GPU de 80 GB (por ejemplo, H100), mientras que gpt-oss-20b está orientado a equipos con 16 GB de memoria (VRAM o memoria unificada), siendo viable en PCs de consumo bien equipados.

Resumiendo la operativa:

  • gpt-oss-120b: modelo grande (MoE), entorno profesional, alto rendimiento.
  • gpt-oss-20b: modelo más ligero, apto para uso en local con 16 GB, ideal para pruebas y fine-tuning básico.

Es importante tener en cuenta que la carga de trabajo es intensiva: si tu GPU no está a la altura, el sistema usará más RAM y experimentará latencias altas. Es recomendable cerrar aplicaciones y dedicar máximos recursos a la inferencia para obtener un rendimiento óptimo.

Cómo ejecutarlos en local: Ollama y LM Studio

Para empezar sin complicaciones, Ollama es una opción sencilla para descargar y ejecutar modelos en Windows, macOS y Linux. Solo selecciona «gpt-oss:20b» en la interfaz, envía un mensaje y el cliente descargará el paquete (cerca de 12,8 GB) antes de comenzar.

Si buscas mayor control sobre el comportamiento del modelo y del sistema, LM Studio ofrece opciones avanzadas y soporte para múltiples variantes, incluyendo GPT-OSS-20B. Requiere algo más de experiencia técnica para ajustar parámetros y perfiles.

Quienes prefieran usar terminal o integrarse en servidores pueden apostar por vLLM o llama.cpp, que soportan cargas optimizadas y cuantizadas, facilitando el despliegue en GPU modernas sin rehacer todo el stack.

La experiencia de uso es similar a un chat al estilo ChatGPT, pero todo funciona en tu máquina: menor dependencia de terceros y mayor control sobre datos y costes.

Rendimiento, razonamiento y riesgos

OpenAI describe un selector de profundidad de razonamiento (Low/Medium/High) que ajusta la cadena de pensamiento y el uso de herramientas (navegador o intérprete de Python) según la tarea. De esta forma, puedes priorizar velocidad o exhaustividad de forma flexible.

En pruebas internas y benchmarks conocidos, los GPT-OSS se sitúan por debajo de los modelos cerrados de gama superior, pero compiten bien frente a otras alternativas abiertas. Sin embargo, tienden a alucinar más en tests como PersonQA, una consecuencia lógica por tamaño y cobertura.

Antes del lanzamiento, se realizó una revisión de seguridad: la empresa detectó mejoras marginales en capacidades sensibles (por ejemplo, biología), pero por debajo de su umbral de riesgo para publicar los pesos.

En cuanto a latencia, el rendimiento dependerá de GPU, cuantización y configuración. Con hardware adecuado, la generación puede ser lo suficientemente rápida para interacción fluida en tareas de desarrollo o asistencia técnica.

Descarga, licencia y grado de apertura

Los checkpoints están disponibles en Hugging Face (120B y 20B, con variantes cuantizadas). También puedes probar los modelos a través de plataformas en la nube habituales o acceder a una demo web en gpt-oss.com para experimentar sus capacidades sin necesidad de instalar nada.

La licencia Apache 2.0 permite uso comercial y modificaciones, aunque con ciertas restricciones: no se han divulgado los datos de entrenamiento ni todos los detalles del proceso. Es, en esencia, un modelo de pesos abiertos (no exactamente código abierto según la OSI).

Para equipos y startups, esto implica que puedes añadir auditoría, ajustar sesgos y hacer fine-tuning sin pagar por tokens ni depender de SLA externos, con la responsabilidad de asegurar el despliegue.

Este movimiento también se puede entender como una estrategia para responder a la presión del ecosistema abierto, ofreciendo una opción pragmática para desarrolladores que buscan mayor control.

Con todo ello, GPT-OSS se presenta como una alternativa viable para trabajar en local, equilibrando apertura y rendimiento, con margen para experimentar. La versión 20B, con 16 GB de RAM, permite empezar a trastear sin necesidad de supercomputadoras; mientras que la 120B, equipada con GPU de 80 GB, es ideal en escenarios profesionales de alto nivel.

Ethichub inversiones
Artículo relacionado:
EthicHub: criptoinversiones con impacto social