DeepSeek V4: el modelo de 1T parámetros que quiere dominar el contexto largo

  • DeepSeek V4 llega con arquitectura Mixture-of-Experts de hasta 1,6T de parámetros y cerca de 1T en los modelos abiertos, activando solo decenas de miles de millones por token para ganar eficiencia.
  • La familia V4 ofrece una ventana de contexto de hasta 1 millón de tokens como nuevo estándar, permitiendo trabajar con repositorios de código y documentación masiva en una sola pasada.
  • Las variantes Pro y Flash combinan alto rendimiento, multimodalidad y costes de inferencia muy bajos frente a modelos cerrados como GPT o Claude.
  • La apertura de pesos y la compatibilidad con APIs populares acercan la IA de frontera a startups y empresas europeas, con especial impacto en España y el ecosistema hispanohablante.

Modelo DeepSeek V4 contexto largo

La nueva generación de modelos de DeepSeek se ha puesto en el centro del debate tecnológico con una propuesta muy clara: contexto de hasta un millón de tokens y una arquitectura de más de un billón de parámetros pensada para ser eficiente y, sobre todo, mucho más barata que las alternativas cerradas de Estados Unidos. La compañía china ha puesto toda la carne en el asador con V4, una familia que combina pesos abiertos, ventana de contexto gigantesca y una estrategia de precios agresiva.

Este movimiento llega en un momento en el que Europa y España miran con lupa el coste y la soberanía tecnológica en IA. DeepSeek V4 se presenta como una opción atractiva para startups, pymes y grandes empresas europeas que necesitan capacidades de nivel frontier, pero no pueden —o no quieren— depender por completo de APIs propietarias con tarifas elevadas ni de hardware exclusivo como las GPUs NVIDIA más cotizadas.

Una familia V4 centrada en 1T de parámetros y contexto de 1M de tokens

Arquitectura DeepSeek V4

DeepSeek ha anunciado la llegada de DeepSeek-V4 Preview como una familia de modelos abiertos que gira en torno a dos ideas: una ventana de contexto de hasta 1 millón de tokens y arquitecturas gigantes basadas en Mixture-of-Experts (MoE). Dentro de esta familia destacan dos variantes principales: DeepSeek-V4-Pro y DeepSeek-V4-Flash, ambas con ese contexto de 1M como seña de identidad.

En el extremo más ambicioso, V4-Pro se mueve en cifras de hasta 1,6 billones de parámetros totales (1,6T), aunque solo activa entre unos 32 y 49 mil millones de parámetros en cada paso de inferencia gracias al esquema MoE, algo crucial para mantener la eficiencia. En paralelo, la compañía ha presentado variantes más ligeras, como V4-Flash o V4-Lite, con alrededor de 284-285 mil millones de parámetros totales y unos 13 mil millones activos, pensadas para despliegues donde la prioridad es la velocidad y el coste.

El número de parámetros totales sitúa a la familia V4 en la parte alta del mercado, pero el detalle importante está en que solo una fracción de esos expertos se activa por token. Eso permite comportarse como un modelo gigantesco en capacidad, pero con un consumo de cómputo más cercano al de modelos mucho más pequeños. Es un enfoque que encaja con la narrativa de DeepSeek: competir con los grandes modelos cerrados sin disparar el coste de uso.

La compañía también ha lanzado variantes preliminares como V4-Lite, que sirven de validación técnica, y ha ido ajustando el calendario de despliegue. Aunque V4 se encuentra todavía en fase de pruebas limitadas en algunos contextos, la familia V4 Preview ya se puede usar en el chatbot oficial y a través de la API actualizada de la empresa, con el contexto de 1M como valor por defecto en sus servicios.

Arquitectura híbrida y Mixture-of-Experts para hacer viable el contexto largo

La clave de que DeepSeek pueda ofrecer una ventana de contexto de un millón de tokens sin que el coste de inferencia se dispare está en la arquitectura. El fabricante explica que V4 introduce una combinación de atención híbrida, Mixture-of-Experts y técnicas de compresión pensadas para trabajar con secuencias muy largas reduciendo tanto FLOPs por token como memoria necesaria.

Entre las piezas técnicas que la empresa menciona destacan elementos como MLA (Atención Latente Multi-Cabeza), DSA o DeepSeek Sparse Attention y mecanismos de memoria condicional como Engram. En conjunto, estos componentes buscan disminuir el peso del cálculo de atención, especialmente cuando el modelo tiene que manejar cientos de miles o un millón de tokens en una sola pasada.

Según los datos compartidos por la propia compañía, en escenarios de 1M de tokens DeepSeek-V4-Pro puede requerir alrededor del 27% de los FLOPs por token y solo el 10% de la caché KV frente a versiones previas como DeepSeek-V3.2. Las variantes más ligeras, como V4-Flash, reducen aún más esas cifras, situándose como soluciones de inferencia rápida para aplicaciones donde la latencia es crítica.

Este tipo de mejoras no se quedan solo en teoría: la empresa asegura que la combinación de MoE, atención dispersa y compresión de contexto permite operar con contexto ultra-largo en hardware menos extremo y a un coste por millón de tokens notablemente inferior al de muchos modelos cerrados con ventanas de 128K o 200K tokens.

Rendimiento en razonamiento, programación y tareas agénticas

DeepSeek no solo quiere destacar por tamaño y contexto. En sus comparativas internas, la compañía insiste en que V4-Pro y sus variantes se han optimizado especialmente para razonamiento complejo, programación y agentes, tres frentes que hoy concentran buena parte de la demanda empresarial. En benchmarks como SWE-bench, orientado a medir la capacidad de entender y modificar repositorios de código, se habla de cifras por encima del 80% de acierto, en línea con modelos cerrados punteros.

En razonamiento más general —incluyendo matemáticas, disciplinas STEM y problemas tipo cadena de pensamiento— la empresa sitúa a V4-Pro como uno de los modelos abiertos más fuertes, y sostiene que se acerca al nivel de propuestas de frontera cerradas. En conocimiento del mundo, los datos internos lo colocan a la cabeza del ecosistema open y solo por detrás de algunos modelos propietarios muy concretos, como ciertas variantes avanzadas de Gemini.

Más allá de los números, el énfasis en tareas agénticas apunta a un uso que va mucho más allá del chat básico. DeepSeek asegura que V4 ya impulsa su propia infraestructura de agentes de código y sistemas que encadenan múltiples pasos, acceden a herramientas y trabajan sobre repositorios o bases documentales extensas. Este enfoque encaja con la tendencia actual del sector, donde muchas empresas ya no solo buscan un chatbot, sino asistentes capaces de operar como “colegas digitales” dentro de flujos de trabajo complejos.

Conviene tomar estas comparativas con cierto cuidado: como ocurre con casi todos los lanzamientos recientes de IA, buena parte de los datos proceden de la propia compañía y de pruebas en entornos controlados. Aun así, la combinación de contexto largo, arquitectura eficiente y rendimiento competitivo está generando atención en desarrolladores europeos que comparan costes y capacidades frente a opciones como GPT, Claude, Llama o Mistral.

Modelos abiertos, pesos publicados y compatibilidad con APIs populares

Uno de los ejes que han dado notoriedad a DeepSeek es su apuesta por el ecosistema abierto. Con V4, la empresa refuerza esa línea: ha publicado el informe técnico y ha liberado pesos abiertos de la familia en plataformas como Hugging Face, permitiendo que investigadores, empresas y administraciones públicas descarguen los modelos y los ejecuten en su propia infraestructura.

Este enfoque de pesos abiertos, en contraste con las propuestas completamente cerradas de muchos laboratorios estadounidenses, tiene implicaciones claras para España y la Unión Europea. La posibilidad de desplegar estos modelos en centros de datos dentro de la UE, bajo marcos como el RGPD y la futura regulación de IA de la UE, ofrece una vía para mantener mayor control sobre los datos sin renunciar a capacidades de primer nivel.

En cuanto a la integración práctica, DeepSeek ha optado por reducir fricciones: la API mantiene la misma base_url y es compatible con los esquemas de ChatCompletions de OpenAI y con las interfaces de Anthropic. Para muchos equipos de desarrollo esto significa que migrar pruebas o partes del tráfico a V4 se limita, en esencia, a cambiar el identificador de modelo a deepseek-v4-pro o deepseek-v4-flash y ajustar algunos parámetros.

Al mismo tiempo, la compañía ha marcado un calendario de retirada de modelos anteriores. Soluciones como deepseek-chat y deepseek-reasoner serán descontinuadas y redirigidas a V4-Flash hasta su retirada completa, algo que obliga a quienes los usaban a ir preparando la migración. Es una forma clara de concentrar la oferta en la nueva generación y evitar fragmentar la base de usuarios en demasiadas variantes heredadas.

Costes de inferencia contenidos y foco en eficiencia económica

La narrativa de DeepSeek gira desde sus inicios alrededor de la eficiencia. Con V4, ese discurso se refuerza con una combinación de arquitectura MoE, atención dispersa y optimización de hardware que busca bajar el coste por millón de tokens a niveles muy por debajo de las APIs premium más conocidas. En algunos análisis externos se habla de cifras en torno a 0,30 dólares por millón de tokens de entrada para ciertas configuraciones, una fracción de lo que cobran modelos cerrados de gama alta.

En el contexto europeo, donde los costes de infraestructura y energía son relevantes, esta orientación a la eficiencia encaja bien con las necesidades de startups y pymes. Procesar documentos legales extensos, historiales médicos largos o repositorios de software completos deja de ser un lujo reservado a empresas con presupuestos casi ilimitados y pasa a formar parte de escenarios asumibles para proyectos emergentes.

Algunos proveedores de infraestructura de IA ya ofrecen acceso temprano a nodos basados en DeepSeek V4 como parte de sus catálogos, lo que facilita que empresas europeas puedan evaluar rendimiento y costes reales sin tener que montar desde cero una infraestructura propia. Para muchas organizaciones, esa fase de prueba es el paso previo antes de decidir si conviene seguir con un modelo externalizado o apostar por despliegues on-premise.

En paralelo, el silencio parcial de la compañía sobre el coste exacto de entrenamiento y el hardware concreto utilizado ha generado dudas en parte del sector. Desde 2025 circulan sospechas sobre el volumen real de recursos necesarios para entrenar sus modelos, incluidas estimaciones que apuntaban a decenas de miles de GPUs de alta gama. DeepSeek insiste en que ha logrado una nueva etapa de «contexto largo rentable», pero todavía no ha despejado por completo las incógnitas sobre la escala material de sus operaciones.

Impacto para startups y empresas en España y Europa

Para el ecosistema emprendedor europeo, y en particular para las startups tecnológicas en España, la aparición de modelos como DeepSeek V4 abre opciones que hasta hace poco eran difíciles de plantear. Acceder a un modelo de más de un billón de parámetros con contexto de 1M tokens y pesos abiertos permite explorar productos avanzados sin depender en exclusiva de proveedores de Silicon Valley.

En sectores regulados —finanzas, salud, legal, administración pública— la posibilidad de ejecutar el modelo en centros de datos dentro de la UE o incluso en instalaciones propias resulta especialmente relevante. El cumplimiento del RGPD y de las normativas nacionales sobre protección de datos se vuelve más manejable cuando la información no tiene que salir de jurisdicciones europeas para ser procesada por un modelo de IA.

Startups españolas que trabajan con grandes volúmenes de documentos, como legaltech, healthtech o herramientas para desarrolladores, pueden aprovechar el contexto de 1M tokens para analizar expedientes completos, historiales médicos muy largos o repositorios de código monolíticos sin necesidad de dividirlos en múltiples trozos y diseñar complicados sistemas de recuperación. Esto reduce complejidad técnica y, en muchos casos, también latencia.

Al mismo tiempo, conviene tener presentes los riesgos: el ecosistema de herramientas alrededor de DeepSeek es más joven que el de otros modelos abiertos como Llama, y la documentación y el soporte comunitario aún están madurando. Además, el hecho de que sea una empresa china introduce un componente geopolítico que algunas organizaciones europeas valoran con cautela, especialmente en proyectos ligados a administraciones o a infraestructuras críticas.

Un movimiento que presiona a los modelos cerrados de alto coste

Más allá de sus especificaciones concretas, DeepSeek V4 se interpreta dentro del sector como un paso más en la presión competitiva sobre los modelos cerrados más caros del mercado. Al fijar el contexto de 1M tokens como estándar en sus servicios oficiales y acompañarlo de pesos abiertos, la empresa china lanza un mensaje claro: el contexto ultra-largo ya no tiene por qué ser una característica exclusiva de unos pocos modelos propietarios de precio elevado.

Para los grandes laboratorios occidentales, esto supone un desafío. OpenAI, Anthropic o Google han utilizado históricamente la combinación de mayor calidad, contexto amplio y ecosistema propietario como argumento de valor. La aparición de una alternativa abierta con un contexto incluso superior en algunos casos y costes muy contenidos obliga a replantear estrategias de producto y precios, sobre todo en segmentos donde el margen de las empresas usuarias es ajustado.

En el ámbito hispanohablante, donde buena parte de las startups operan con presupuestos mucho más modestos que sus equivalentes en Estados Unidos, la presión competitiva juega a favor. Cuanta más oferta de modelos potentes y abiertos haya, mayor capacidad tendrán los equipos técnicos de elegir en función de precio, cumplimiento normativo y caso de uso, y no solo de la marca detrás de la API.

Al mismo tiempo, DeepSeek sabe que su apuesta no está exenta de desafíos: la mayoría de los benchmarks y comparativas provienen de su propia documentación o de pruebas en fases de vista previa, y el mercado todavía está pendiente de ver cómo se comportan los modelos V4 cuando se despliegan de forma masiva en entornos de producción exigentes, incluidos los europeos.

En conjunto, la llegada de DeepSeek V4 consolida una tendencia que se venía gestando desde hace un tiempo: los modelos de IA de frontera ya no son territorio exclusivo de unas pocas empresas con sistemas cerrados y presupuestos astronómicos. Con una combinación de más de 1T de parámetros, contexto de 1M tokens, pesos abiertos y un discurso centrado en la eficiencia, la compañía china introduce una alternativa que empresas y desarrolladores en España y Europa difícilmente podrán ignorar en sus próximos planes de adopción y renovación de infraestructura de IA.

jornada de Inteligencia Artificial
Artículo relacionado:
Jornadas sobre Inteligencia Artificial acercan la IA a pymes, turismo y ámbito universitario