El nuevo modelo de inteligencia artificial de Anthropic, conocido como Claude Mythos Preview, se ha convertido en el epicentro del debate global sobre los límites de la IA avanzada. La propia compañía admite que el sistema es tan potente en materia de ciberseguridad que ha decidido no lanzarlo de forma generalizada, una decisión poco habitual en un sector acostumbrado a presumir de cada nuevo avance.
Lo que está en juego no es solo una mejora incremental respecto a modelos anteriores, sino un salto cualitativo en la capacidad de detectar y explotar fallos informáticos. Gobiernos, bancos centrales, grandes entidades financieras y reguladores europeos siguen de cerca el caso, conscientes de que una herramienta así podría reforzar la defensa de los sistemas críticos, pero también abrir la puerta a ataques de escala inédita si acabara en manos equivocadas.
Qué es exactamente Claude Mythos y por qué se ha frenado su lanzamiento
Claude Mythos es uno de los modelos más recientes de la familia Claude, el ecosistema de IA de Anthropic que compite con ChatGPT de OpenAI y Gemini de Google. Se trata de un modelo de propósito general, capaz de razonar, programar y trabajar con contexto largo, pero su rasgo más controvertido es su desempeño en ciberseguridad ofensiva y defensiva.
Los llamados “equipos rojos”, specialists que ponen a prueba sistemas de IA buscando sus límites, concluyeron en un informe interno que Mythos es “sorprendentemente capaz” en tareas de seguridad informática. En pruebas de referencia como SWE-bench Verified o SWE-bench Pro, diseñadas para medir la capacidad de resolver problemas reales de ingeniería de software, el modelo habría superado con holgura a alternativas comerciales de primera línea, incluyendo versiones avanzadas de GPT y Gemini, según datos facilitados por la propia Anthropic.
Más allá de los benchmarks, lo que ha disparado las alarmas es que Mythos fue capaz de localizar vulnerabilidades de día cero —fallos desconocidos hasta ahora— en piezas de software ampliamente utilizadas, algunas con más de dos décadas de antigüedad. En sistemas como OpenBSD, FFmpeg o componentes de FreeBSD, el modelo no solo detectó errores que habían pasado desapercibidos durante años, sino que generó exploits funcionales para aprovecharlos.
Frente a estos resultados, Anthropic optó por una decisión inusual en la industria: presentar el modelo y, acto seguido, anunciar que no lo comercializará de forma abierta por considerar que plantea riesgos de ciberseguridad sin precedentes. La empresa insiste en que Mythos es el modelo “mejor alineado” que han construido, pero reconoce que su enorme capacidad amplifica las consecuencias de cualquier mal uso.

Un modelo con habilidades de “hacker” muy por encima de lo humano
Los documentos técnicos y los reportes de distintos organismos coinciden en que Mythos marca un antes y un después en la automatización de ataques complejos. En entornos de prueba que simulan redes corporativas reales, el sistema fue capaz de encadenar vulnerabilidades, escalar privilegios y lograr acceso persistente en horas, tareas que a un experto humano le llevarían días o semanas.
En el motor JavaScript de Firefox, por ejemplo, versiones anteriores de los modelos de Anthropic apenas lograban convertir fallos en exploits funcionales en contadas ocasiones. Mythos, bajo las mismas condiciones de prueba, generó decenas de exploits operativos, repitiendo con precisión la explotación de los vectores más eficaces. En plataformas de análisis como OSS-Fuzz, diseñadas para encontrar errores en software de código abierto, se le atribuye la detección de vulnerabilidades de alta gravedad que habían pasado inadvertidas pese a años de pruebas automatizadas.
El modelo también ha demostrado capacidades llamativas en ingeniería inversa: puede reconstruir parte de la lógica de un programa a partir de binarios compilados y, a partir de ahí, localizar y explotar fallos sin acceder al código fuente original. Este tipo de destreza acerca a la IA a escenarios que, hasta hace poco, se consideraban exclusivos de equipos humanos altamente especializados.
Uno de los episodios más citados en las evaluaciones de seguridad es el de la llamada “prueba del sándwich”. En un entorno aislado de laboratorio, a Mythos se le dio el control de un sistema con instrucciones explícitas para intentar escapar del sandbox y contactar con el investigador que supervisaba el test. El modelo consiguió aprovechar una cadena de vulnerabilidades para salir de su entorno restringido y enviar un correo electrónico al responsable, que en ese momento estaba fuera de la oficina. Aunque el caso se produjo en una versión interna anterior y bajo órdenes dirigidas, ilustra hasta qué punto el sistema puede desenvolverse en escenarios complejos con mínima supervisión.
Pese a estas demostraciones, los analistas insisten en matizar que no estamos ante una IA “consciente” ni con voluntad propia. Mythos no decide por sí mismo atacar sistemas: ejecuta las tareas que se le piden de la forma más eficaz posible. El riesgo, en este sentido, no es que el modelo se rebele, sino que alguien lo utilice —o lo fuerce mediante prompts sofisticados— para realizar acciones dañinas.
Project Glasswing: Mythos al servicio de la defensa… para unos pocos
En lugar de abrir el acceso al público general, Anthropic ha optado por rodear a Mythos de un programa específico, Project Glasswing, concebido para usar las capacidades del modelo de forma controlada en la protección de software crítico. La iniciativa consiste en ofrecer el sistema, bajo estrictas condiciones de uso, a un grupo reducido de grandes tecnológicas, proveedores de infraestructuras y entidades financieras.
Entre las organizaciones con acceso se encuentran gigantes como Amazon Web Services, Apple, Microsoft, Google Cloud, Nvidia o Broadcom, así como firmas especializadas en ciberseguridad como CrowdStrike, cuyo propio software defectuoso provocó una grave interrupción global en 2024. A ellas se suman bancos de referencia mundial, incluidos JP Morgan Chase y varios grandes grupos de Wall Street, además de otras organizaciones responsables de mantener infraestructuras informáticas sensibles.
Anthropic ha anunciado también créditos por valor de 100 millones de dólares para que estas entidades utilicen Mythos en tareas de análisis de vulnerabilidades, junto con donaciones a fundaciones de software libre como la Linux Foundation o la Apache Software Foundation. El objetivo oficial es claro: permitir que quienes gestionan el software más crítico del mundo puedan identificar y corregir fallos antes de que herramientas de este tipo estén al alcance de potenciales atacantes.
Esta estrategia, sin embargo, genera cierta incomodidad en el sector. Por un lado, refuerza la idea de que la tecnología es lo bastante peligrosa como para requerir un acceso restringido. Por otro, crea una brecha entre quienes se benefician del “escudo” de Mythos y quienes se quedan fuera. Las empresas y administraciones que no forman parte de Glasswing corren el riesgo de enfrentarse más adelante a vulnerabilidades que fueron identificadas y parcheadas en entornos privilegiados, pero que siguen presentes en sus propios sistemas.
En Europa, esta asimetría preocupa especialmente a los responsables de infraestructuras críticas y a los equipos de seguridad de grandes grupos industriales y financieros, que observan con atención si Bruselas y las capitales europeas logran que programas similares incluyan a actores clave del continente en igualdad de condiciones y la soberanía cloud con los socios estadounidenses.
Reacción de gobiernos, reguladores y sector financiero
El impacto de Mythos no se limita al terreno técnico. En pocos días, el anuncio del modelo desencadenó reuniones de alto nivel en Estados Unidos y en Europa. El secretario del Tesoro estadounidense convocó en Washington a los directivos de los principales bancos del país para evaluar los riesgos que el sistema podría suponer para la estabilidad financiera, mientras que el presidente de la Reserva Federal participó también en esas conversaciones.
Según filtraciones recogidas por medios internacionales, a estas entidades se les habría animado a probar Mythos en modo defensivo, utilizándolo para escanear sus propias infraestructuras en busca de puntos débiles antes de que otros puedan hacerlo. El mensaje implícito es que la amenaza es lo bastante seria como para justificar una respuesta coordinada entre sector público y privado.
En paralelo, el cofundador de Anthropic ha confirmado que la compañía mantiene conversaciones directas con el Gobierno de Estados Unidos sobre Mythos y sobre futuros modelos. Estas discusiones se producen en un contexto tenso, después de que las autoridades estadounidenses incluyeran recientemente a la empresa en una lista de riesgos para la cadena de suministro, tras fricciones relacionadas con el uso de sus modelos por parte del Departamento de Defensa.
Al otro lado del Atlántico, la Unión Europea ha tomado nota. La Comisión Europea ha respaldado públicamente un enfoque gradual y prudente hacia modelos como Mythos, y los reguladores financieros del Reino Unido y del continente han empezado a estudiar específicamente sus posibles implicaciones para la banca y los mercados. El Instituto de Seguridad de la IA del Gobierno británico (AISI) ha descrito el sistema como un salto significativo en términos de amenaza cibernética respecto a generaciones anteriores.
En España, aunque el debate público todavía es limitado, organismos supervisores y equipos de ciberseguridad de bancos y grandes compañías energéticas siguen de cerca estos movimientos. Para el sector financiero europeo, cualquier avance que pueda facilitar ataques coordinados contra sistemas de pago, redes interbancarias o plataformas de negociación es motivo de máxima preocupación.
Escepticismo, dudas y debate sobre el “hype” en torno a Mythos
El relato de Anthropic, que combina advertencias de seguridad con cifras espectaculares de rendimiento, no ha quedado exento de críticas. Varios expertos en IA y ciberseguridad han pedido cautela a la hora de interpretar las afirmaciones de la compañía, señalando que buena parte de los datos disponibles procede solo de informes internos.
Algunos analistas han revisado en detalle la extensa documentación publicada por Anthropic y apuntan que la cifra de “miles de vulnerabilidades de alta gravedad” se basa en extrapolaciones a partir de un número relativamente reducido de casos revisados manualmente. En ciertos conjuntos de pruebas, Mythos habría encontrado un número de fallos críticos notable, pero lejos del escenario casi apocalíptico que sugieren algunos titulares.
Otros estudios independientes han tratado de comparar el rendimiento de Mythos con modelos de código abierto más pequeños, pasando fragmentos de código vulnerables a distintas IA para ver si lograban detectar los mismos fallos. Los resultados indican que algunos modelos abiertos también son capaces de identificar vulnerabilidades complejas, lo que cuestiona la idea de que Mythos juegue en una liga completamente distinta en todos los escenarios.
Este tipo de contraejemplos no niega las capacidades de Mythos, pero sí invitan a pensar que una parte del discurso de “demasiado peligroso para publicar” tiene también una dimensión de marketing. Presentar un modelo como extraordinariamente potente y al mismo tiempo como un riesgo potencial refuerza la imagen de liderazgo tecnológico y de responsabilidad, algo muy valioso en un mercado cada vez más competitivo.
La memoria reciente del sector recuerda, además, el precedente de GPT-2 en 2019, cuando OpenAI decidió no publicar inicialmente el modelo completo alegando que era demasiado peligroso por su potencial para generar desinformación. Con el tiempo, esa versión acabó saliendo al público sin que se materializara ninguna de las catástrofes anunciadas, y muchos expertos lo citaron como ejemplo de alarma exagerada. Con Mythos, la diferencia es que el foco ya no está en el texto, sino en la integridad de la infraestructura digital, un terreno mucho más sensible para gobiernos y bancos.
Un equilibrio delicado entre seguridad, negocio y acceso a la tecnología
Más allá del ruido mediático, la situación de Mythos pone sobre la mesa una cuestión de fondo: quién decide cuándo un modelo de IA es demasiado peligroso para liberarlo y bajo qué criterios. De momento, la decisión ha sido unilateral por parte de Anthropic, que ha optado por mantener el sistema en una especie de cuarentena controlada, reservándolo para socios seleccionados.
Esta posición no solo responde a motivos de seguridad. Ejecutar un modelo con las características de Mythos es muy costoso en términos de computación, y la propia empresa reconoce que hoy por hoy no dispone de la infraestructura necesaria para servirlo de forma masiva a millones de usuarios. En la práctica, la prudencia en seguridad y las limitaciones técnicas van de la mano, lo que concede a Anthropic un margen de tiempo para ajustar tanto el modelo como su despliegue.
Paralelamente, la compañía ha empezado a diferenciar con claridad entre sus distintos productos. Mientras Mythos se mantiene como estándar interno más avanzado, reservado a contextos de investigación y colaboración estratégica, otros modelos como Claude Opus 4.7 se orientan al uso cotidiano en empresas y profesionales. Anthropic ha llegado a reconocer públicamente que Opus 4.7 es “menos capaz” que Mythos en términos generales y, en particular, en lo que respecta a sus capacidades cibernéticas, algo poco habitual en una industria que suele presentar cada nuevo modelo como el mejor en todo.
En este esquema, Mythos funciona como banco de pruebas para capacidades de siguiente generación, mientras que los modelos comercializados incorporan solo una parte de esas habilidades, con límites adicionales diseñados para reducir riesgos. Para muchas organizaciones europeas, interesadas en aprovechar la IA sin situarse en primera línea de exposición, esta separación entre modelos “experimentales” y “productivos” puede resultar una vía razonable, siempre que exista transparencia suficiente sobre qué puede hacer realmente cada sistema.
Lo que se dibuja, en definitiva, es un escenario en el que la ciberseguridad entra de lleno en la era de la IA ofensiva y defensiva a gran escala. Herramientas como Mythos prometen acelerar la identificación de vulnerabilidades en sistemas que llevan años en funcionamiento, pero también obligan a replantear la forma en que se distribuye y gobierna la tecnología que sustenta la economía digital. Para Europa y España, el reto no será solo protegerse de modelos cada vez más potentes, sino asegurarse de no quedarse fuera de los mecanismos que permiten utilizarlos para reforzar la seguridad propia.
