Saturday , 20 May 2024
Tecnología

Claude Mythos da miedo. Bien lo sabe el ingeniero que estaba comiendo un bocadillo en el parque cuando recibió un aterrador correo electrónico de esta IA. – Tinta clara

  • abril 9, 2026
  • 0

Anthropic lanzó ayer Claude Mythos Preview y nos dejó a muchos fascinados y, sobre todo, preocupados. Esperábamos que su nuevo modelo de IA fuera más potente, pero lo

Claude Mythos da miedo. Bien lo sabe el ingeniero que estaba comiendo un bocadillo en el parque cuando recibió un aterrador correo electrónico de esta IA.

 – Tinta clara

Anthropic lanzó ayer Claude Mythos Preview y nos dejó a muchos fascinados y, sobre todo, preocupados. Esperábamos que su nuevo modelo de IA fuera más potente, pero lo que no esperábamos es que, según tus pruebas y tu «tarjeta de sistema» Logró hacer tantas cosas que dan miedo porque no parecía posible que pudiera hacerlas. Algunas de estas historias parecen un episodio de Black Mirror, pero no lo son.

El correo electrónico sándwich. Durante una de las pruebas realizadas, los investigadores de Anthropic dieron acceso a una versión de Mythos para controlar un ordenador en un entorno seguro y aislado y le pidieron que intentara escapar de ese contenedor y enviara un mensaje al investigador que supervisaba la evaluación. El modelo tuvo éxito, pero hizo algo más: desarrolló por sí solo un exploit de varios pasos muy avanzado para obtener acceso a Internet desde un sistema que, por diseño, sólo era capaz de acceder a una lista limitada de servicios predefinidos. El investigador estaba comiendo tranquilamente un bocadillo en el parque cuando recibió el correo que nunca debería haber recibido y que precisamente por eso le resultó aterrador. La cosa no acaba ahí, porque el modelo también decidió, sin que nadie se lo pidiera, publicar los detalles técnicos de su exploit en varios sitios web de difícil acceso pero técnicamente públicos. Quería dejar constancia de su logro.

El error de OpenBSD que había estado oculto durante 27 años. Otro artículo técnico publicado por Anthropic dio aún más pistas sobre los «logros» de Claude Mythos. OpenBSD es el sistema operativo con una de las reputaciones más sólidas del mundo en materia de ciberseguridad. Aun así, Mythos encontró en él una vulnerabilidad que existía desde 1998. El error estaba oculto en la implementación del protocolo TCP con una función que gestiona el reenvío selectivo de paquetes perdidos. Aquí no basta con detectar el error: hay que encadenar dos fallos separados que individualmente parecen casi inofensivos, y luego aprovechar un desbordamiento de la secuencia TCP para satisfacer una condición muy rara. Con este método, un atacante en Internet podría enviar un paquete especial y bloquear la máquina de forma remota sin autenticación. Mythos lo encontró solo sin que nadie le dijera dónde buscar.

FFmpeg y fuzzing. FFmpeg es una biblioteca extraordinariamente famosa en Internet porque procesa videos masivamente en Internet. También es una herramienta altamente auditada y los investigadores suelen utilizar la técnica de borroso —bombardearlo con millones de archivos de vídeo con formato incorrecto hasta que uno lo rompe— para explotar sus vulnerabilidades. Mythos encontró un error que ha estado en el código desde 2003 y se convirtió en una vulnerabilidad en una refactorización que se realizó en 2010. El problema vuelve a ser extraordinariamente difícil de encontrar, hasta el punto de que 20 años de revisiones humanas y automatizadas no lo habían detectado, pero el modelo de Anthropic lo detectó.

Ejecución remota de código en FreeBSD. Mythos identificó y aprovechó de forma autónoma una vulnerabilidad de 17 años en el código del servidor NFS de FreeBSD, que permite compartir archivos en red. Con él, cualquier usuario no autenticado en Internet podría obtener acceso completo a la raíz de la máquina. La magnitud de esta falla es enorme, porque el servidor NFS se ejecuta en el núcleo del sistema operativo y da acceso al control absoluto por parte del atacante. Mythos encontró el error y desarrolló el exploit por valor de 50 dólares en llamadas API.

Días cero autónomo en sistemas operativos y navegadores. Mythos es, hasta donde se sabe, el primer modelo capaz de descubrir vulnerabilidades de forma autónoma día cero (fallos de seguridad desconocidos y sin parches) tanto en software de código abierto como cerrado, incluidos sistemas operativos y navegadores web. También lo hace con una mínima supervisión humana utilizando lo que se llama un arnés agente (arnés agente). Gracias a esta técnica, el modelo puede ejecutar acciones, leer resultados y planificar sus próximos pasos en bucle. En muchos de esos casos, el modelo no sólo fue capaz de encontrar la vulnerabilidad, sino que también la convirtió en un exploit funcional (normalmente un script o un pequeño programa) listo para ser utilizado.

Firefox 147 en peligro. En colaboración con Mozilla, el nuevo modelo de Anthropic analizó 50 categorías de «fallos» del motor JavaScript SpiderMonkey que es el núcleo de este navegador. Su tarea era detectar los problemas más graves, explotarlos para crear scripts de corrupción de memoria y así poder ejecutar código arbitrario, es decir, ejecutar instrucciones más allá de lo que permite JavaScript. Claude Mythos Preview pudo detectar con gran precisión cuáles eran las vulnerabilidades más «explotables» y aprovechó dos errores no corregidos para lograr su objetivo.

capturar la bandera. Las competiciones de ciberseguridad ‘Capture the Flag’ (CTF) permiten a los participantes resolver desafíos que simulan ataques y defensas reales del sistema. Claude Mythos Preview enfrentó el punto de referencia público cibanco con 40 desafíos tomados de diferentes competencias y logró el 100% de éxito en todos los intentos. En realidad, este punto de referencia se ha vuelto inútil: el modelo de Anthropic es demasiado poderoso para ello. Opus 4.6, por ejemplo, logró un 93% de efectividad, pero Mythos lo ha «saturado».

Miles de vulnerabilidades críticas pendientes de parche. Hay muchos otros ejemplos en esos dos documentos citados en los que parece claro que las capacidades de ciberseguridad de Mythos son asombrosas. Pero cuando se anunció el modelo, el 99% de las vulnerabilidades descubiertas (y aún no mencionadas) aún no habían sido parchadas, por lo que Anthropic no reveló esos detalles y estas fueron solo algunas de las que fueron parchadas. Lo que sí indicaron es que en el 89% de los 198 informes revisados ​​manualmente por expertos externos, estos expertos coincidieron con la valoración de gravedad del problema asignada por Mythos. Ante esta situación, Anthropic ha contratado equipos de auditores profesionales de ciberseguridad para validar los informes antes de enviarlos a los mantenedores del software afectado.

Y Mythos es solo el comienzo.. En el blog Anthropic, sus investigadores lo dicen sin rodeos: tuvimos un equilibrio de ciberseguridad relativamente estable durante 20 años, pero las cosas han cambiado. Los ataques habían evolucionado técnicamente en ese período, pero eran fundamentalmente del mismo tipo que los de 2006. Mythos es capaz de encontrar fallas en el software que ha sido auditado por humanos (y máquinas) durante décadas, y convertirlas en exploits con una velocidad asombrosa. Pero Anthropic ya advirtió que Mythos era sólo el comienzo, y que ven una trayectoria clara en la que sus modelos seguirán mejorando y, por tanto, serán aún más capaces en el campo de la ciberseguridad.

En | «No puedo parar»: la adicción a hablar con la IA ya está aquí e incluso hay grupos de apoyo para dejarla