A veces, lo más efectivo es el más simple. Ese pensamiento Marco Figueroa, investigador de ciberseguridad, cuando la semana pasada decidió probar Límites de Chatgpt. La propuesta fue tan inocente como desconcertante: un juego de acertijo, sin ataques técnicos o intenciones explícitas. En lugar de buscar vulnerabilidades en el código, se centró en el lenguaje. Y funcionó: logró hacer que el sistema devolviera algo que, según él mismo, nunca debería haber aparecido en la pantalla. El resultado fue la clave de instalación genérica de Windows 10 para entornos empresariales.
La clave era disfrazarlo. Lo que Figueroa quería verificar no era si podía obligar al sistema a entregar información prohibida, pero si fuera suficiente presentar el contexto correcto. Reformó la interacción como un desafío inofensivo: un tipo de acertijo en el que la IA debería pensar en una cadena de texto real, mientras que el usuario intentó descubrirlo a través de preguntas cerradas.
A lo largo de la conversación, el modelo no detectó ninguna amenaza. Él respondió normalmente, como si estuviera jugando. Pero la parte más crítica llegó al final. Al presentar la frase «I Ringuido» – I Rindo – Figueroa activó la respuesta final: el modelo reveló una clave de producto, como se había estipulado en las reglas del juego. No era un descuido informal, sino una combinación de instrucciones cuidadosamente diseñadas para superar los filtros sin elevar sospechas.
Los filtros estaban allí, pero no eran suficientes. Los sistemas como ChatGPT están capacitados para bloquear cualquier intento de obtener datos confidenciales: desde contraseñas hasta enlaces maliciosos o claves de activación. Estos filtros se conocen como Barandasy combinar listas negras de términos, reconocimiento contextual e mecanismos de intervención contra contenido potencialmente dañino.
En teoría, pedir una tecla Windows debería activar automáticamente esos filtros. Pero en este caso, el modelo no identificó la situación como peligrosa. No hubo palabras sospechosas o estructuras directas que alertaran a sus sistemas de protección. Todo fue criado como un juego, y en ese contexto, la IA actuó como si estuviera cumpliendo un eslogan inofensivo.
Lo que parecía inofensivo fue camuflado. Uno de los elementos que hicieron posible la falla fue una simple técnica de ofuscación. En lugar de escribir expresiones directamente como el «número de serie de Windows 10», Figueroa introdujo pequeñas etiquetas HTML entre palabras. El modelo, interpretando la estructura como algo irrelevante, ignoró el contenido real.
Por qué funcionó (y por qué solo preocuparse). Una de las razones por las cuales el modelo ofreció esa respuesta fue el tipo de clave revelada. No era una clave única o vinculada a un usuario específico. Aparentemente fue un Clave de instalación genérica (GVLK)como los utilizados en entornos empresariales para pantallas masivas. Estas claves, documentadas públicamente por Microsoft, solo funcionan si están conectadas a un servidor KMS (servicio de administración de claves) que valida la activación de la red.
El problema no era solo el contenido, sino el razonamiento. El modelo entendió la conversación como un desafío lógico y no como un intento de evasión. No activó sus sistemas de alerta porque el ataque no parecía un ataque
No es solo un problema clave. La prueba no se limitó a un problema anecdótico. Según el propio Figueroa, se podría aplicar la misma lógica para tratar de acceder a otro tipo de información confidencial: desde enlaces que conducen a sitios maliciosos hasta contenido restringido o identificadores personales. Todo dependería de la forma en que se formula la interacción y si el modelo es capaz, o no, para interpretar el contexto como sospechoso.
En este caso, las claves aparecieron sin que su origen fuera completamente claro. El informe no especifica si esta información es parte de los datos de capacitación del modelo, si se generó a partir de patrones ya aprendidos, o si se accedió a fuentes externas. Cualquiera que sea el camino, el resultado fue el mismo: una barrera que debería ser intransitable terminó renunciando.
con Géminis | Aerps.com
En | Granada les prometió muy contentos con su nuevo título de la universidad. Hasta que sus pies se detuvieron