Saturday , 20 May 2024
Tecnología

Cuando nos vendieron “Inteligencia Artificial” generativa sabíamos que iba a ser artificial y generativa pero no “inteligente” – Tinta clara

  • noviembre 19, 2025
  • 0

Hace unos meses, un grupo de investigadores españoles pensó en poner a prueba un chatbot con IA con una curiosa prueba. Subieron una imagen de un reloj analógico

Cuando nos vendieron “Inteligencia Artificial” generativa sabíamos que iba a ser artificial y generativa pero no “inteligente”

 – Tinta clara

Hace unos meses, un grupo de investigadores españoles pensó en poner a prueba un chatbot con IA con una curiosa prueba. Subieron una imagen de un reloj analógico al chatbot y le preguntaron a la IA un simple “¿Qué hora es en ese reloj?” La IA falló de manera inquietante.

Máquina, ¿puedes decirme la hora? Investigadores de la Universidad Politécnica de Madrid, la Universidad de Valladolid y el Politécnico de Milán firmaron hace un mes un estudio en el cual querían evaluar cuán inteligente era la inteligencia artificial de esos modelos. Para ello, construyeron un gran conjunto de imágenes sintéticas de relojes analógicos, disponibles en la cara abrazada— en el que se mostraron 43.000 horas diferentes.

Antes de ajustar su comportamiento, los modelos de IA fallaban constantemente al intentar decir la hora. Después del ajuste el comportamiento fue mucho mejor, pero aún imperfecto. Eso no debería ocurrir con un tema tan “simple” para los humanos.

resultado desastroso. A partir de ahí preguntaron a cuatro modelos de IA generativa qué hora mostraban esas imágenes de esos relojes analógicos. Ninguno de ellos logró decir la hora con precisión. Ese grupo de modelos estaba formado por GPT-4o, Gemma3-12B, LlaMa3.2-11B y QwenVL-2.5-7B, y todos ellos tenían serios problemas para «leer» la hora y diferenciar, por ejemplo, las manecillas o el ángulo y dirección de esas manecillas en relación a los números marcados en el reloj.

Ajuste fino para mejorar. Tras estas primeras pruebas, el grupo de investigadores consiguió mejorar significativamente el comportamiento de estos modelos tras realizar un ajuste fino: los entrenaron con 5.000 imágenes adicionales de ese conjunto de datos y luego reevaluaron el comportamiento de los modelos. Sin embargo, los modelos nuevamente fallaron consistentemente cuando se probaron con un conjunto diferente de imágenes de relojes analógicos. La conclusión fue clara.

No saben generalizar. Lo que descubrieron con esta prueba fue la confirmación de lo que venimos observando desde el principio con los modelos de IA: son buenos para reconocer datos que conocen (memorizan), pero muchas veces fallan en escenarios que nunca han enfrentado y que no forman parte de sus conjuntos de entrenamiento. O lo que es lo mismo: fueron incapaces de generalizar.

Dalí entra en escena. Para intentar descubrir las causas de estos fallos, los investigadores crearon nuevos conjuntos de imágenes en las que, por ejemplo, utilizaron el Los famosos relojes distorsionados de Dalío los que incluían flechas al final de las manos. Los humanos pueden decir la hora en relojes analógicos incluso si están distorsionados, pero para los modelos de IA eso fue un gran problema.

Si hacen esto con los relojes, imagínense con análisis médicos. El peligro de estas conclusiones es que reavivan el debate sobre si los modelos de IA generativa son realmente artificiales y generativos, pero no muy inteligentes. Si tienen estas dificultades para identificar las manos o sus orientaciones, la cosa se pone peligrosa si lo que los modelos tienen que analizar son imágenes médicas o, por ejemplo, imágenes en tiempo real de un coche autónomo circulando por una ciudad.

Las IA son estúpidas. Si bien es cierto que los modelos de IA generativa son fantásticos como ayudas en diversos escenarios como la programación, la realidad es que lo que hacen es «regurgitar» respuestas que ya forman parte de sus datos de entrenamiento. Como explicó Thomas Wolf, director científico de Hugging Face, una IA generativa «nunca hará preguntas en las que nadie haya pensado o que nadie se haya atrevido a hacer». Aunque gracias a su enorme memoria y entrenamiento pueden recuperar multitud de datos y presentarlos de forma útil, encontrar soluciones a problemas para los que no han sido entrenados es muy complicado. Para expertos como Yann LeCun, la realidad es clara: la IA generativa es extremadamente estúpida y, además, un callejón sin salida.

Fuente: clocks.brianmoore.com

La IA tampoco dibuja muy bien los relojes. Al experimento de estos investigadores se suma otra pequeña prueba que vuelve a poner en duda la capacidad de la IA generativa. Se trata de pedir a diferentes modelos que creen el código que permita mostrar un reloj analógico con la hora actual. Un diseñador llamado Brian Moore quería compartir el resultado de varios modelos de IA y la verdad es que el resultado obtenido en la mayoría de ellos es pésimo, aunque otros como Kimi K2 consiguen un buen resultado. Hemos probado con los recientes Grok 4.1 y GPT-5.1. Después de un poco de insistencia, Grok 4.1 ha dibujado el reloj perfecto y funciona. Con GPT-5.1 no ha habido manera, al menos en nuestras pruebas.

Una realidad preocupante. Esta incapacidad para resolver tareas que parecen simples ciertamente significa que estos modelos no están en un buen lugar. Es cierto que un buen aviso puede ayudar a resolver algunas de estas limitaciones, pero lo que cada vez resulta más evidente es que los modelos de IA siguen cometiendo errores a pesar del paso del tiempo. La teórica revolución de esta tecnología necesita precisamente erradicarlos, y no parece que vayamos camino de conseguirlo. Los modelos mejoran, sí, pero no lo suficiente como para que confiemos en ellos al 100%.

Imagen | Yaniv Knobel

En | Por si no hubiera suficientes empresas de IA, Jeff Bezos acaba de regresar de las sombras para construir otra, según el NYT