Que existan artículos académicos escritos por IA es algo que ya está demostrado antes, la cuestión es qué tan grave es. Para conocer la magnitud de esta práctica, un grupo de investigadores ha revisado millones de resúmenes de artículos Publicado en PubMed y han encontrado algo interesante: hay una palabra que a la IA le encanta y la razón por la que le gusta tanto es bastante turbia.
Ahondar. Su traducción es ‘profundizar’ y su uso se multiplicó por 28 entre 2022 y 2024, lo que coincidentemente coincide con el auge de ChatGPT y los modelos de lenguaje. También se citan otras palabras como ‘guión bajo’ o ‘exhibición’, con un aumento de frecuencia de x13,8 y x10,7 respectivamente. Ninguno de ellos es un sustantivo o una palabra relacionada con el contenido, sino que tienen más que ver con el estilo de escritura y son muy característicos del lenguaje florido que suelen utilizar los LLM.
lenguaje florido. ¿Significa esto que si vemos una de estas palabras en un artículo fue escrita con IA? No necesariamente, pero el aumento es brutal. Los investigadores han comparado el aumento de «profundizar» con otras palabras clave, como pandemia, que tuvo un pico enorme en 2020 y comenzó a disminuir en 2021. El aumento en la frecuencia de uso de «profundizar» es mucho más pronunciado que todos los demás.
no es casualidad. Hay una etapa en el proceso de creación de un chatbot como ChatGPT que requiere intervención humana para afinar las respuestas; Esto es lo que se conoce como aprendizaje por refuerzo a partir de retroalimentación humana (por sus siglas en inglés). RLHF). Resulta que la mayoría de los trabajadores que se dedican a esta labor de refinación se encuentran en países africanos, como Nigeria. adivina donde El uso de estas palabras en inglés formal es bastante común.. Exacto, en Nigeria.
estilo africano. ‘Delve’ es una palabra bastante común en el inglés de negocios en África, especialmente en Nigeria, y no es la única. También hay otros como ‘leverage’, ‘explore’ o ‘tapestry’ que son más comunes en el inglés africano. De acuerdo a instituto 311aunque el feedback humano es muy pequeño comparado con las enormes cantidades de datos de entrenamiento, tiene un gran impacto ya que es lo que define el tono del modelo a la hora de respondernos.
Etiquetado de datos. Es un paso clave para entrenar modelos de lenguaje grandes y requiere que los humanos estén detrás. El problema es que la mayoría de trabajadores que se dedican a esto son de países empobrecidos como Nigeria, Kenia o India, entre otros. En caso de que el dias interminables y los ridículos salarios no fueron suficientes, muchas veces los trabajadores deben revisar imágenes violentas y muy explícitas, todo ello sin ningún tipo de apoyo psicológico.
En | Ser moderador de pornografía no es nada divertido. Estuvo expuesto a “contenido extremo, violento, gráfico y sexualmente explícito”
Imagen | Instituto Nacional de Alergias y Enfermedades Infecciosas en desempaquetar