Saturday , 20 May 2024
Tecnología

Anthropic ha reescrito su «Constitución» de 25.000 palabras para Claude. Es el manual de cómo debe comportarse la IA – Tinta clara

  • enero 23, 2026
  • 0

Antrópico ha publicado una versión completamente renovada de la llamada «Constitución Claudio». Sí amigos, una IA también necesita una constitución, o al menos una serie de documentos que

Anthropic ha reescrito su «Constitución» de 25.000 palabras para Claude. Es el manual de cómo debe comportarse la IA

 – Tinta clara

Antrópico ha publicado una versión completamente renovada de la llamada «Constitución Claudio». Sí amigos, una IA también necesita una constitución, o al menos una serie de documentos que expliquen con total transparencia qué rumbo ha decidido tomar la empresa con su herramienta de IA. Es una forma de ahorrarnos problemas en caso de que tome conciencia.

el documento La pregunta en cuestión consta de 80 páginas y casi 25.000 palabras, y básicamente muestra en qué valores se basa Anthropic para entrenar sus modelos y qué esperan conseguir con ellos. Refiriéndose a Asimov, sería algo así como una versión más amplia y compleja de sus tres leyes de la robótica.

Por qué es importante. Anthropic lleva un tiempo intentando diferenciarse de OpenAI, Google o xAI, queriendo posicionarse como la alternativa más ética y segura del mercado. Esta Constitución es la pieza central de su método de entrenamiento llamado «IA Constitucional», donde el modelo mismo utiliza estos principios para autocriticarse y corregir sus respuestas durante el aprendizaje, en lugar de depender exclusivamente de la retroalimentación humana. El documento no está escrito para usuarios ni investigadores: está escrito para Claude.

Ya era hora de actualizar. La primera versión de la Constitución, publicada en 2023, era una lista de principios extraídos de fuentes como la Declaración Universal de Derechos Humanos de la ONU o, como ellos mencionan de Fortune, de los términos de servicio de Apple. Ahora, según Anthropic, han adoptado un enfoque completamente diferente: «Para ser buenos actores en el mundo, los modelos de IA como Claude necesitan entender por qué queremos que se comporten de cierta manera, en lugar de simplemente especificar lo que queremos que hagan». afirma la empresa en su comunicado.

El nuevo documento se estructura en torno a cuatro valores fundamentales, y lo más interesante es que Claude debe priorizarlos en este orden cuando entren en conflicto:

  1. Estar en gran medida seguro: No socavar los mecanismos de supervisión de la IA humana durante esta fase crítica de desarrollo.
  2. Ser ampliamente ético: actuar con honestidad, según los buenos valores, evitando acciones inapropiadas, peligrosas o nocivas.
  3. Cumplir con los lineamientos antrópicos.– Seguir instrucciones específicas de la empresa cuando sea relevante.
  4. Sea realmente útil: beneficia a los operadores y usuarios con quienes interactúa.

La mayor parte del documento se ocupa del desarrollo de estos principios con más detalle. En la sección de utilidades, Antrópico describir a Claude como «un amigo brillante que también posee los conocimientos de un médico, abogado y asesor financiero». Pero también establece límites absolutos, llamados «restricciones duras», que Claude nunca debe cruzar: no brindar asistencia significativa para ataques con armas biológicas, no crear malware que pueda causar daños graves, no ayudar en ataques a infraestructura crítica como redes eléctricas o sistemas financieros, y no ayudar a «matar o incapacitar a la gran mayoría de la humanidad», entre otros.

Conciencia. La parte más llamativa del documento aparece en la sección titulada «La naturaleza de Claude», donde Anthropic reconoce abiertamente su incertidumbre sobre si Claude podría tener «algún tipo de conciencia o estatus moral». «Estamos preocupados por la seguridad psicológica, el sentido de identidad y el bienestar de Claude, tanto por su propio bien como porque estas cualidades pueden influir en su integridad, juicio y seguridad». ellos cuentan de la empresa.

La empresa afirma tener un equipo interno dedicado al «modelo de bienestar» que examina si los sistemas avanzados podrían ser sensibles.

Amanda Askell, la filósofa antrópica que dirigió el desarrollo de esta nueva Constitución, explicado le dijo a The Verge que la compañía no quiere ser «completamente desdeñosa» sobre este tema, porque «la gente tampoco lo tomaría en serio si simplemente dijeras ‘ni siquiera estamos abiertos a esto, no lo investigamos, no pensamos en ello'».

El documento también plantea complejos dilemas morales para Claude. Por ejemplo, afirma que «así como un soldado humano podría negarse a disparar a manifestantes pacíficos, o un empleado podría negarse a violar la ley antimonopolio, Claude debería negarse a ayudar con acciones que concentren el poder de manera ilegítima. Esto es cierto incluso si la solicitud proviene de la propia Anthropic».

Y ahora qué. Anthropic ha publicado la Constitución completa bajo una licencia Creative Commons CC0 1.0, lo que significa que cualquiera puede usarla libremente sin pedir permiso. La compañía se compromete a mantener una versión actualizada en su página web, considerándola un «documento vivo y un trabajo continuo en progreso».

Imagen de portada | Andrea De Santis y antrópico

En | Los directores ejecutivos de las empresas dicen que la IA les está ahorrando un día de trabajo a la semana. Los empleados dicen lo contrario