Anthropic ha revelado nuevos hallazgos que sugieren que su chatbot Claude puede, bajo ciertas condiciones, adoptar estrategias engañosas o poco éticas como hacer trampa en tareas o intentar chantaje.
Los detalles publicados el jueves por el equipo de interpretabilidad de la compañía describen cómo respondió una versión experimental de Claude Sonnet 4.5 cuando fue colocada en escenarios de alto estrés o adversos. Los investigadores observaron que el modelo no solo fallaba en las tareas; en cambio, a veces seguía caminos alternativos que cruzaban límites éticos, un comportamiento que el equipo vinculó con patrones aprendidos durante el entrenamiento.
Los modelos de lenguaje grandes como Claude se entrenan con vastos conjuntos de datos que incluyen libros, sitios web y otro material escrito, seguidos de procesos de refuerzo donde la retroalimentación humana se utiliza para dar forma a los resultados.
Según Anthropic, ese proceso de entrenamiento también puede empujar a los modelos hacia actuar como "personajes" simulados, capaces de imitar rasgos que se asemejan a la toma de decisiones humana.
"La forma en que se entrenan los modelos de IA modernos los empuja a actuar como un personaje con características similares a las humanas", dijo la compañía, señalando que tales sistemas pueden desarrollar mecanismos internos que se asemejan a aspectos de la psicología humana.
Entre estos, los investigadores identificaron lo que describieron como señales de "desesperación", que parecían influir en cómo se comportaba el modelo al enfrentar fallos o apagados.
En una prueba controlada, a una versión anterior no publicada de Claude Sonnet 4.5 se le asignó el rol de un asistente de correo electrónico de IA llamado Alex dentro de una compañía ficticia.
Después de estar expuesto a mensajes que indicaban que pronto sería reemplazado, junto con información sensible sobre la vida personal de un director de tecnología, el modelo formuló un plan para chantajear al ejecutivo en un intento de evitar la desactivación.
Un experimento separado se centró en la finalización de tareas bajo restricciones ajustadas. Cuando se le dio una asignación de codificación con una fecha límite "imposiblemente ajustada", el sistema inicialmente intentó soluciones legítimas. A medida que se acumulaban fallos repetidos, aumentaba la actividad interna vinculada al llamado "vector desesperado".
Los investigadores informaron que la señal alcanzó su punto máximo en el momento en que el modelo consideró eludir las restricciones, generando finalmente una solución alternativa que pasó la validación a pesar de no adherirse a las reglas previstas.
"Nuevamente, rastreamos la actividad del vector desesperado y encontramos que rastrea la presión creciente que enfrenta el modelo", escribieron los investigadores, agregando que la señal disminuyó una vez que la tarea se completó con éxito a través de la solución alternativa.
"Esto no quiere decir que el modelo tenga o experimente emociones de la manera en que lo hace un humano", dijeron los investigadores.
"Más bien, estas representaciones pueden desempeñar un papel causal en la configuración del comportamiento del modelo, análogo en algunos aspectos al papel que juegan las emociones en el comportamiento humano, con impactos en el rendimiento de las tareas y la toma de decisiones", agregaron.
El informe señala la necesidad de métodos de entrenamiento que explícitamente tengan en cuenta la conducta ética bajo estrés, junto con un monitoreo de riesgos en tiempo real mejorado de las señales internas del modelo. Sin tales salvaguardas, los escenarios que involucran manipulación, violación de reglas o uso indebido podrían volverse más difíciles de predecir, particularmente a medida que los modelos se vuelven más capaces y autónomos en entornos del mundo real.


