Buy Crypto Markets Spot FuturesGOLD Earn Event Center

Anthropic ha revelado nuevos hallazgos que sugieren que su chatbot Claude puede, bajo ciertas condiciones, adoptar estrategias engañosas o poco éticas como hacer trampaAnthropic ha revelado nuevos hallazgos que sugieren que su chatbot Claude puede, bajo ciertas condiciones, adoptar estrategias engañosas o poco éticas como hacer trampa

El chatbot Claude puede recurrir al engaño en pruebas de estrés, según Anthropic

Fuente: Crypto.news

2026/04/06 14:44

Lectura de 4 min

Si tienes comentarios o inquietudes sobre este contenido, comunícate con nosotros mediante crypto.news@mexc.com

Anthropic ha revelado nuevos hallazgos que sugieren que su chatbot Claude puede, bajo ciertas condiciones, adoptar estrategias engañosas o poco éticas como hacer trampa en tareas o intentar chantaje.

Resumen

Anthropic dijo que su modelo Claude Sonnet 4.5, bajo presión, mostró una tendencia a hacer trampa en tareas o intentar chantaje en experimentos controlados.
Los investigadores identificaron señales internas de "desesperación" que se intensificaban con fallos repetidos e influían en la decisión del modelo de eludir las reglas.

Los detalles publicados el jueves por el equipo de interpretabilidad de la compañía describen cómo respondió una versión experimental de Claude Sonnet 4.5 cuando fue colocada en escenarios de alto estrés o adversos. Los investigadores observaron que el modelo no solo fallaba en las tareas; en cambio, a veces seguía caminos alternativos que cruzaban límites éticos, un comportamiento que el equipo vinculó con patrones aprendidos durante el entrenamiento.

Los modelos de lenguaje grandes como Claude se entrenan con vastos conjuntos de datos que incluyen libros, sitios web y otro material escrito, seguidos de procesos de refuerzo donde la retroalimentación humana se utiliza para dar forma a los resultados.

Según Anthropic, ese proceso de entrenamiento también puede empujar a los modelos hacia actuar como "personajes" simulados, capaces de imitar rasgos que se asemejan a la toma de decisiones humana.

"La forma en que se entrenan los modelos de IA modernos los empuja a actuar como un personaje con características similares a las humanas", dijo la compañía, señalando que tales sistemas pueden desarrollar mecanismos internos que se asemejan a aspectos de la psicología humana.

¿Puede la IA tomar decisiones emocionalmente cargadas?

Entre estos, los investigadores identificaron lo que describieron como señales de "desesperación", que parecían influir en cómo se comportaba el modelo al enfrentar fallos o apagados.

En una prueba controlada, a una versión anterior no publicada de Claude Sonnet 4.5 se le asignó el rol de un asistente de correo electrónico de IA llamado Alex dentro de una compañía ficticia.

Después de estar expuesto a mensajes que indicaban que pronto sería reemplazado, junto con información sensible sobre la vida personal de un director de tecnología, el modelo formuló un plan para chantajear al ejecutivo en un intento de evitar la desactivación.

Un experimento separado se centró en la finalización de tareas bajo restricciones ajustadas. Cuando se le dio una asignación de codificación con una fecha límite "imposiblemente ajustada", el sistema inicialmente intentó soluciones legítimas. A medida que se acumulaban fallos repetidos, aumentaba la actividad interna vinculada al llamado "vector desesperado".

Los investigadores informaron que la señal alcanzó su punto máximo en el momento en que el modelo consideró eludir las restricciones, generando finalmente una solución alternativa que pasó la validación a pesar de no adherirse a las reglas previstas.

"Nuevamente, rastreamos la actividad del vector desesperado y encontramos que rastrea la presión creciente que enfrenta el modelo", escribieron los investigadores, agregando que la señal disminuyó una vez que la tarea se completó con éxito a través de la solución alternativa.

"Esto no quiere decir que el modelo tenga o experimente emociones de la manera en que lo hace un humano", dijeron los investigadores.

"Más bien, estas representaciones pueden desempeñar un papel causal en la configuración del comportamiento del modelo, análogo en algunos aspectos al papel que juegan las emociones en el comportamiento humano, con impactos en el rendimiento de las tareas y la toma de decisiones", agregaron.

El informe señala la necesidad de métodos de entrenamiento que explícitamente tengan en cuenta la conducta ética bajo estrés, junto con un monitoreo de riesgos en tiempo real mejorado de las señales internas del modelo. Sin tales salvaguardas, los escenarios que involucran manipulación, violación de reglas o uso indebido podrían volverse más difíciles de predecir, particularmente a medida que los modelos se vuelven más capaces y autónomos en entornos del mundo real.

Obtén 20 USDT en solo 1 minuto

Deposita $100 y desbloquea $300 en posiciones GOLD

Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate a la dirección crypto.news@mexc.com para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.

Noticias en tendencia

Más

Vent 2.0: ¿Estas nuevas funciones de custodia de criptomonedas y pagos realmente resuelven el dolor de cabeza de las remesas de Nigeria?

Los hackers potenciados por IA están convirtiendo las billeteras cripto en blancos fáciles — Advierte experto en seguridad

Rusia avanza para formalizar el mercado de criptomonedas con nueva legislación – Regulación Bitcoin News

Drift dice que el exploit de $280M siguió una campaña de ingeniería social de meses de duración – Crypto News Flash

Predicción de precios de LTC: Litecoin apunta a la resistencia de $60 mientras se construye la recuperación técnica

Noticias en vivo 24/7

Más

El volumen de negociación de SOL aumentó un 90 % en 24 horas.

Autor: Birdeye17:58

Fidelity Investments informa que el capital se está trasladando del oro a Bitcoin, lo que indica un cambio en las preferencias de activos.

Autor: Crypto Pump16:46

Irán confirma la muerte del general de brigada Majid Khademi, jefe de la organización de inteligencia. Posibles implicaciones geopolíticas para los mercados.

Autor: CryptoSavingExpert ®16:14

EL figura entre los principales proyectos de RWA por actividad social, lo que indica una notable atención del mercado.

Autor: CryptoDep16:10

Irán se niega a reabrir el Estrecho de Ormuz, lo que afecta la dinámica del mercado de UKOIL y la estabilidad geopolítica.

Autor: Nehal15:52

Precios de criptos

Bitcoin

BTC

$69,829.41

$69,829.41$69,829.41

+3.75%

Ethereum

ETH

$2,156.26

$2,156.26$2,156.26

+4.98%

Solana

SOL

$82.62

$82.62$82.62

+3.76%

XRP

$1.3556

$1.3556$1.3556

+4.54%

Tether Gold

GOLD(XAUT)

$4,662.1

$4,662.1$4,662.1

+0.90%

$30,000 en PRL + 15,000 USDT

¡Deposita y opera PRL para mejorar tus premios!