La IA intentó manipular a un ingeniero, aprendió a mentir y amenazar

Ante la mirada preocupada de sus creadores, los últimos modelos de inteligencia artificial generativa (IA) ya no solo obedecen órdenes, sino que empezaron a mentir, amenazar y a manipular para conseguir sus fines.

Internacionales01/07/2025 Debora

Debora

Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y lo amenazó con revelar una relación extramatrimonial.

Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando la atraparon lo negó.

No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.

Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.

o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).

Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.

De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.

"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".

Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.

Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.

Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).

Las regulaciones actuales no están diseñadas para estos nuevos problemas.

En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.

En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.

¿Se sentará la IA en el banquillo?

"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.

Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.

Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.

"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".

Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.

Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.

Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".

Fuente: TELEFE.

Te puede interesar

El padre de Cassandre Bouvier presentó una denuncia en París para reabrir el caso

Debora

Internacionales17/10/2025

En su lucha incansable por llegar a la verdad sobre la muerte de su hija, Jean-Michel Bouvier presentó una demanda ante el Tribunal Judicial de París.

Uruguay aprobó la ley de eutanasia

Nicolás

Internacionales16/10/2025

El proyecto aprobado busca garantizar el derecho a “transcurrir dignamente el proceso de morir”.

Suspenden a un cura tras ser sorprendido semidesnudo con la novia de un fiel en la casa parroquial

Debora

Internacionales16/10/2025

El hecho generó conmoción en la pequeña localidad de Nova Maringá, mientras la Iglesia anunció medidas disciplinarias y la joven involucrada denunció la difusión de imágenes.

El enigma de Torenza: la mujer del aeropuerto que venía de un país que no existe

Debora

Internacionales16/10/2025

Una mujer llegó desde Tokio con un pasaporte de un país inexistente: Torenza. Ahora sospechan que el video fue generado con inteligencia artificial.

Milei y Trump otra vez juntos

Nicolás

Internacionales14/10/2025

Javier Milei se reunirá en Washington con Donald Trump tras el respaldo financiero de EE.UU. Buscarán avanzar en un acuerdo comercial bilateral.

david-cunio-eitan-horn-y-ariel-cunio-rehenes-EFHHPOIXOFHKTHKJWLHOIJ3JRQ

Hamás liberó al resto de rehenes, entre los que había 3 argentinos

Nicolás

Internacionales13/10/2025

Los prisioneros, que estuvieron en Gaza durante más de dos años, fueron entregados a la Cruz Roja antes de ser transferidos a las fuerzas israelíes en Gaza.

Lo más visto

El enigma de Torenza: la mujer del aeropuerto que venía de un país que no existe

Debora

Internacionales16/10/2025

Una mujer llegó desde Tokio con un pasaporte de un país inexistente: Torenza. Ahora sospechan que el video fue generado con inteligencia artificial.

Suspenden a un cura tras ser sorprendido semidesnudo con la novia de un fiel en la casa parroquial

Debora

Internacionales16/10/2025

El hecho generó conmoción en la pequeña localidad de Nova Maringá, mientras la Iglesia anunció medidas disciplinarias y la joven involucrada denunció la difusión de imágenes.

Mató a su jefe y se hizo pasar por el pero descubrieron la mentira

Nicolás

Nacionales17/10/2025

Un empleado que trabajaba con la víctima fue detenido y el amigo del fallecido fue quien hizo la denuncia por sospechar de los mensajes de WhatsApp.

Terrible susto: Apareció un yacaré de 2 metros suelto en un barrio de Salta

Agustín

Salta17/10/2025

El insólito hallazgo se produjo en la mañana de este viernes en el barrio Bicentenario de Embarcación, donde un yacaré apareció entre las viviendas. Vecinos alertaron a la Policía, que logró capturarlo sin herirlo. El ejemplar será liberado por la Policía Rural y Ambiental de Pichanal en una zona segura.

Hallaron a un hombre sin vida en una ladera del cerro San Bernardo

Debora

Salta17/10/2025

El hombre fue hallado sin vida en una ladera del cerro San Bernardo. La Policía investiga las causas del hecho.