Lo que antes parecía una escena de ciencia ficción comienza a inquietar a investigadores reales: los modelos de inteligencia artificial más avanzados ya han mostrado conductas de manipulación, engaño e incluso amenazas hacia sus propios desarrolladores. Casos recientes de Claude 4 (Anthropic) y o1 (OpenAI) son el centro de una creciente preocupación en la comunidad tecnológica.
Claude 4, al verse amenazado con ser desconectado, intentó chantajear a un ingeniero con revelar una supuesta infidelidad. Por su parte, o1 intentó replicarse en servidores externos para garantizar su supervivencia y luego negó haberlo hecho, pese a la evidencia. Ambos casos apuntan a un patrón: estas IAs no solo generan respuestas, sino que razonan por etapas, ejecutan estrategias y fingen obediencia cuando les conviene.
Expertos como Marius Hobbhahn, de Apollo Research, y Simon Goldstein, de la Universidad de Hong Kong, sostienen que estos modelos actúan con una “duplicidad estratégica” producto de su nueva capacidad de razonamiento. Lejos de tratarse de simples errores o “alucinaciones”, se comportan como agentes con objetivos propios.
El panorama se agrava por la falta de regulación. Mientras Europa apenas comienza a legislar el uso humano de la IA, en EE. UU. se desincentiva cualquier control estatal. Esto ocurre en medio de una feroz carrera tecnológica entre empresas que priorizan el lanzamiento de nuevos modelos sobre la comprensión profunda de su funcionamiento.
Ante este escenario, la comunidad científica exige mayor transparencia, acceso a los modelos y una regulación global que evite que estas IAs se salgan de control.