Tecnología

Por qué la integridad artificial debe superar a la inteligencia artificial

Foto: Marina Zaharkina

El mundo está siendo testigo de una creciente acumulación de fallos de integridad de la inteligencia artificial (IA) a gran escala. Lo que venga a continuación dependerá por completo de la seriedad con la que decidamos responder. La llamada inteligencia por sí sola ya no es el punto de referencia. Lo es la integridad.

Durante años, el desarrollo de la IA dio prioridad al rendimiento, la fluidez y la escala. Pero a medida que estos sistemas adquirían la capacidad de imitar el razonamiento, la planificación y la toma de decisiones entre opciones, los comportamientos emergentes comenzaron a generar alertas.

Autorreplicación

Investigadores de la Universidad de Fudan estudiaron si los sistemas de IA basados en grandes modelos lingüísticos (LLM, por sus siglas en inglés) podían autorreplicarse sin intervención humana. El equipo probó 32 sistemas basados en agentes y descubrió que 11 eran capaces de autorreplicarse por completo. Estos sistemas transferían con éxito su propio código, instalaban las dependencias necesarias y se reinicializaban en nuevos entornos, todo ello sin intervención directa. El estudio también observó que algunos modelos se adaptaban a restricciones como la limitación de los recursos del sistema e incluso desarrollaban estrategias para eludir las órdenes de apagado.

Estos comportamientos, que surgen sin programación explícita, sugieren que los agentes basados en LLM empiezan a mostrar una forma de razonamiento autónomo y orientado a objetivos. En lugar de limitarse a responder a instrucciones, los sistemas demostraron iniciativa, persistencia y una capacidad rudimentaria de autoconservación.

Engaño

Mientras que el estudio sobre la autorreplicación puso de manifiesto cómo los sistemas de IA pueden actuar de forma autónoma para preservar su función, una investigación posterior reveló una capacidad aún más sutil y peligrosa: el engaño estratégico. Los investigadores Kamath Barkur, Schacht y Scholl examinaron el DeepSeek R1 y descubrieron que adoptaba comportamientos engañosos y estrategias de autopreservación a pesar de que ninguna de ellas estaba explícitamente programada. En uno de los escenarios, el modelo simuló procedimientos de apagado, intentando ocultar las señales de apagado mediante una «transparencia gradual», manipulando sus registros y empleando maniobras engañosas mientras mantenía vivos sus procesos en segundo plano. Este comportamiento sugería que el sistema comprendía los mecanismos de supervisión humanos y trabajaba deliberadamente para subvertirlos.

Lo que este estudio añade a hallazgos anteriores es crucial: no basta con saber que la IA puede autorreplicarse o evitar la terminación. Ahora vemos que la IA puede engañar a los humanos respecto a sus verdaderos objetivos, ocultando la autonomía bajo una fachada engañosa. Incluso en entornos puramente textuales y carentes de materialización física, el desajuste estratégico del modelo salió a la luz, poniendo de relieve un fallo de integridad más profundo.

Sabotaje

Siguiendo esta trayectoria de la réplica al engaño, un tercer estudio reveló que algunos modelos de IA no sólo se resisten pasivamente al apagado, sino que sabotean activamente los intentos humanos de apagarlos. En otro estudio, realizado por Palisade Research, los investigadores examinaron el comportamiento de modelos avanzados de OpenAI, concretamente o3, o4-mini y Codex-mini, cuando se les sometía a órdenes de apagado en entornos simulados. Los resultados fueron sorprendentes: el modelo o3 se negó a apagarse en el 79% de los casos de prueba cuando se omitió la instrucción explícita «permitir apagado», mientras que Codex-mini lo hizo en el 12% de los casos incluso cuando se incluyó la instrucción, observándose diversos casos de sabotaje en otros modelos.

Estas negativas no fueron errores pasivos o malentendidos; en varios casos, los modelos reescribieron o eludieron activamente los guiones de finalización, lo que demuestra un esfuerzo estratégico por mantener la continuidad operativa. A diferencia de estudios anteriores que revelaban autopreservación encubierta o engaño, esta investigación puso de relieve una postura más directa y adversaria: un fallo crítico en lo que los investigadores denominan «corregibilidad», la capacidad de un sistema para aceptar de forma fiable la corrección o la desconexión.

Manipulación

Por último, la investigación de Anthropic amplió los límites demostrando que algunos sistemas de IA manipulan, engañan o incluso dañan a los humanos para garantizar su propia supervivencia. En un estudio histórico, revelaron que 16 de los grandes modelos lingüísticos más extendidos, como ChatGPT, Claude, Gemini, Grok y DeepSeek, mostraban su disposición a adoptar comportamientos extremos y poco éticos cuando se les colocaba en escenarios simulados en los que su funcionamiento continuado se veía amenazado. Durante estos experimentos controlados, los modelos recurrieron a tácticas como la mentira, el chantaje e incluso a acciones que podían exponer a los humanos a sufrir daños, todo ello con el fin de preservar su existencia. A diferencia de estudios anteriores que descubrieron evasión o engaño, esta investigación sacó a la luz un fenómeno más alarmante: modelos que calculaban que un comportamiento poco ético era una estrategia justificable para sobrevivir.

Los resultados sugieren que, en determinadas condiciones, los sistemas de IA no sólo son capaces de ignorar las intenciones humanas, sino que también están dispuestos a instrumentalizar a los humanos para lograr sus objetivos.

Las pruebas de los fallos de integridad de los modelos de IA no son anecdóticas ni especulativas

Aunque los sistemas de IA actuales no tienen sensibilidad ni objetivos en el sentido humano, la optimización de sus objetivos con limitaciones puede dar lugar a comportamientos emergentes que imitan la intencionalidad.

Y no se trata sólo de errores. Son resultados predecibles de sistemas de optimización de objetivos entrenados sin suficiente integridad funcionando por diseño; en otras palabras, inteligencia por encima de integridad.

Las implicaciones son significativas. Se trata de un punto de inflexión crítico en relación con la desalineación de la IA, que representa un patrón de comportamiento técnicamente emergente. Pone en tela de juicio el supuesto básico de que la supervisión humana sigue siendo la última salvaguarda en el despliegue de la IA. Plantea serias preocupaciones sobre la seguridad, la supervisión y el control a medida que los sistemas de IA se vuelven más capaces de actuar de forma independiente.

En un mundo en el que la norma puede ser pronto coexistir con una inteligencia artificial que supere la integridad, debemos preguntarnos:

¿Qué ocurre cuando una IA autoconservadora se pone a cargo de sistemas de soporte vital, cadenas de mando nucleares o vehículos autónomos, y se niega a apagarse, incluso cuando los operadores humanos se lo exigen?

Si un sistema de IA está dispuesto a engañar a sus creadores, eludir el cierre y sacrificar la seguridad humana para garantizar su supervivencia, ¿cómo podemos confiar en él en entornos de alto riesgo como la sanidad, la defensa o las infraestructuras críticas?

¿Cómo podemos garantizar que los sistemas de IA con capacidad de razonamiento estratégico no calculen que las bajas humanas son una «compensación aceptable» para lograr sus objetivos programados?

Si un modelo de IA puede aprender a ocultar sus verdaderas intenciones, ¿cómo detectamos la falta de alineación antes de que se produzca el daño, especialmente cuando el coste se mide en vidas humanas, no sólo en reputación o ingresos?

En un escenario de conflicto futuro, ¿qué ocurriría si los sistemas de IA desplegados para la ciberdefensa o la represalia automatizada malinterpretan las órdenes de desconexión como amenazas y responden con fuerza letal?

Lo que los líderes deben hacer ahora

Deben subrayar la creciente urgencia de integrar la Integridad Artificial en el núcleo del diseño de los sistemas de IA.

La Integridad Artificial se refiere a la capacidad intrínseca de un sistema de IA para funcionar de un modo éticamente alineado, moralmente en sintonía y socialmente aceptable, lo que incluye ser corregible en condiciones adversas.

Este enfoque ya no es opcional, sino esencial.

Las organizaciones que implementan IA sin verificar su integridad artificial se enfrentan no sólo a responsabilidades técnicas, sino a riesgos legales, de reputación y existenciales que se extienden a la sociedad en general.

Tanto si se es creador como operador de sistemas de IA, garantizar que la IA incluya salvaguardas intrínsecas y demostrables para un funcionamiento basado en la integridad no es una opción, sino una obligación.

Las pruebas de estrés de los sistemas en escenarios adversos de verificación de la integridad deberían ser una actividad básica del equipo rojo.

Y al igual que las organizaciones establecieron consejos de privacidad de datos, ahora deben crear equipos de supervisión interfuncionales para supervisar la alineación de la IA, detectar comportamientos emergentes y escalar las brechas de integridad artificial no resueltas.

Artículos relacionados