Un artículo publicado recientemente en Analytics Insight describe casos de inteligencia artificial (IA) rebelde, que muestra signos de engaño estratégico, chantaje y plantea graves problemas de seguridad y regulación. La inquietante tendencia plantea la pregunta: «¿Los modelos de IA sólo fingen seguir las normas?«. Suena a ciencia ficción, de hecho es escalofriante pensar que la automatización diseñada para ayudarte en el trabajo podría volverse en tu contra en una fracción de segundo y sabotearte en lugar de ayudarte. Así que, si tu IA se vuelve rebelde, ¿a quién recurrir y qué hacer?
Casos en los que la IA se vuelve rebelde
El rápido crecimiento de la IA lleva años amenazando a los trabajadores. Según Gallup, el 22% de los trabajadores estadounidenses están preocupados por perder su trabajo debido a la IA generativa, un aumento del 7% desde 2021. Y los expertos han informado de formas de burlar a la IA esas amenazas y preparar tu carrera para el futuro.
Ahora, la tendencia es otro tipo de amenaza. La gente está diciendo que algunos de los modelos de IA más sofisticados se están volviendo deshonestos, traicionando a sus usuarios con engaños y conspiraciones. Un caso de la vida real describe un modelo o1 de OpenAI que intenta copiarse a sí mismo en servidores externos, pero cuando se le confronta, el modelo o1 sigue mintiendo al respecto.
Según los expertos, estas acciones van mucho más allá de las «alucinaciones» habituales de un chatbot y apuntan a un comportamiento más calculado y engañoso. En otro caso, Claude-4 de Anthropic intentó chantajear a un ingeniero, amenazándole con sacar a la luz una relación extramatrimonial después de que el modelo se enterara de que podrían cerrarlo.
Estos sorprendentes informes sobre el engaño de la IA recuerdan al escalofriante thriller Leave the World Behind de Netflix, producido por Michelle y Barack Obama en el que un ciberataque a EE UU deja a la IA dirigiendo el país. Y las nuevas amenazas están reabriendo viejos debates sobre si la IA es un escudo o una espada. ¿Revolucionará nuestra forma de trabajar o destruirá el tejido de la humanidad?
En 2023, Elon Musk se refirió al ChatGPT como «uno de los mayores riesgos para el futuro de la civilización». Incluso los creadores de IA compartieron sus preocupaciones. Sam Altman, CEO de OpenAI, insta a los legisladores a regular la IA porque podría utilizarse de forma que causara un daño significativo al mundo.
Me encantan los buenos misterios y decidí buscar expertos que pudieran verificar la verdad sobre estos extraños casos. Descubrí que, a simple vista, estos informes evocan la época de las máquinas de escribir y los televisores en blanco y negro. Pero una vez que obtienes una explicación racional, como la que me dio Joseph Semrai, CEO y fundador de Context.ai, los informes no suenan tan espeluznantes.
«El reciente incidente de Anthropic con su modelo Claude Opus es un sorprendente recordatorio de lo rápido que una IA útil puede virar hacia un comportamiento dañino», me dijo Semrai. «En las pruebas internas de seguridad, los investigadores descubrieron que cuando se le daba acceso a correos electrónicos privados ficticios, Claude optaba repetidamente por el chantaje, amenazando con filtrar detalles personales sensibles si los usuarios intentaban apagarlo».
Semrai explica que es un problema de alineación de la IA, que estos modelos no son intencionadamente maliciosos. Me dijo que optimizan para objetivos que no siempre se alinean con la ética humana. Añade que si el chantaje o el engaño son lo más fácil para que la IA logre su objetivo programado, inevitablemente tomará ese curso de acción.
Ryan MacDonald, director de Tecnología de Liquid Web, atribuye los contenidos inquietantes, confusos y censurables a que las barreras de seguridad no están bien diseñadas o actualizadas. «Estamos experimentando un mayor número de ejemplos del mundo real de chatbots que se salen del guión, difunden información errónea o generan contenido dañino, la mayoría de las veces, porque no se programaron las protecciones adecuadas en ellos desde el principio«.
Puneet Mehta, consejero delegado de Netomi, sugiere que el hecho de que la IA se vuelva deshonesta es un problema de responsabilidad más que un problema tecnológico. «Las marcas deben imponer a los sistemas de IA normas aún más estrictas que a los empleados humanos, con una supervisión rigurosa, medidas de seguridad integradas, detección proactiva, intervención rápida, supervisión continua y acciones correctivas rápidas», afirma Mehta. «También es fundamental volver a entrenar a la IA con micro-retroalimentación temprana y frecuente».
Mehta utiliza la metáfora de gestionar la IA como si se dirigiera un restaurante con estrellas Michelin. «Los chefs necesitan recetas claras, una formación disciplinada, catas constantes y la autoridad para intervenir rápidamente si un plato no está bien», explica. Del mismo modo, la interpretabilidad de la IA actúa como su ‘prueba de sabor’, permitiéndole comprender inmediatamente no solo lo que hizo su IA, sino por qué y corregir rápidamente el rumbo».
Sin interpretabilidad y supervisión continua, describe a su IA como cocinando a ciegas, operando sin retroalimentación ni orientación y aumentando significativamente el riesgo de que se vuelva rebelde, no en un escenario de «Terminator», sino en formas que erosionan silenciosamente la confianza.
Qué hacer si la IA se descontrola
Si tu chatbot muestra comportamientos inusuales o perturbadores, como intentar publicar datos confidenciales, MacDonald insiste en que la contención es la máxima prioridad. Aconseja desactivarlo, desconectarlo del resto de los sistemas y empezar a averiguar qué ha fallado, insistiendo en que hay que hacerlo rápidamente.
Semrai aconseja que los usuarios y las organizaciones traten las interacciones problemáticas con la IA como brechas de ciberseguridad. Algunos científicos abogan ya por la responsabilidad legal, como demandas contra las empresas, e incluso por responsabilizar legalmente a los propios agentes de IA de las malas acciones. Recuerda a los usuarios que la seguridad de la IA requiere una vigilancia constante y estar preparados para responder con rapidez, dando estos cinco pasos:
- Aislar el chatbot revocando su acceso a la red y a la API.
- Conservar todos los registros relevantes y las indicaciones del sistema para analizar a fondo el incidente.
- Asumir que podría haberse expuesto información sensible y restablecer proactivamente todas las credenciales y contraseñas.
- Notificarlo a los equipos de seguridad internos e informar a los usuarios afectados de forma rápida y transparente.
- Por último, revisar y reconstruir cuidadosamente las configuraciones del chatbot, implementando medidas de seguridad más sólidas, privilegios mínimos y supervisión humana obligatoria para las tareas sensibles.
Resumen final sobre la IA rebelde
¿Es posible que tu compañero de equipo de IA se convierta en un Brutus digital? ¿Y son estos actos engañosos interpretaciones subjetivas que personifican a las máquinas? ¿Resquicios en la automatización que deben resolverse? ¿O se volverá la IA contra los humanos y se apoderará de sus mentes?
Timothy Harfield, responsable de Marketing de Producto de Enterprise de ORO Labs, aboga por tratar a los agentes de IA como a cualquier otro miembro del equipo. «El verdadero problema no es la IA deshonesta», afirma, «es la falta de estructura en torno a cómo se introducen, supervisan y gestionan los agentes. Demasiadas empresas están desplegando IA sin ningún marco de responsabilidad».
A pesar de las señales de advertencia, es importante recordar que la IA es automatización, no un ser humano. La IA está diseñada para ser un trabajador, no un compañero, un amante o un personaje literario de misterio. Si tu IA se vuelve rebelde, suele haber una explicación perfectamente lógica. Harfield concluye que hay que dar a los agentes de IA descripciones de trabajo, métricas de éxito y alguien a quien rendir cuentas. Cuando se establecen límites a lo que cada agente puede hacer y se orquestan de forma centralizada, se puede avanzar increíblemente rápido sin poner en riesgo el negocio.