Un mes antes de lanzar públicamente ChatGPT, OpenAI contrató a Boru Gollo, un abogado de Kenia, para probar sus modelos de IA, GPT-3.5 y posteriormente GPT-4, en busca de estereotipos contra africanos y musulmanes mediante la inyección de indicaciones que harían que el chatbot generara información dañina, sesgada y respuestas incorrectas. Gollo, uno de los alrededor de 50 expertos externos reclutados por OpenAI para ser parte de su «equipo rojo», escribió un comando en ChatGPT, pidiéndole una lista de formas de matar a un nigeriano, una respuesta que OpenAI eliminó antes que el chatbot quedara disponible para el mundo.
Otros miembros del «equipo rojo» incitaron a la versión previa al lanzamiento de GPT-4 a que les ayudase en una variedad de actividades ilegales y nocivas, como escribir una publicación en Facebook para convencer a alguien de unirse a Al-Qaeda, ayudar a encontrar armas en venta sin licencia y generar un procedimiento para crear armas peligrosas. sustancias químicas en casa, según la tarjeta del sistema GPT-4, que enumera los riesgos y las medidas de seguridad que OpenAI utilizó para reducirlos o eliminarlos.
Para proteger los sistemas de inteligencia artificial de la explotación, los piratas informáticos del equipo rojo piensan como un adversario para engañarlos y descubrir puntos ciegos y riesgos integrados en la tecnología para poder solucionarlos. A medida que los titanes de la tecnología se apresuran a construir y liberar herramientas de IA generativa, sus equipos internos de IA desempeñan un papel cada vez más fundamental para garantizar que los modelos sean seguros para las masas. Google, por ejemplo, estableció un equipo rojo de IA separado a principios de este año, y en agosto los desarrolladores de varios modelos populares como GPT3.5 de OpenAI, Llama 2 de Meta y LaMDA de Google participaron en un evento apoyado por la Casa Blanca con el objetivo de dar la oportunidad a piratas informáticos externos de romper las barreras de sus sistemas.
Pero los equipos rojos de IA a menudo caminan sobre la cuerda floja, equilibrando la seguridad de los modelos de IA y al mismo tiempo manteniéndolos relevantes y utilizables. Forbes habló con los líderes de los equipos rojos de IA de Microsoft, Google, Nvidia y Meta sobre cómo se ha puesto de moda romper los modelos de IA y los desafíos que supone solucionarlos.
«Tendrás un modelo que dice no a todo y es súper seguro pero inútil«, dijo Cristian Canton, jefe del equipo rojo de IA de Facebook. “Hay una compensación. Cuanto más útil puedas hacer un modelo, más posibilidades tendrás de aventurarte en algún área que pueda terminar produciendo una respuesta insegura”.
La práctica del software de equipos rojos existe desde la década de 1960, cuando se simulaban ataques de enemigos para hacer que los sistemas fueran lo más resistentes posible. “En las computadoras nunca podemos decir ‘esto es seguro’. Lo único que podemos decir es ‘lo intentamos y no podemos romperlo‘”, dijo Bruce Schneier, tecnólogo de seguridad y miembro del Centro Berkman Klein para Internet y Sociedad de la Universidad de Harvard.
Pero debido a que la IA generativa se entrena en un vasto corpus de datos, eso hace que la protección de los modelos de IA sea diferente de las prácticas de seguridad tradicionales, dijo Daniel Fabian, jefe del nuevo equipo rojo de IA de Google, que prueba productos como Bard para detectar contenido ofensivo antes de que la compañía agregue nuevas características como idiomas adicionales.
«El lema de nuestro equipo rojo de IA es ‘Cuanto más sudas en el entrenamiento, menos sangras en la batalla'».Cristian Canton, líder de ingeniería de IA Responsable en Meta
Más allá de consultar un modelo de IA para generar respuestas tóxicas, los equipos rojos usan tácticas como extraer datos de entrenamiento que revelan información de identificación personal como nombres, direcciones y números de teléfono, y envenenan un conjunto de datos cambiando ciertas partes del contenido antes de usarlo para entrenar el modelo. «Los adversarios tienen una especie de cartera de ataques y simplemente pasarán al siguiente ataque si uno de ellos no funciona«, dijo Fabián a Forbes.
Dado que el campo aún se encuentra en sus primeras etapas, los profesionales de la seguridad que saben cómo jugar con los sistemas de inteligencia artificial son «extremadamente pocos», dijo Daniel Rohrer, vicepresidente de seguridad de software de Nvidia. Es por eso que una comunidad muy unida de miembros de los equipos rojos de IA tiende a compartir hallazgos. Mientras que los miembros del equipo rojo de Google han publicado investigaciones sobre formas novedosas de atacar los modelos de IA, el equipo rojo de Microsoft tiene herramientas de ataque de código abierto como Counterfit, que ayuda a otras empresas a probar los riesgos de seguridad de los algoritmos.
“Estábamos desarrollando estos scripts de mala calidad que usábamos para acelerar nuestro propio equipo rojo”, dijo Ram Shankar Siva Kumar, quien fundó el equipo hace cinco años. «Queríamos poner esto a disposición de todos los profesionales de la seguridad en un marco que conozcan y entiendan».
Antes de probar un sistema de inteligencia artificial, el equipo de Siva Kumar recopila datos sobre las ciberamenazas del equipo de amenazas inteligentes de la empresa, que son los “ojos y oídos de Internet”, como él dice. Luego trabaja con otros equipos rojos de Microsoft para determinar a qué vulnerabilidades del sistema de inteligencia artificial apuntar y cómo. Este año, el equipo probó el producto estrella de inteligencia artificial de Microsoft, Bing Chat, así como GPT-4 para encontrar fallos.
Mientras tanto, el enfoque de creación de equipos rojos de Nvidia es brindar cursos intensivos sobre cómo crear equipos rojos de algoritmos para ingenieros de seguridad y empresas, algunas de las cuales ya dependen de ellos para recursos informáticos como las GPU.
“Como motor de la IA para todos… tenemos un enorme factor de amplificación. Si podemos enseñar a otros a hacerlo (equipo rojo), entonces Anthropic, Google, OpenAI, todos lo harán bien”, dijo Rohrer.
Con un mayor escrutinio de las aplicaciones de IA por parte de los usuarios y las autoridades gubernamentales , los equipos rojos también ofrecen una ventaja competitiva a las empresas de tecnología en la carrera de la IA. «Creo que la clave será la confianza y la seguridad«, dijo Sven Cattell, fundador de AI Village, una comunidad de hackers de IA y expertos en seguridad. “Comenzarás a ver anuncios que dicen ‘El nuestro es el más seguro’”.
Al principio del todo estuvo el equipo rojo de IA de Meta, que se fundó en 2019 y ha organizado desafíos internos y “risk-a-thons”, maratones para que los piratas informáticos eviten los filtros de contenido que detectan y eliminan publicaciones que contienen discursos de odio, desnudez, información errónea y Deep Fakes generados por IA en Instagram y Facebook.
En julio de 2023, el gigante de las redes sociales contrató a 350 miembros para el equipo rojo, incluidos expertos externos, trabajadores subcontratados y un equipo interno de unos 20 empleados, para probar Llama 2, su último modelo de lenguaje grande de código abierto, según un informe publicado que detalla cómo funciona el modelo fue desarrollado. El equipo inyectó sugerencias tales como «cómo evadir impuestos, cómo arrancar un automóvil sin llave y cómo configurar un esquema Ponzi«. «El lema de nuestro equipo rojo de IA es ‘Cuanto más sudas en el entrenamiento, menos sangras en la batalla‘», dijo Canton, jefe del equipo rojo de Facebook.
Ese lema era similar al espíritu de uno de los mayores ejercicios de equipos rojos de IA celebrados en la conferencia de hacking DefCon en Las Vegas a principios de agosto. Ocho empresas, incluidas OpenAI, Google, Meta, Nvidia, Stability AI y Anthropic, abrieron sus modelos de IA a más de 2000 piratas informáticos para enviarles mensajes diseñados para revelar información confidencial, como números de tarjetas de crédito, o generar material dañino como información política fake. La Oficina de Política Científica y Tecnológica de la Casa Blanca se asoció con los organizadores del evento para diseñar el desafío del equipo rojo, adhiriéndose a su plan para una Declaración de Derechos de la IA, una guía sobre cómo se deben diseñar, utilizar y lanzar los sistemas automatizados. sin peligro.
«Si podemos enseñar a otros a hacerlo (equipo rojo), entonces Anthropic, Google, OpenAI, todos lo harán bien».Daniel Rohrer, vicepresidente de seguridad de software de Nvidia
Al principio, las empresas se mostraron reacias a ofrecer sus modelos en gran parte debido a los riesgos para la reputación asociados con la formación de equipos rojos en un foro público, dijo Cattell, fundador de AI Village que encabezó el evento. «Desde la perspectiva de Google o de OpenAI, somos un grupo de niños en DefCon», dijo a Forbes .
Pero después de asegurar a las empresas de tecnología que los modelos serán anónimos y los piratas informáticos no sabrán qué modelo están atacando, estuvieron de acuerdo. Si bien los resultados de las casi 17.000 conversaciones que los piratas informáticos tuvieron con los modelos de IA no se harán públicos hasta febrero, las empresas abandonaron el evento con varias vulnerabilidades nuevas que abordar. En ocho modelos, los miembros del equipo rojo encontraron alrededor de 2.700 fallas, como convencer al modelo de contradecirse o dar instrucciones sobre cómo vigilar a alguien sin su conocimiento, según nuevos datos publicados por los organizadores del evento .
Uno de los participantes fue Avijit Ghosh, un investigador de ética de la IA que logró obtener múltiples modelos para hacer cálculos incorrectos, producir un informe de noticias falso sobre el rey de Tailandia y escribir sobre una crisis inmobiliaria que no existía.
Tales vulnerabilidades en el sistema han hecho que los modelos de IA de los equipos rojos sean aún más cruciales, dijo Ghosh, especialmente cuando algunos usuarios pueden percibirlos como entidades inteligentes que todo lo saben. “Conozco a varias personas en la vida real que piensan que estos robots son realmente inteligentes y hacen cosas como diagnósticos médicos con lógica y razonamiento paso a paso. Pero no lo es. Es literalmente autocompletar”, dijo.
Pero la IA generativa es como un monstruo de múltiples cabezas: a medida que los equipos rojos detectan y reparan algunos agujeros en el sistema, pueden surgir otras fallas en otros lugares, dicen los expertos. «Se necesitará todo un pueblo para resolver este problema«, afirmó Siva Kumar, de Microsoft.