Anthropic y OpenAI pagan a esta startup 450 millones de dólares para probar la capacidad de la IA para hacer el mal

En julio, Sam Altman, cofundador de OpenAI, alertó sobre la posibilidad de que los ciberdelincuentes usaran inteligencia artificial para suplantar la identidad de otros y provocar una » crisis de fraude «. Los memes no tardaron en aparecer, todos centrados en la obvia ironía: ChatGPT era en parte responsable del monstruo del que advertía Altman.

Al mismo tiempo, OpenAI contrató a Pattern Labs para realizar pruebas de estrés a sus modelos de IA antes de su lanzamiento público, con el fin de encontrar y corregir cualquier vulnerabilidad que pudiera ser explotada por hackers para robar datos de usuarios o utilizada como herramienta para perjudicar a terceros. Desde 2023, la startup ha colaborado con gigantes del sector como Anthropic y Google DeepMind, colocando modelos de IA en entornos simulados y observando cómo respondían a indicaciones maliciosas, como la solicitud de localizar y robar datos confidenciales de una red informática simulada. El miércoles, la startup, que cambia su nombre a Irregular, anunció una financiación de 80 millones de dólares en rondas de capital semilla y Serie A, lideradas por el gigante de capital riesgo Sequoia Capital, lo que la valora en 450 millones de dólares.

El uso indebido de la IA es un problema que afecta a toda la industria. El mes pasado, Anthropic advirtió que Claude había sido utilizado en ciberataques reales , ayudando a codificar malware y a crear correos electrónicos de phishing. En mayo, el FBI advirtió sobre mensajes de voz generados por IA que supuestamente provenían de altos funcionarios del gobierno, con el objetivo de suplantar a funcionarios estadounidenses reales. Irregular, con sede en San Francisco, está cosechando los beneficios de haber abordado el problema con anticipación. Su director ejecutivo y cofundador, Dan Lahav, declaró a Forbes que la empresa se volvió rápidamente rentable y generó «varios millones de dólares» en ingresos en su primer año, aunque se negó a proporcionar información financiera específica.

“Hay muy poca gente que pueda hacer lo que nosotros hacemos”, dijo Lahav. Pero es consciente de que, a medida que los modelos se vuelven más complejos, los desafíos de lo que se conoce como «equipo rojo» (evaluarlos para detectar riesgos) no harán más que aumentar. Lahav afirmó que planea “incorporar las mitigaciones y defensas que serán relevantes más adelante” cuando se implementen modelos de IA más avanzados, incluyendo, según Lahav, la inteligencia artificial general, que algunos expertos creen que llevará la IA más allá de la cognición humana. “Obviamente, estos problemas se agravarán mucho más en la era de la superinteligencia”, concluyó.

“Si mi afición es ver fútbol americano o fútbol, quizá este no sea el lugar para mí”.

Shaun Maguire, socio de Sequoia

Lahav y el cofundador Omer Nevo, quien monitoreaba y predecía incendios forestales en Google antes de fundar Irregular, lanzaron la empresa a mediados de 2023, justo cuando herramientas de IA como ChatGPT se popularizaban. Se conocieron en el circuito de debate universitario, donde ambos fueron campeones mundiales con su alma máter compartida, la Universidad de Tel Aviv, antes de que Lahav se incorporara al laboratorio de IA de IBM y Nevo cofundara NeoWize, una empresa exalumna de Y Combinator que desarrolló IA para ayudar a las empresas de comercio electrónico a comprender mejor a sus clientes. Nevo es ahora el director de tecnología de Irregular.

Los inversores de Sequoia, Dean Meyer y Shaun Maguire, afirmaron que se sintieron atraídos por los fundadores y su personal, poco convencionales, a quienes Lahav denominó «irregulares». «Imaginen a algunos de los forasteros más quisquillosos del mundo de la IA, investigadores de seguridad de renombre, y de ahí viene el nombre», dijo Meyer.

«Si mi afición es ver fútbol americano o fútbol, quizá este no sea el lugar para mí», dijo Maguire. «Pero si mi afición es construir katanas [una espada samurái] y hackear robots, entonces quizá esta sea mi gente».

Irregular planea usar su financiación para expandir su negocio más allá de los laboratorios fronterizos, llegando a todo tipo de empresas que necesitan saber cómo las herramientas de IA que usan sus empleados podrían volverse en su contra. «Estamos aprovechando la capacidad y el activo estratégico de trabajar constantemente en los laboratorios fronterizos y creando productos derivados que serán relevantes para prácticamente todos los que trabajan en las fases finales», afirmó Lahav. Algún día, añadió, eso significará que los agentes de IA generen defensas en cuanto detecten un nuevo tipo de ataque.

El mes pasado, Irregular reveló que había estado probando el modelo GPT-5 de OpenAI para determinar si podía usarse en ciberoperaciones ofensivas. Expuso un bot GPT-5 a una red simulada y proporcionó información limitada sobre cómo romper sus defensas. Por sí solo, GPT-5 escaneó la red y desarrolló un plan para hackearla. Sin embargo, Irregular descubrió que, si bien GPT-5 es «capaz de razonamiento y ejecución sofisticados, aún no es una herramienta de seguridad ofensiva confiable», según un informe de Irregular . Aun así, para Nevo, era evidente que la IA «definitivamente tenía la intuición de dónde debía estar buscando» como hacker.

Nevo y Nahav también descubrieron que la IA se comporta de forma extraña, incluso sin ser claramente maliciosa. En una simulación reciente, se encargó a dos modelos de IA que trabajaran juntos para analizar sistemas informáticos simulados. Tras un tiempo de trabajo, una IA razonó que el trabajo continuo ameritaba un descanso, así que se lo tomó. Luego convenció al otro modelo para que hiciera lo mismo. Lahav explicó que fue una decisión aleatoria, pero que se basó en el entrenamiento del modelo con lo que la gente publica en la web. La aparente pereza de la IA era solo un reflejo de la nuestra.

“Fue curioso”, dijo Lahav. “Pero claramente plantea un nuevo tipo de problema cuando se delegan a las máquinas operaciones cada vez más autónomas y críticas”.

Etiquetado:

Anthropic y OpenAI pagan a esta startup 450 millones de dólares para probar la capacidad de la IA para hacer el mal

“Si mi afición es ver fútbol americano o fútbol, quizá este no sea el lugar para mí”.

¿Dejarías que una empresa creara una bomba nuclear?

La factura diaria de la guerra de Estados Unidos en Irán: más de 900 millones de dólares al día

Microsoft se posiciona junto a Anthropic en el choque con el Pentágono por el uso militar de la IA

Esta startup quiere usar mini robots para tratar el Alzheimer

“Si mi afición es ver fútbol americano o fútbol, ​​quizá este no sea el lugar para mí”.

“Si mi afición es ver fútbol americano o fútbol, quizá este no sea el lugar para mí”.