Tecnología

¿Puede la IA aprender y evolucionar como un cerebro?

La audaz investigación de Pathway cree que sí.

Foto: VW PICS/Universal Images Group vía Getty Images

La inteligencia artificial (IA) ha aprendido a ver, hablar e incluso escribir poesía, pero aún no ha aprendido a evolucionar por sí misma. A pesar de su brillantez de miles de millones de parámetros, los grandes modelos lingüísticos actuales siguen siendo estáticos. Una vez entrenados, dejan de aprender. Esa es la paradoja que subyace a la IA moderna: cuanto más inteligentes se vuelven nuestros modelos, menos se parecen a lo que los inspiró: el cerebro humano, que aprende y se adapta continuamente.

Sin embargo, un equipo de investigación cree haber encontrado la respuesta y la ha incorporado directamente en un modelo.

Pathway, una empresa emergente de IA con sede en Palo Alto y dirigida por la científica especializada en complejidad Zuzanna Stamirowska, afirma que su nueva arquitectura de IA, Baby Dragon Hatchling (BDH), representa un gran avance en el razonamiento adaptativo. Diseñada para reflejar cómo surge naturalmente la inteligencia en el cerebro, BDH mapea matemáticamente cómo interactúan las neuronas para formar y perfeccionar la comprensión a lo largo del tiempo. El resultado, según la empresa, es un sistema de razonamiento artificial que no solo procesa la información, sino que evoluciona con ella.

«Los LLM (Large Language Models, Modelos de Lenguaje Grandes) actuales están reviviendo el día de la marmota (si conoces la película). Se entrenan una vez y luego se despiertan cada día con el mismo estado de memoria (y potencialmente con acceso a una gran biblioteca de notas), sin tener ningún aprendizaje consistente que pueda ocurrir con el tiempo», me dijo Zuzanna Stamirowska, directora ejecutiva de Pathway. «BDH tiene tanto espacio de memoria para su contexto como para el conocimiento a largo plazo. Abre el camino a sistemas que mejoran sobre la marcha, resolviendo problemas gradualmente con el tiempo. Como nosotros, los humanos».

En su artículo, Pathway afirma que ha tendido un puente entre el funcionamiento de la atención en la neurociencia y el aprendizaje automático. El equipo descubrió que BDH simula cómo se desarrolla el razonamiento, mostrando cómo las neuronas interactúan para encontrar la siguiente idea relevante, de forma muy similar a cómo el cerebro dirige la atención a través de sus redes.

Además, dado que las activaciones de BDH son escasas y más fáciles de interpretar, los investigadores pueden ver qué neuronas representan qué conceptos, una propiedad que Pathway denomina «monosemanticidad». Según la empresa, esta transparencia podría facilitar la auditoría y la regulación de los futuros sistemas de IA.

«Existe un desajuste entre la capacidad de los sistemas de ingeniería y las bases de datos para incorporar datos nuevos y la incapacidad de los LLM para procesarlos de manera que les permitan obtener información o experiencia. De hecho, las implementaciones empresariales actuales suelen combinar los dos componentes: un LLM estático, que no mejora sus habilidades con el tiempo, con acceso de búsqueda (recuperación) desde una base de datos externa», me explicó Adrian Kosowski, director científico de Pathway. «Debido al cambio de arquitectura en la forma en que BDH maneja el contexto, para muchos casos de uso, consideramos que BDH es la forma de eludir esta limitación, ya que permite el razonamiento contextualizado a escala empresarial».

El futuro de la IA reside en la biología, no solo en el código

BDH se basa en un principio fundamental de la neurociencia denominado aprendizaje hebbiano, que a menudo se resume como «las neuronas que se activan juntas se conectan entre sí». En el cerebro humano, la coactivación repetida refuerza los vínculos entre las neuronas, convirtiendo la actividad simple en pensamientos, recuerdos y comportamientos complejos. Pathway ha traducido ese proceso biológico en código.

En BDH, cada neurona artificial funciona de forma independiente, pero se conecta localmente con otras. Cuando ciertas conexiones se activan repetidamente, se fortalecen, formando vías que representan ideas aprendidas. Con el tiempo, esto crea lo que los científicos denominan una red sin escala, una estructura autoorganizada que se mantiene estable incluso cuando crece o procesa nuevos datos.

«BDH vuelve a los principios básicos y las inspiraciones que hay detrás de las redes neuronales: cómo un sistema distribuido y complejo de agentes simples (neuronas) puede aprender aplicando reglas locales que no requieren sincronización externa», me explicó Jan Chorowski, director técnico de Pathway.

El equipo directivo de Pathway aporta una gran profundidad técnica. La directora ejecutiva, Zuzanna Stamirowska, científica especializada en complejidad y autora de varias publicaciones, es coautora de un modelo de previsión para las redes comerciales mundiales en las Actas de la Academia Nacional de Ciencias (PNAS). El director técnico, Jan Chorowski, que anteriormente trabajó con el premio Nobel Geoffrey Hinton, a menudo llamado el «padrino de la IA», ayudó a desarrollar los mecanismos de atención para el habla en Google Brain. Por su parte, Kosowski ha publicado numerosos trabajos sobre informática, física y biología.

«La forma en que las interacciones de las partículas en física dan lugar a una estructura global y la forma en que los sistemas distribuidos realizan cálculos a gran escala son, de hecho, sorprendentemente similares. Buscábamos una forma similar de explicar la inteligencia: ¿cómo pasar de programar el comportamiento de neuronas individuales a un sistema similar al cerebro que muestre un comportamiento inteligente?», afirma Kosowski. «Este enfoque conduce a un comportamiento más predecible de los sistemas inteligentes a gran escala y abre la puerta a nuevas formas de entrenamiento y evaluación del rendimiento».

La startup ha recaudado recientemente 10 millones de dólares en financiación inicial, liderada por TQ Ventures, con la participación de Kadmos, Innovo, Market One Capital, Id4 y varios inversores ángeles, entre ellos Lukasz Kaiser, coautor del artículo original sobre Transformer y colaborador clave en los primeros modelos de razonamiento de OpenAI. Su tecnología ya se está utilizando. La OTAN emplea los sistemas de Pathway para analizar datos sociales y operativos en tiempo real, mientras que La Poste, el servicio postal francés, los utiliza para mejorar la logística y las rutas de reparto.

«Si te digo que la IA debería ser más dinámica y estar más en sintonía con el entorno, ¿no estarías de acuerdo? Es obvio, como han dicho algunos de nuestros inversores. Básicamente, no es así como funciona la IA actual», afirma Stamirowska. «En el caso de Lukasz, también se trataba de nuestra capacidad para traducir la ciencia rigurosa en un impacto práctico y duradero. Hemos mantenido interesantes conversaciones con socios de diseño de la empresa que requieren una personalización profunda, modelos que aprendan sobre la marcha a partir de datos escasos y la seguridad de la implementación».

¿Podría la IA con autoaprendizaje poner fin a la era de los transformadores?

En los modelos transformadores, cuando aparece nueva información, los desarrolladores tienen que volver a entrenar o ajustar todo el sistema. Por eso empresas como OpenAI, Anthropic y Google lanzan actualizaciones numeradas, GPT-4, Claude 3.5, Gemini 2, cada una de las cuales es esencialmente un reinicio de una mente estática. Pathway afirma que su nueva arquitectura cambia eso. Creado para la generalización continua, el modelo evoluciona por sí solo, aprendiendo de la experiencia continua en lugar de volver a entrenarse periódicamente.

«BDH procesa la información de forma localizada: sus operaciones pueden describirse exactamente como reglas de inferencia locales. Además, se ha observado que desarrolla espontáneamente representaciones dispersas: solo una fracción de sus unidades están activas en un momento dado», explicó Chorowski. «Ambas estrategias, la localidad de la información y la dispersión de la activación, son empleadas por el cerebro humano, que tiene una eficiencia energética sin igual, ya que utiliza unos 20 W para razonar sobre nuestra vida cotidiana empleando unos 100.000 millones de neuronas que se comunican a través de una red en constante evolución de cientos de billones de sinapsis».

Las implicaciones podrían ser tanto técnicas como económicas. El reentrenamiento de grandes modelos cuesta a las empresas miles de millones cada año en potencia de cálculo y energía. Un sistema que aprende continuamente podría hacer que el desarrollo de la IA fuera más barato, más rápido y más sostenible. Dado que la arquitectura mantiene los datos críticos cerca de sus núcleos de procesamiento, reduce la latencia y recorta los costes de cálculo.

«BDH se beneficiará al máximo de las unidades de procesamiento en las que la memoria está interconectada con las unidades computacionales, y estamos siguiendo de cerca las tendencias en memoria en chip en aceleradores, como la memoria compartida en GPU o la memoria vectorial en TPU», añadió Chorowski.

Sin embargo, los expertos del sector se muestran escépticos. Señalan que, aunque BDH ofrece un rendimiento competitivo con modelos a escala GPT-2 que van de 10 a mil millones de parámetros, aún no demuestra una clara ventaja de escalabilidad sobre las arquitecturas líderes actuales.

«Los modelos inspirados en el cerebro son útiles, pero los aviones no vuelan como los pájaros y los submarinos no nadan como los peces. Extraer principios de diseño de la naturaleza es valioso, pero la interpretación literal puede no funcionar, especialmente en la ciencia del cerebro, donde no comprendemos completamente el vínculo entre la estructura y la función», afirmó R. Ravi, profesor de investigación operativa e informática en la Tepper School of Business de la Universidad Carnegie Mellon. «La explicabilidad debería ser un requisito previo para la implementación pública, al igual que los factores de seguridad en ingeniería. Pero ningún modelo actual, incluida esta arquitectura, se acerca a cumplir ese estándar».

Del mismo modo, Sid Ghatak, director ejecutivo de Increase Alpha y antiguo asesor de políticas de IA de la Casa Blanca, calificó el BDH como un hito científico significativo que aborda varias deficiencias fundamentales de los modelos basados en transformadores. Sin embargo, añadió que aún queda mucho trabajo por delante antes de que pueda demostrar su potencial a largo plazo.

«Aunque el enfoque parece abordar la preocupación específica por la seguridad de un modelo que funciona durante un tiempo infinito, por ejemplo, la fábrica de clips, no creo que este enfoque ofrezca necesariamente un sistema de razonamiento autónomo y seguro, ya que parece haber modelado la forma en que el cerebro aprende y razona», me dijo. «Dado su potencial para adaptarse, cambiar y, potencialmente, evolucionar con el tiempo, creo que esto supone un reto para los marcos actuales, ya que será más difícil contenerlo y controlarlo utilizando únicamente la tecnología».

Por ahora, el BDH sigue siendo una tecnología en fase inicial, pero su potencial va mucho más allá del laboratorio de Pathway. La verdadera prueba vendrá con la escala: si las elegantes ecuaciones del BDH pueden soportar la complejidad de los modelos de billones de parámetros y la incertidumbre del mundo real. Si pueden, Pathway puede haber iniciado una nueva era en la IA, en la que las máquinas no solo imitan al cerebro, sino que comienzan a pensar como él.

«Al describir la aparición del razonamiento a partir de las interacciones entre neuronas, estamos creando un trampolín para el avance de todo el campo», afirma Kosowski. «Creemos que los sistemas basados en BDH serán simplemente más prácticos en muchos casos, ya que ofrecerán más funcionalidades con mayor eficiencia, especialmente en entornos empresariales».

Artículos relacionados