Tech

El modelo de inteligencia artificial RT-2 de Google: un paso más hacia los robots capaces de aprender como humanos

Su principal innovación radica en su capacidad para producir directamente acciones robóticas.
Cyborg. (Foto: Alexandra Koch/Pixabay)

Google presentó un nuevo modelo de inteligencia artificial que permitirá a los humanos comunicarse con los robots y enseñarles qué hacer poniendo las palabras en acción.

El concepto de robots como ayudantes fiables forma parte de nuestro imaginario colectivo desde hace décadas. A pesar de las visiones futuristas, la realización práctica de estos asistentes robóticos ha sido más ciencia ficción que realidad.

Gracias al equipo de investigación DeepMind de Google, podemos echar un vistazo a un emocionante avance que está llamado a redefinir el reino de la robótica: la presentación del Robotics Transformer 2 (RT-2).

RT-2 es un modelo pionero de visión-lenguaje-acción desarrollado mediante técnicas basadas en transformadores y entrenado con datos de texto e imágenes extraídos de Internet. Su principal innovación radica en su capacidad para producir directamente acciones robóticas. Esencialmente, el RT-2 aprende conceptos e ideas generales a partir de los datos de la web y aplica esos conocimientos a los comportamientos robóticos, lo que permite a los robots entender y «hablar» el lenguaje de sus operaciones.

El aprendizaje de robots en el mundo real siempre ha planteado retos monumentales. Para que un robot realice tareas generales en entornos variables, debe gestionar tareas complejas y abstractas, sobre todo en entornos con los que no se ha encontrado antes. A diferencia de los chatbots, los robots necesitan una base en el mundo real. Necesitan entender conceptos abstractos y cómo aplicarlos en contextos prácticos y físicos.

Históricamente, los robots han necesitado entrenarse en miles de millones de puntos de datos, con todos los objetos, entornos, tareas y situaciones imaginables del mundo físico. Este proceso ha sido largo, costoso y a menudo poco práctico para los innovadores. En consecuencia, el aprendizaje de los robots siempre ha sido una tarea ardua.

RT-2 representa un cambio significativo respecto a los métodos tradicionales de entrenamiento de robots. Los recientes avances en tecnologías robóticas han mejorado la capacidad de los robots para razonar y diseccionar problemas de varios pasos, con modelos de visión como PaLM-E que ayudan a los robots a comprender mejor su entorno. Modelos anteriores como el RT-1 demostraron que los transformadores, reconocidos por su capacidad de generalizar información entre sistemas, podían facilitar el aprendizaje entre distintos tipos de robots.

Antes del RT-2, los robots dependían de intrincadas pilas de sistemas para funcionar, en las que el razonamiento de alto nivel y los sistemas de manipulación de bajo nivel trabajaban conjuntamente para que el robot funcionara. Este engorroso planteamiento es comparable a procesar mentalmente cada paso que se quiere dar antes de moverse físicamente. RT-2 lo simplifica combinando el razonamiento complejo y el resultado de las acciones en un único modelo. Una característica fundamental de RT-2 es su capacidad de transferir conceptos derivados de sus datos de entrenamiento de lenguaje y visión para guiar las acciones robóticas, incluso en tareas para las que no ha sido entrenado específicamente.

Tomemos, por ejemplo, la tarea de deshacerse de la basura. Los sistemas tradicionales necesitarían formación explícita para identificar la basura, recogerla y tirarla. RT-2, en cambio, al transferir conocimientos de un gran corpus de datos web, ya entiende qué es la basura y puede identificarla sin formación explícita. Incluso comprende cómo deshacerse de la basura sin haber sido entrenado para ello.

La capacidad de RT-2 para transformar información en acciones permite a los robots adaptarse rápidamente a nuevas situaciones y entornos. En más de 6.000 ensayos robóticos, RT-2 funcionó tan bien como su predecesor, RT-1, en tareas para las que había sido entrenado, al tiempo que casi duplicaba su rendimiento en escenarios nuevos y desconocidos: del 32% con RT-1 al 62% con RT-2. En este sentido, el RT-2 permite a los robots aprender de forma muy parecida a los humanos, aplicando a situaciones nuevas conceptos aprendidos previamente.

Aunque todavía queda mucho trabajo por hacer para que los robots sean realmente útiles en entornos centrados en el ser humano, el RT-2 representa un emocionante atisbo del tentador futuro de la robótica.

La aparición de modelos como el RT-2 es un testimonio de cómo los avances en IA están influyendo rápidamente en la robótica. Es muy prometedor para el desarrollo de robots más versátiles y de uso general.

Artículos relacionados