Editar fotos, analizar grabaciones de vigilancia y comprender las partes de una célula. Estas tareas tienen algo en común: hay que ser capaz de identificar y separar los distintos objetos de una imagen. Tradicionalmente, los investigadores han tenido que empezar de cero cada vez que querían analizar una nueva parte de una imagen.
Meta pretende cambiar este laborioso proceso convirtiéndose en la ventanilla única para investigadores y desarrolladores web que trabajan en este tipo de problemas. El miércoles, la empresa presentó un modelo de IA, llamado «Segment Anything Model» o «SAM», mediante el cual los usuarios pueden crear «recortes» o segmentos de cualquier elemento de una imagen haciendo clic en un punto o dibujando un recuadro alrededor del objeto. La herramienta puede utilizarse con fines de investigación, para la edición creativa o incluso para dar sentido a los objetos mientras se llevan puestos unos auriculares de realidad virtual, ya que hace más rápido y eficaz tallar las distintas partes de una imagen.
La empresa tecnológica ha puesto a disposición del público la herramienta basada en navegador y también ha abierto su modelo de visión por ordenador, que afirma haber entrenado con «el mayor conjunto de datos de segmentación», compuesto por 1.100 millones de máscaras de segmentación (las «máscaras» son las distintas partes de una imagen) y 11 millones de imágenes cedidas por una gran empresa fotográfica. Meta no ha revelado de qué empresa ha obtenido la licencia de las imágenes.
Meta AI, la rama de investigación en inteligencia artificial del gigante de las redes sociales, trabajó con 130 anotadores humanos con sede en Kenia para crear el conjunto de datos, que se hizo mediante una combinación de etiquetado manual y automático de mil millones de partes de millones de imágenes.
Las tecnologías de reconocimiento de objetos y visión por ordenador existen desde hace años y ya están integradas en diversos dispositivos, como cámaras de vigilancia y drones. Las tiendas de Amazon, por ejemplo, utilizan el reconocimiento de objetos para detectar los artículos que se introducen en la cesta y los vehículos autónomos lo emplean para percibir su entorno. Startups contemporáneas como Runway e incumbentes como Adobe han comercializado su capacidad de utilizar la IA para detectar y seleccionar diferentes objetos dentro de una imagen para sus usuarios creativos. A medida que han ido surgiendo ingeniosos chatbots generativos de IA, el objetivo de los investigadores de Meta era fusionar los avances en los modelos fundacionales de la IA con el ámbito latente de las tecnologías de visión por ordenador.
«Yo no diría que se trata de una nueva tecnología. La segmentación de objetos ya existe, así que no diría que se trata de una nueva capacidad. Fundamentalmente, creo que su planteamiento de utilizar modelos fundacionales es nuevo y el tamaño del conjunto de datos con el que se están entrenando podría ser novedoso», afirma Paul Powers, CEO y fundador de Physna, un motor de búsqueda de objetos en 3D.
Pero lo que Meta espera es que, al dar a conocer estas herramientas de forma más amplia, anime a los usuarios a basarse en su modelo generalizado para casos de uso más específicos en campos como la biología y la agricultura.
El anuncio se produce al mismo tiempo que Meta planea utilizar la IA generativa para anuncios en Instagram y Facebook. A finales de febrero, Mark Zuckerberg, consejero delegado de la compañía, anunció que iba a crear un nuevo equipo de productos centrado exclusivamente en la creación de herramientas de IA generativa, como personajes artificiales, filtros de Instagram y funciones de chat en WhatsApp e Instagram. Al parecer, Zuckerberg pasa la mayor parte de su tiempo con el nuevo equipo de IA.
La herramienta SAM está pensada para quienes no tienen la infraestructura de IA o la capacidad de datos para crear sus propios modelos para «segmentar» o identificar los distintos componentes de una imagen, explican los investigadores de Meta AI Alexander Kirillov y Nikhila Ravi. «Esto ocurre en tiempo real en el navegador, lo que hace que este modelo sea mucho más accesible para mucha más gente, ya que no necesitan ejecutar un montón de cosas en la GPU… Podemos facilitar muchos más casos de uso que otros métodos no permitirían», afirma Ravi.
Pero un modelo de visión por ordenador entrenado en una base de datos de imágenes bidimensionales tiene sus limitaciones, afirma Powers. Por ejemplo, para que la herramienta detecte y seleccione un mando colocado al revés, tendría que entrenarse con distintas orientaciones del mismo objeto. Los modelos entrenados en imágenes bidimensionales no ayudarán a detectar imágenes parcialmente cubiertas o parcialmente expuestas, afirma. Esto significa que no identificaría con precisión objetos no estandarizados a través de unos auriculares AR/VR o que no detectaría objetos parcialmente cubiertos en espacios públicos si los utilizara un fabricante de vehículos autónomos.
Para la empresa, que cambió su marca de Facebook a Meta a finales de 2021 y firmó su compromiso con el Metaverso, el uso más obvio para esta herramienta de detección de objetos es en sus espacios de realidad virtual, como su juego de realidad virtual en línea Horizon Worlds. Kirillov y Ravi afirman que su herramienta de detección de objetos puede utilizarse para la detección «basada en la mirada» de objetos a través de auriculares de realidad virtual y realidad aumentada.
El modelo puede detectar objetos desconocidos y funcionar en distintos ámbitos con imágenes submarinas, microscópicas, aéreas y agrícolas. Kirillov dice que se inspiró para crear un modelo generalizado de segmentación de imágenes mientras hablaba con investigadores de doctorado. «Estaba dando una presentación sobre segmentación a unos científicos naturales de Berkeley y la gente decía: ‘Vale, claro, todo esto está muy bien, pero necesito contar e identificar árboles en las fotos que he recopilado para mi investigación sobre los incendios en California’, y este modelo puede hacerlo por ellos», explica Kirillov a FORBES.