El propietario de TikTok lanza una IA capaz de crear videos realistas con solo una imagen

ByteDance, propietario de TikTok, presentó OmniHuman-1, un sistema de inteligencia artificial que puede generar videos realistas de personas hablando, gesticulando, cantando, tocando instrumentos y más, todo a partir de una sola foto.

“OmniHuman supera significativamente a los métodos existentes, generando videos humanos extremadamente realistas basados en señales débiles, especialmente audio”, se lee en un artículo de investigación sobre la herramienta publicado el domingo en el archivo de acceso abierto en línea arXiv. “Admite entradas de imágenes de cualquier relación de aspecto, ya sean retratos, imágenes de medio cuerpo o de cuerpo entero, lo que brinda resultados más realistas y de alta calidad en varios escenarios”.

En la página del proyecto OmniHuman-1 , los investigadores comparten videos de muestra que muestran las capacidades de la herramienta. Los ejemplos muestran movimientos de manos y cuerpo vistos desde múltiples ángulos, personajes animados, animales y figuras históricas que vuelven a la vida.

En un nítido vídeo en blanco y negro, Albert Einstein habla frente a una pizarra, puntuando sus palabras con gestos de las manos y sutiles expresiones faciales: “¿Cómo sería el arte sin emociones? Estaría vacío”, dice. “¿Cómo sería nuestra vida sin emociones? Estaría vacía de valores”.

Es como si hubiéramos retrocedido en el tiempo para ver al famoso físico teórico dar una conferencia universitaria, sólo que las imágenes parecen filmadas hoy.

“Son muy impresionantes”, dijo Freddy Tran Nager , profesor clínico asociado de comunicaciones en la Escuela de Comunicación y Periodismo Annenberg de la Universidad del Sur de California, en una entrevista después de ver los videos de muestra. “Si estuvieras pensando en revivir a Humphrey Bogart y contratarlo para una película, no estoy seguro de cómo se vería. Pero en una pantalla pequeña, especialmente en un teléfono, estos son impresionantes”.

La herramienta coloca a ByteDance, y por lo tanto a TikTok, directamente en la concurrida y competitiva carrera por crear las mejores y más realistas imágenes de humanos generados por IA. Estas figuras digitales están apareciendo en todas partes: como influencers virtuales que promocionan productos, funcionarios gubernamentales que ayudan a los ciudadanos a navegar por los servicios sociales y versiones falsas de celebridades que pueden entretener e interactuar con los fanáticos o, lo que es más preocupante, aparecen en falsos patrocinios políticos.

Nager dice que podría imaginar sistemas como OmniHuman siendo utilizados en entornos educativos tanto por profesores como por estudiantes: “Me gustaría que Marilyn Monroe me enseñara estadística”. Debido a la conexión de OmniHuman con TikTok, también podría imaginar que eventualmente lo utilizarían creadores de contenido agotados que recurran a versiones virtuales de sí mismos para tomarse un respiro.

O bien, dijo, “TikTok puede decir: ‘¿Sabes qué? Ahora podemos crear videos por nuestra cuenta. ¿Quién necesita a los seres humanos?’”.

Samantha G. Wolfe , profesora adjunta de la Escuela Steinhardt de Cultura, Educación y Desarrollo Humano de la Universidad de Nueva York y fundadora de PitchFWD, una consultora de marketing de tecnologías emergentes, también ve promesas y posibles peligros en herramientas como OmniHuman.

“Crear algo a partir de una simple imagen y hacer que parezca que realmente habla y se mueve es fascinante desde un punto de vista tecnológico, pero también podría tener muchas consecuencias negativas potenciales”, dijo en una entrevista. “Versiones falsas de líderes empresariales o políticos que dicen algo que no es exacto pueden tener una enorme influencia en una empresa o en un país”.

A medida que los videos generados por IA se vuelven más sofisticados, los riesgos también aumentan, dijo Wolfe. “Cuando comienza a parecerse cada vez más a la realidad, cada vez más a seres humanos haciéndolos, la probabilidad de que la gente lo crea se vuelve mucho mayor”, dijo.

El equipo de ByteDance entrenó a OmniHuman con más de 18.700 horas de datos de video humanos, combinando múltiples tipos de entradas, como texto, audio y poses físicas, aunque ByteDance no respondió de inmediato a una solicitud de comentarios para obtener más detalles sobre los datos de entrenamiento.

OmniHuman no es la primera herramienta de inteligencia artificial que genera videos a partir de una sola foto, pero lo que la distingue a ojos de Nager es la cantidad de datos de entrenamiento a los que tiene acceso el equipo responsable. “Si creaste un video de TikTok”, dijo, “hay una buena posibilidad de que ahora estés en una base de datos que se usará para crear humanos virtuales”.

Etiquetado:

El propietario de TikTok lanza una IA capaz de crear videos realistas con solo una imagen

Wolfe, IA y la maldición del multilingüismo

TikTok activa su plan para seguir operando en EE. UU. con un acuerdo liderado por Oracle

Drones, IA y guerra moderna: cómo la tecnología está redefiniendo el campo de batalla

Quién es Drew Fallon, el emprendedor de 28 años que lidera una revolución financiera impulsada por IA en la industria alimentaria