La actriz de doblaje Allegra Clark estaba navegando por TikTok cuando se topó con un vídeo en el que aparecía Beidou, un capitán de barco del videojuego Genshin Impact al que ella había puesto voz. Pero Beidou participaba en una escena sexualmente sugerente y decía cosas que Clark nunca había grabado, aunque la voz ronca sonaba exactamente como la suya. El creador del vídeo había cogido la voz de Clark y la había clonado utilizando una herramienta de inteligencia artificial (IA) generativa llamada ElevenLabs, y a partir de ahí, la hicieron decir lo que quisieron.
Clark, que ha puesto voz a más de cien personajes de videojuegos y a docenas de anuncios, dijo que interpretó el vídeo como una broma, pero que le preocupaba que su cliente pudiera verlo y pensar que había participado en él, lo que podría suponer una violación de su contrato, dijo.
«Esto no sólo puede meternos en un montón de problemas si la gente piensa que hemos dicho [estas cosas], sino que también es, francamente, violento oírte hablar cuando no eres realmente tú», escribió en un correo electrónico a ElevenLabs que fue revisado por Forbes. Pidió a la empresa que retirara el clip de audio subido e impidiera la clonación de su voz en el futuro, pero la compañía dijo que no había determinado que el clip se hubiera hecho con su tecnología. Afirmó que sólo tomaría medidas inmediatas si se tratara de «incitación al odio o difamación», y declaró que no era responsable de ninguna violación de los derechos de autor. La empresa no tomó ninguna medida al respecto.
«Es una mierda que no seamos dueños de nuestras voces. Lo único que podemos hacer es señalar la situación con el dedo», declaró Clark a Forbes.
En respuesta a las preguntas sobre la experiencia de Clark, el cofundador y consejero delegado de ElevenLabs, Mati Staniszewski, dijo a Forbes en un correo electrónico que sus usuarios necesitan el «consentimiento explícito» de la persona cuya voz están clonando si el contenido creado puede ser «perjudicial o difamatorio». Meses después de la experiencia de Clark, la empresa lanzó una herramienta de «captcha de voz» que requiere que la gente grabe una palabra generada aleatoriamente y esa voz debe coincidir con la voz que se intenta clonar.
La empresa, valorada en unos cien millones de dólares y respaldada por Andreessen Horowitz y el cofundador de Google DeepMind, Mustafa Suleyman, es una de las compañías de IA por voz más atractivas del momento. Su tecnología sólo requiere entre treinta segundos y diez minutos de audio para crear lo que suena como una réplica casi idéntica de la voz de alguien. Junto con sitios como FakeYou y Voice AI, que ofrecen una biblioteca gratuita de voces digitales, también está en el centro del impacto de la IA generativa en los actores de doblaje.
Las entrevistas con diez actores de doblaje revelaron un sector ya precario a punto de sufrir un cambio generalizado a medida que las empresas empiezan a experimentar con estas herramientas de conversión de texto en voz. Una de los actores de doblaje con los que habló Forbes dijo que un empleador le comunicó que no la contrataría para terminar de narrar una serie de audiolibros al día siguiente de anunciar su asociación con ElevenLabs, lo que le hizo temer que la sustituyeran por la IA. Otra dice que su jefe le dijo que querían utilizar la IA de ElevenLabs para acelerar las sesiones de repetición, una parte estándar de la grabación de audio por la que se paga a los actores de doblaje. Cuando le dijo a su jefe que no estaba de acuerdo con que su voz se subiera a ningún sitio de IA, éste accedió, pero ella dice que no la han llamado para hacer ninguna repetición.
La comunidad de actores de doblaje notó por primera vez una afluencia de voces generadas por IA después de que Apple Books lanzara la narración digital de audiolibros con un conjunto de voces de soprano y barítono en enero de 2023, dijo Tim Friedlander, presidente de NAVA. Los actores empezaron a descubrir miles de archivos de audio de voces conocidas que subían a varios sitios, en su mayoría los fans, explicó. Recientemente, el famoso actor Stephen Fry dijo que su voz había sido extraída de su narración de los libros de Harry Potter y clonada mediante IA. En una charla en el festival CogX, Fry dijo que la experiencia le había «conmocionado».
En una hoja de cálculo pública, cientos de actores de doblaje han solicitado que se eliminen sus voces de los generadores de voces de IA Uberduck y FakeYou.ai, que han afirmado que retirarán las voces de sus sitios si el propietario de la voz se pone en contacto con ellos. Mientras que FakeYou.ai sigue ofreciendo miles de voces populares, como las de John Cena y Kanye West, que cualquiera puede utilizar, Uberduck retiró de su plataforma en julio las voces aportadas por los usuarios. Uberduck y FakeYou.ai no respondieron a las múltiples peticiones de comentarios.
Uno de los actores de doblaje que ha pedido públicamente que se elimine su voz de los generadores de voz es Jim Cummings, la voz detrás de personajes como Winnie-the-Pooh y Taz de Looney Tunes. Dijo a Forbes que sólo aceptaría que los usuarios utilizaran su voz si él y su familia recibían derechos de autor por ello. «Mantened vuestras zarpas lejos de mi voz», dijo.
Un dilema legal
Al igual que los actores de cine en huelga, que están haciendo sonar la alarma sobre la llegada de la IA y cómo podría afectar a sus puestos de trabajo, los actores de doblaje están en primera línea del cambio tecnológico. Pero a diferencia de otros campos creativos, donde los autores y artistas se unen en demandas colectivas para oponerse a que su trabajo protegido por derechos de autor se utilice para entrenar modelos de IA, los actores de doblaje son especialmente vulnerables. Aunque las voces son intrínsecamente distinguibles, no están protegidas como propiedad intelectual. «No hay protección legal para la voz como la hay para la cara o para la huella dactilar», dice Jennifer Roberts, la voz detrás de varios personajes de videojuegos. «Tenemos las manos atadas».
Sin embargo, la grabación de una voz puede estar protegida por derechos de autor y, según Jeanne Hamburg, abogada del bufete Norris McLaughen, el uso de una voz con fines comerciales puede estar protegido por los «derechos de publicidad», que impiden explotar la imagen de los famosos. Pero eso es en teoría: la mayoría de los contratos firmados por actores de doblaje no impiden que sus voces se utilicen para entrenar sistemas de IA. Desde hace más de una década, los contratos estipulan que los productores «son propietarios de la grabación a perpetuidad, en todo el universo conocido, en cualquier tecnología existente o por desarrollar», afirma Cissy Jones, actriz de doblaje que forma parte del equipo fundador de la National Association of Voice Actors (NAVA), un sindicato de actores de doblaje de reciente creación.
Esos contratos se redactaron y firmaron en su mayor parte antes de la llegada de los sistemas de IA. «Los actores de doblaje no han dado su consentimiento informado para el uso futuro de una grabación de audio y no han recibido una compensación justa por ello», afirma Scott Mortman, abogado de NAVA. «Y por eso las protecciones deben reforzarse significativamente a raíz de la IA».
Por eso NAVA, y el sindicato de actores SAG-AFTRA, están trabajando para eliminar de los contratos las cláusulas que permiten a los empleadores utilizar la voz de un actor para crear un «doble digital» o «sintetizar» su voz mediante aprendizaje automático. Las organizaciones también han desarrollado un nuevo lenguaje para añadir a los contratos que protegería a los actores de doblaje de perder los derechos sobre sus voces.
Un sinfín de abusos
Al igual que Clark, numerosos actores de doblaje han sufrido la manipulación de sus voces por parte de fans mediante herramientas de IA generativa para crear contenidos pornográficos, racistas y violentos. Incluso cuando los fans utilizan voces de IA para crear memes inofensivos u otro tipo de contenido, los actores de doblaje se han manifestado en las redes sociales para prohibir que se fabriquen sus voces.
Jones, miembro de NAVA, cuya voz ha aparecido en programas de Disney y documentales de Netflix, encontró vídeos de TikTok en los que los fans habían utilizado Uberduck para crear clones de su voz diciendo cosas inapropiadas. «No solo mi voz dice algo que yo nunca diría, sino que esas cosas están ahí fuera en el mundo», dijo Jones a Forbes. «Si los compradores potenciales oyen nuestras voces diciendo eso, ¿cómo afectará a mi futuro trabajo?». Después de que ella se pusiera en contacto, Uberduck eliminó su voz de la plataforma, dijo Jones.
Las voces generadas por IA también se han convertido en un nuevo medio de acoso. Abbey Veffer, cuya voz ha aparecido en juegos como Genshin Impact y The Elder Scrolls, dijo que en febrero fue víctima de un engaño por parte de alguien que había creado un clon de su voz. La persona creó una cuenta de Twitter con su dirección como nombre de usuario, generó un clon de IA de la voz de Veffer y luego hizo que el clon dijera cosas racistas y violentas. El usuario anónimo envió directamente la grabación a Veffer y la colgó en la parte superior de la cuenta de Twitter. Afirmaron haber utilizado la tecnología de ElevenLabs. La experiencia, según contó Veffer a Forbes, fue «intensa» y «muy perturbadora».
Pero cuando Veffer se puso en contacto con ElevenLabs para exponer sus preocupaciones, la empresa dijo que el clon no se había creado con su software y que formaba parte de una «campaña de desprestigio organizada» contra la startup, según los mensajes revisados por Forbes. Tres días después de que Veffer se pusiera en contacto con Twitter, la cuenta fue suspendida y el vídeo retirado, pero su dirección residencial permaneció en el sitio durante tres meses, según ella.
Después de que ElevenLabs lanzara la versión beta de su herramienta de IA de texto a voz en enero, la startup anunció que estaba teniendo problemas con personas que hacían un mal uso de su tecnología. Un día después, Vice’s Motherboard descubrió que carteles anónimos de 4Chan utilizaban la herramienta de clonación gratuita de ElevenLabs para generar comentarios racistas, transfóbicos y violentos con las voces de celebridades como Joe Rogan y Emma Watson.
La capacidad de la IA para imitar fielmente las voces de las personas también ha creado oportunidades para los estafadores. La FTC ha advertido este año que los delincuentes utilizan clones de voz de IA para hacerse pasar por seres queridos y convencer así a sus víctimas de que les envíen dinero. Un periodista pudo utilizar la herramienta de ElevenLabs para crear una versión de su voz generada por IA que se conectó con éxito a su propia cuenta bancaria.
ElevenLabs no hizo comentarios sobre ninguno de estos casos concretos, pero su CEO Staniszewski dijo en un correo electrónico: «Si alguien está utilizando nuestra herramienta para clonar voces para las que no tiene permiso y que contravienen los casos de uso justo, prohibiremos la cuenta e impediremos que se creen nuevas cuentas con los mismos datos.» Junto con una herramienta de «captcha de voz» para asegurarse de que la gente tiene ese permiso, la empresa dice que también ha desarrollado un clasificador de voz con IA que puede detectar con más del 90% de precisión si un clip de audio que contiene IA se hizo usando sus herramientas.
Consentimiento y control
En respuesta al uso indebido, los sitios de generación de voz están añadiendo medidas restrictivas para vigilar sus tecnologías. Speechify, que licencia las voces de narradores famosos como Snoop Dog y Gwyneth Paltrow (con permiso total), no permite subir contenidos para crear voces personalizadas sin la participación activa de la persona cuya voz se quiere utilizar. Al igual que ElevenLabs, presenta un texto único que el usuario, o alguien que esté físicamente presente con él, tiene que leer en voz alta con su propia voz. «Creo que es corto de miras tomar atajos y mi objetivo es poner a los propietarios de los contenidos en el asiento del conductor», afirma su fundador, Cliff Weitzman, que puso en marcha Speechify para convertir sus libros de texto en audiolibros mediante aprendizaje automático en 2012.
Y en Resemble AI, que cuenta con clientes empresariales como Netflix y el Grupo del Banco Mundial, los usuarios solo pueden crear una voz personalizada generada por IA después de grabar una declaración de consentimiento con la voz que quieren generar. El fundador y consejero delegado de Resemble AI, Zohaib Ahmed, afirma que la implantación de métodos seguros para desplegar la tecnología ha sido esencial para su empresa porque cree que la responsabilidad de evitar el uso indebido debe recaer en los proveedores que crean las herramientas y no en el usuario final.
Este tipo de comprobaciones, sin embargo, no abordan cuestiones éticas de más alto nivel en torno al consentimiento. Los actores, por ejemplo, no tienen realmente control sobre cómo se utilizarán sus voces a título póstumo. Los actores de doblaje se enfurecieron cuando el estudio de videojuegos Hi-Rez Studios añadió una cláusula que le permitiría clonar una voz utilizando IA después de que el propietario de la voz muriera (la cláusula se eliminó tras el alboroto). «Si un actor fallece, es mejor sustituirlo por otro humano que crear una interpretación artificial, porque no es él y no le devuelve la vida», declaró el actor de doblaje Clark.
La gran preocupación que planea sobre todo esto es si hay futuro para los actores de doblaje. Con los empleadores y los aficionados volviéndose hacia las voces sintetizadas, a muchos les preocupa encontrar su próximo trabajo o conservar el que tienen. «Para nosotros es muy importante controlar cómo y dónde se utiliza nuestra voz y cuánto nos pagan por ello», afirma Friedlander, de NAVA.