Las películas dobladas en Polonia son horribles. Un único lector recita todos los diálogos con un tono eslavo monótono y enérgico. No hay reparto. No hay variación entre los hablantes. El público joven lo odia. «Pregunta a cualquier polaco y te dirá que es terrible», afirma Mateusz Staniszewski, cofundador de la empresa de voz artificial ElevenLabs. «Supongo que era una costumbre comunista que se mantuvo como una forma barata de producir contenido».
Mientras trabajaba en Palantir, Staniszewski se asoció con su amigo del instituto e ingeniero de Google Piotr Dabkowski para experimentar con la inteligencia artificial (IA). La pareja se dio cuenta de que un proyecto, un entrenador de oratoria con IA especialmente prometedor, podría resolver el horror típicamente polaco de que Leonardo DiCaprio o Scarlett Johansson fueran eclipsados por un lector «estrella» como Maciej Gudowski.
Los dos reunieron sus ahorros y, en mayo de 2022, dejaron sus trabajos para dedicarse a tiempo completo a ElevenLabs. Desde el principio, su nuevo generador de texto a voz con IA era mucho mejor que las voces robóticas de Siri de Apple y Alexa de Amazon. Las voces con IA de ElevenLabs eran capaces de expresar felicidad, emoción e incluso risas.
En enero de 2023, ElevenLabs lanzó su primer modelo. Podía tomar cualquier fragmento de texto y utilizar la IA para leerlo en voz alta con cualquier voz, incluyendo un clon propio (o, lo que es preocupante, de otra persona). La demanda fue inmediata. Los autores podían crear audiolibros al instante con el software (las tarifas profesionales ahora comienzan en 99 dólares al mes para obtener mayor calidad y más tiempo). Los creadores de YouTube utilizaron ElevenLabs para traducir sus vídeos a otros idiomas (sus modelos ahora pueden hablar en 29 lenguas). La startup con sede en Varsovia y Londres cerró acuerdos con aplicaciones de aprendizaje de idiomas y meditación; luego se sumaron empresas de medios de comunicación como HarperCollins y la alemana Bertelsmann. «Era obvio que este era el mejor modelo y todo el mundo lo estaba comprando», afirma la inversora Jennifer Li, de Andreessen Horowitz, que codirigió una ronda de financiación de 19 millones de dólares en mayo de 2023. Un año más tarde, los cofundadores fueron galardonados como parte de la lista Forbes 30 Under 30 Europe.
Sin embargo, otros encontraron usos más inquietantes: imitaciones con IA de figuras públicas como el presidente Trump narrando de forma grosera duelos de videojuegos, la actriz Emma Watson leyendo Mein Kampf y el podcaster Joe Rogan promocionando estafas se hicieron rápidamente virales. Peor aún, los estafadores comenzaron a utilizar herramientas de clonación con IA para suplantar las voces de sus seres queridos y robar millones en sofisticadas estafas con deepfakes.
Nada de esto impidió que los inversores de capital riesgo siguieran invirtiendo dinero. ElevenLabs ha recaudado más de 300 millones de dólares en total, alcanzando una valoración de 6.600 millones de dólares en octubre y convirtiéndose en una de las startups más valiosas de Europa. Staniszewski, de 30 años, que ejerce de director ejecutivo (la empresa no tiene cargos tradicionales), y el director de investigación Dabkowski, de 30 años, son ahora multimillonarios, con un patrimonio de algo más de mil millones de dólares cada uno, según las estimaciones de Forbes.
Aproximadamente la mitad de los 193 millones de dólares de ingresos de ElevenLabs en los últimos 12 meses proviene de empresas como Cisco, Twilio y la agencia de contratación suiza Adecco, que utilizan su tecnología para atender llamadas de atención al cliente o entrevistar a solicitantes de empleo. Epic Games la utiliza para dar voz a los personajes de Fortnite, incluyendo una charla con Darth Vader (con el consentimiento de los herederos de James Earl Jones). La otra mitad de sus ingresos proviene de los youtubers, podcasters y autores que fueron los primeros en adoptar la tecnología. «Cuando hablas con ellos, es alucinante lo buenos que son», afirma el analista de Gartner Tom Coshow. A diferencia de la mayoría de las empresas de IA, ElevenLabs es rentable, con unos beneficios estimados de 116 millones de dólares en los últimos 12 meses (un margen del 60%).
Ahora compite con gigantes como Google, Microsoft, Amazon y OpenAI para convertirse en la voz de facto de la IA. No es un espacio nuevo: las empresas tecnológicas comenzaron a desarrollar productos para escuchar, transcribir y generar voz hace aproximadamente una década. Aunque para Microsoft es algo secundario, Satya Nadella estuvo dispuesto a desembolsar 20.000 millones de dólares para comprar Nuance, un servicio de transcripción de voz que cotiza en el Nasdaq, en marzo de 2022. OpenAI lanzó su propia herramienta de voz, que puede introducir conversaciones humanas en ChatGPT, en octubre de 2024.
Pero el equipo de 300 personas de ElevenLabs no está tratando de ponerse al día. Sus modelos son tan buenos que puede permitirse cobrar hasta tres veces más que sus rivales estadounidenses. Su biblioteca de 10.000 voces con un sonido increíblemente humano es, con diferencia, la más grande y ahora incluye a estrellas de primera línea como Michael Caine y Matthew McConaughey. También es más fiable. La startup de entrenamiento de datos Labelbox probó seis de los mejores modelos de voz con un cuestionario de lectura y descubrió que ElevenLabs cometía la mitad de errores que su competidor más cercano, OpenAI. «Somos una de las pocas empresas que están por delante de OpenAI, no solo en voz, sino también en voz a texto y música. Eso es difícil», afirma Staniszewski. La receta de ElevenLabs es sencilla. Un grupo reducido de investigadores en aprendizaje automático, obsesionados con un problema concreto y con un presupuesto ajustado (los cofundadores adelantaron los primeros 100.000 dólares para la formación), impulsó los avances en los modelos. «Tener una gran capacidad de cálculo puede ser una maldición, porque no piensas en cómo resolverlo de forma inteligente», afirma Dabkowski.
Pero una demanda presentada por dos narradores de audiolibros apunta a otro ingrediente. Karissa Vacker y Mark Boyett alegan que ElevenLabs utilizó miles de audiolibros protegidos por derechos de autor para entrenar sus modelos. Afirman que se extrajeron tantos de sus libros que los clones de sus voces acabaron siendo opciones predeterminadas en ElevenLabs. El caso, en el que ElevenLabs negó haber cometido ninguna irregularidad, se resolvió extrajudicialmente en noviembre. (Vacker y Boyett no respondieron a una solicitud de comentarios; ElevenLabs se negó a hacer más comentarios).
La empresa está madurando. La compañía finalmente elaboró una lista de voces «prohibidas» (en su mayoría políticos y famosos) después de que se utilizara un clon de la voz de Joe Biden creado por ElevenLabs para desalentar el voto en una campaña de llamadas automáticas en torno a las primarias demócratas de 2024. ElevenLabs cuenta ahora con siete moderadores humanos a tiempo completo (además de la IA, por supuesto) que revisan sus clips en busca de usos indebidos. Las voces recién clonadas deben pasar una comprobación de conse ntimiento, y la empresa ofrece un detector de deepfakes gratuito.
Staniszewski y Dabkowski tienen grandes planes más allá de la voz. Tanto los creadores con poco dinero como las empresas de medios de comunicación conscientes de su presupuesto querían música de fondo libre de derechos de autor, por lo que en agosto lanzaron un generador de música con IA. ¿No tienes tiempo para grabar un vídeo? ElevenLabs tendrá avatares de IA para presentar vídeos al estilo Sora el año que viene. Su apuesta más audaz es que pueden traducir su experiencia para proporcionar un único centro para que los clientes gestionen todas sus herramientas de IA. «Estamos creando una plataforma que permite crear agentes de voz e implementarlos sin problemas», afirma Staniszewski.
Por supuesto, eso pone a ElevenLabs en una situación de colisión con un grupo de otras startups que esperan hacer lo mismo. Ayuda el hecho de que haya sido rentable desde sus inicios, pero sus competidores emergentes cuentan con una gran financiación y los gigantes tecnológicos tienen recursos prácticamente ilimitados. Aun así, debe innovar. Los modelos de voz pronto se convertirán en un producto básico. Cuando otros modelos le alcancen, los clientes volubles que ya se resisten a los precios de ElevenLabs probablemente se cambiarán.
A medida que se expande más allá de las voces hacia música y vídeo, que requieren un mayor esfuerzo computacional, ElevenLabs necesita ampliar sus propias granjas de GPU para mantenerse en la carrera. Ya ha invertido 50 millones de dólares en un proyecto de centro de datos en Oregón. «Si queremos construir la empresa generacional en IA, hay que crecer, y eso es lo que estamos haciendo», afirma Staniszewski.
En Polonia, el envejecido cuerpo de lectores sigue en activo, por ahora. Dabkowski no ha olvidado el argumento original de ElevenLabs y presume de que su próximo modelo traducirá y doblará una película entera de una sola vez. «Nunca renunciamos a nuestras misiones», afirma.
