Sopitas.- Mucho hemos platicado —y nos hemos sorprendido— de los avances brutales en Inteligencia Artificial (IA) que nos encontramos en los últimos meses. Ya sean imágenes que ganan concursos de arte, retratos digitales o creadores de texto que nos podrían quitar el trabajo, estamos frente a un momento de locura total en la tecnología que, por supuesto, también tiene sus riesgos.
Y así fue que, hablando de softwares que nos dieron ñáñaras, queremos contarles de VALL-E.
Esta nueva IA desarrollada por Microsoft agarró de sorpresa al mundo porque es capaz de imitar la voz de cualquier persona. ¿Lo más impresionante? Solamente necesita 3 segundos de audio para lograrlo.
VALL-E, la IA que imita tu voz
Esta nueva aventura de Microsoft, se llama VALL-E y técnicamente es un software de TTS —text to speech— que, en resumen, es la versión más avanzada de cualquier otro programa del estilo. Es la evolución de la voz de Waze, el traductor de Google o como aquella que se llamaba Loquendo, de los años mozos de YouTube.
Sin embargo, los avances se centran en que, en lugar de tener una voz predeterminada, necesita solo 3 segundos para poder imitar a cualquier persona.
Además, como si eso no fuera suficiente, es capaz de identificar emociones y presentar grabaciones con la entonación correcta.
¿Cómo lo logra? Pues, sin meternos mucho en el enredo técnico, esta IA analiza cómo suena la persona dividiendo el audio en pequeños instantes que llama ‘tokens’. Con eso a la mano, VALL-E obtiene muestras de las ondas de sonido personales y utiliza su entrenamiento para ‘autocompletar’ —con esos mismos patrones— cualquier frase que le pidas.
Ya saben, usa IA para ‘imaginarse’ cómo sonaría la misma voz… pero con cualquier otra frase.
Si les gustan las ciencias computacionales, acá les dejamos el paper original.
Volviendo al tema y para que se den una idea del tamaño de información con la que trabaja, VALL-E se entrenó con una base de datos de 60 mil horas de audio, con más de 7 mil voces diferentes. La mayoría de ellos, sacados de audiolibros de dominio público, todos gratuitos.
Las pruebas de VALL-E
La presentación de esta IA de Microsoft agarró al mundo de la tecnología por sorpresa. Entre la emoción, sus creadores hicieron un sitio en el que puedes escuchar casi 50 pruebas de audio distintas.
Algunas toman solo 3 segundos de una plática y crean una frase completamente distinta.
Otras veces, toman una sola frase y VALL-E modifica el audio para que la persona diga las cosas con tonos enojados, con sueño, divertidos o con asco. Está impresionante.
El sitio de las pruebas lo pueden ENCONTRAR AQUÍ o acá abajo les compartimos un video de alguien navegándolo:
Ahora bien, los creadores de esta IA en Microsoft saben de las broncas éticas en los que se están metiendo.
VALL-E de Microsoft está bloqueada
Los creadores de VALL-E saben que la posibilidad de imitar cualquier voz, para que las personas —presidentes, políticos, o tu ex— digan cualquier otra cosa que no dijeron, es tremendamente preocupante.
Hasta el momento, todas las voces que se usaron en las pruebas, lo hicieron con su consentimiento y el código de esta IA se encuentra bloqueado.
A diferencia de otras IA que podemos probar nosotros mismos, como ChatGPT o Midjourney, el caso de VALL-E es importante que se utilice con mucho —pero mucho— cuidado.
Se supone que esta IA podría ayudar en aplicaciones educativas, en grabaciones personales para completar frases que no se escucharon bien o en modelos de audio avanzados, pero habrá que llevársela con calmita.