Categorías: Sin categoría

Microsoft anunció VALL-E, su nueva IA capaz de simular la voz

Microsoft anunció VALL-E, su nueva IA que es capaz de simular la voz tras escuchar una muestra de audio de solo tres segundos.

A día de hoy, tenemos entre nosotros un buen número de IA que han demostrado su utilidad y variedad. Por ejemplo, tenemos IA que son capaces de escribir textos sobre cualquier cosa que les preguntes.

También hay chatbots con los que podemos conversar e incluso hubo casos donde se creía que eran personas reales. Tampoco podemos olvidarnos de las populares IA que crean imágenes a través de texto, como DALL-E, Midjourney o Stable Diffusion.

Este pasado jueves, los investigadores de Microsoft presentaron un nuevo modelo IA enfocado a convertir fragmentos de texto a voz. Así de primeras no parece muy novedoso, pues desde años ya existen las típicas voces robóticas de Windows para leer textos.

Pero a diferencia de estos TTS, la nueva IA llamada VALL-E simulará de forma realista la voz de una persona. Además, no solo se quedará con el tono de una voz concreta, sino que una vez aprendida, representará las emociones que dependerán del texto y palabras empleadas.

Microsoft anuncia que la nueva IA VALL-E se podrá utilizar en aplicaciones de conversión de texto a voz de alta calidad, edición de voz y creación de contenido al combinarla con otras IA como GPT-3.

Realmente si el resultado es bueno, podemos imaginarnos un sinfín de usos, donde podría ser empleada como doblaje de juegos que solo tienen texto para audiolibros o incluso para estudiar, al simular nuestra propia voz.

La IA se ha entrenado con 60.000 horas y más de 7.000 voces

Los investigadores de Microsoft aclaran que la IA VALL-E es un «modelo de lenguaje de códec neural», el cual se basa en una tecnología denominada EnCodec, anunciada por Meta en 2022.

A diferencia de otros métodos que manipulan las formas de onda para simular la voz, VALL-E genera códigos de códec de audio a partir de texto e instrucciones acústicas.

Tras analizar el tono de voz de una persona, descompone su información en tokens y usa los datos de entrenamiento para simular la voz de una persona en tan solo 3 segundos. Tras esto, intentará reproducir este tono de voz en cualquier frase o texto que le indiquemos.

Para su entrenamiento, Microsoft empleó una biblioteca de audio de Meta, llamada LibriLight. Esta contiene 60.000 horas de habla inglesa por parte de más de 7.000 locutores.

Eso sí, no todo es perfecto, pues para simular tu voz en solo 3 segundos, esta debe ser parecida a las de los datos de entrenamiento.

Si tenemos curiosidad sobre el resultado, hay docenas de demostraciones sobre como se escucha esta IA. Tenemos así la muestra «Speaker Prompt» que hace referencia al audio de 3 segundos y el «Ground Truth» donde pronuncia una frase concreta. Por último, tenemos «VALL-E» como la muestra final de como es el resultado al utilizar esta IA de Microsoft.

Fuente: elchapuzasinformatico.com

Silvia Chavela

Entradas recientes

México avanza como potencia global en turismo médico

Al cierre de 2024, México atendió cerca de 1.4 millones de pacientes provenientes de Estados…

4 horas hace

La inteligencia artificial como palabra clave del cibercrimen moderno

El nombre de Vyacheslav Penchukov —mejor conocido en la red como “Tank”— aparece cuando hablamos…

5 horas hace

Tecnología premium en maquinaria agrícola impulsa eficiencia con agricultura de precisión

El campo argentino vive una transformación acelerada gracias a una ola de tecnología aplicada a…

5 horas hace

Apple redefine Siri con inteligencia artificial sin mencionar a Google

La próxima evolución de Siri avanza con una estrategia tan sorprendente como calculada. Apple prepara…

5 horas hace

La tecnología que da voz con la mirada revoluciona la inclusión digital

Hablar sin mover un solo músculo se vuelve posible gracias a una innovación desarrollada en…

5 horas hace

Las mejores apps para iPhone que todo viajero en Europa debe tener

Descubrir Europa con solo una mochila y un iPhone es más fácil que nunca. Si…

10 horas hace