Categorías: Sin categoría

Microsoft anunció VALL-E, su nueva IA capaz de simular la voz

Microsoft anunció VALL-E, su nueva IA que es capaz de simular la voz tras escuchar una muestra de audio de solo tres segundos.

A día de hoy, tenemos entre nosotros un buen número de IA que han demostrado su utilidad y variedad. Por ejemplo, tenemos IA que son capaces de escribir textos sobre cualquier cosa que les preguntes.

También hay chatbots con los que podemos conversar e incluso hubo casos donde se creía que eran personas reales. Tampoco podemos olvidarnos de las populares IA que crean imágenes a través de texto, como DALL-E, Midjourney o Stable Diffusion.

Este pasado jueves, los investigadores de Microsoft presentaron un nuevo modelo IA enfocado a convertir fragmentos de texto a voz. Así de primeras no parece muy novedoso, pues desde años ya existen las típicas voces robóticas de Windows para leer textos.

Pero a diferencia de estos TTS, la nueva IA llamada VALL-E simulará de forma realista la voz de una persona. Además, no solo se quedará con el tono de una voz concreta, sino que una vez aprendida, representará las emociones que dependerán del texto y palabras empleadas.

Microsoft anuncia que la nueva IA VALL-E se podrá utilizar en aplicaciones de conversión de texto a voz de alta calidad, edición de voz y creación de contenido al combinarla con otras IA como GPT-3.

Realmente si el resultado es bueno, podemos imaginarnos un sinfín de usos, donde podría ser empleada como doblaje de juegos que solo tienen texto para audiolibros o incluso para estudiar, al simular nuestra propia voz.

La IA se ha entrenado con 60.000 horas y más de 7.000 voces

Los investigadores de Microsoft aclaran que la IA VALL-E es un «modelo de lenguaje de códec neural», el cual se basa en una tecnología denominada EnCodec, anunciada por Meta en 2022.

A diferencia de otros métodos que manipulan las formas de onda para simular la voz, VALL-E genera códigos de códec de audio a partir de texto e instrucciones acústicas.

Tras analizar el tono de voz de una persona, descompone su información en tokens y usa los datos de entrenamiento para simular la voz de una persona en tan solo 3 segundos. Tras esto, intentará reproducir este tono de voz en cualquier frase o texto que le indiquemos.

Para su entrenamiento, Microsoft empleó una biblioteca de audio de Meta, llamada LibriLight. Esta contiene 60.000 horas de habla inglesa por parte de más de 7.000 locutores.

Eso sí, no todo es perfecto, pues para simular tu voz en solo 3 segundos, esta debe ser parecida a las de los datos de entrenamiento.

Si tenemos curiosidad sobre el resultado, hay docenas de demostraciones sobre como se escucha esta IA. Tenemos así la muestra «Speaker Prompt» que hace referencia al audio de 3 segundos y el «Ground Truth» donde pronuncia una frase concreta. Por último, tenemos «VALL-E» como la muestra final de como es el resultado al utilizar esta IA de Microsoft.

Fuente: elchapuzasinformatico.com

Silvia Chavela

Entradas recientes

Jubilee Casino impulsa sostenibilidad con Logrand Entertainment Group

La sostenibilidad se ha convertido en un pilar esencial en el sector del entretenimiento, y…

6 horas hace

Los videojuegos más jugados en PlayStation Plus

El catálogo de PlayStation Plus sigue marcando tendencias en México, donde la comunidad gamer mantiene…

7 horas hace

Meta impulsa anunciantes con nuevas herramientas de IA

Meta presentó en Estados Unidos una serie de herramientas de inteligencia artificial que buscan transformar…

7 horas hace

Soledad y redes sociales, un vínculo que preocupa

La vida digital en México no solo conecta a millones de usuarios, también plantea nuevos…

7 horas hace

Víctor González Herrera apoya a niñez mexicana para entrenarse en la NASA

La Fundación del Dr. Simi cumplirá el sueño de 145 niños y niñas interesados en…

8 horas hace

Amazon revoluciona el mercado con su nueva marca de comestibles

Amazon sorprendió a Estados Unidos al lanzar una línea de productos de supermercado que promete…

11 horas hace