Categorías: Sin categoría

Microsoft anunció VALL-E, su nueva IA capaz de simular la voz

Microsoft anunció VALL-E, su nueva IA que es capaz de simular la voz tras escuchar una muestra de audio de solo tres segundos.

A día de hoy, tenemos entre nosotros un buen número de IA que han demostrado su utilidad y variedad. Por ejemplo, tenemos IA que son capaces de escribir textos sobre cualquier cosa que les preguntes.

También hay chatbots con los que podemos conversar e incluso hubo casos donde se creía que eran personas reales. Tampoco podemos olvidarnos de las populares IA que crean imágenes a través de texto, como DALL-E, Midjourney o Stable Diffusion.

Este pasado jueves, los investigadores de Microsoft presentaron un nuevo modelo IA enfocado a convertir fragmentos de texto a voz. Así de primeras no parece muy novedoso, pues desde años ya existen las típicas voces robóticas de Windows para leer textos.

Pero a diferencia de estos TTS, la nueva IA llamada VALL-E simulará de forma realista la voz de una persona. Además, no solo se quedará con el tono de una voz concreta, sino que una vez aprendida, representará las emociones que dependerán del texto y palabras empleadas.

Microsoft anuncia que la nueva IA VALL-E se podrá utilizar en aplicaciones de conversión de texto a voz de alta calidad, edición de voz y creación de contenido al combinarla con otras IA como GPT-3.

Realmente si el resultado es bueno, podemos imaginarnos un sinfín de usos, donde podría ser empleada como doblaje de juegos que solo tienen texto para audiolibros o incluso para estudiar, al simular nuestra propia voz.

La IA se ha entrenado con 60.000 horas y más de 7.000 voces

Los investigadores de Microsoft aclaran que la IA VALL-E es un «modelo de lenguaje de códec neural», el cual se basa en una tecnología denominada EnCodec, anunciada por Meta en 2022.

A diferencia de otros métodos que manipulan las formas de onda para simular la voz, VALL-E genera códigos de códec de audio a partir de texto e instrucciones acústicas.

Tras analizar el tono de voz de una persona, descompone su información en tokens y usa los datos de entrenamiento para simular la voz de una persona en tan solo 3 segundos. Tras esto, intentará reproducir este tono de voz en cualquier frase o texto que le indiquemos.

Para su entrenamiento, Microsoft empleó una biblioteca de audio de Meta, llamada LibriLight. Esta contiene 60.000 horas de habla inglesa por parte de más de 7.000 locutores.

Eso sí, no todo es perfecto, pues para simular tu voz en solo 3 segundos, esta debe ser parecida a las de los datos de entrenamiento.

Si tenemos curiosidad sobre el resultado, hay docenas de demostraciones sobre como se escucha esta IA. Tenemos así la muestra «Speaker Prompt» que hace referencia al audio de 3 segundos y el «Ground Truth» donde pronuncia una frase concreta. Por último, tenemos «VALL-E» como la muestra final de como es el resultado al utilizar esta IA de Microsoft.

Fuente: elchapuzasinformatico.com

Silvia Chavela

Entradas recientes

Acciones de tecnología de red avanzan pese a temores de burbuja en IA

El mercado bursátil en Estados Unidos mantiene el foco en las acciones de tecnología de…

3 horas hace

Tecnología ayuda a gobiernos a operar con enfoque empresarial

Los gobiernos en Estados Unidos están replanteando la forma en que administran su infraestructura digital…

3 horas hace

Nueva tecnología háptica permite ver y sentir gráficos 3D

Investigadores de la Universidad de California en Santa Bárbara (UCSB) desarrollaron una pantalla háptica 3D…

3 horas hace

Australia aplica tecnología para bloquear a menores en redes sociales

Australia dio un paso inédito en regulación digital al poner en marcha tecnología obligatoria para…

3 horas hace

La NFL redefine estándares de seguridad

La NFL avanza en Estados Unidos hacia un nuevo modelo de seguridad para sus jugadores…

4 horas hace

Empresas reinvierten productividad generada por IA

La inteligencia artificial dejó de ser una promesa para convertirse en una palanca real de…

4 horas hace