Categorías: Sin categoría

Microsoft anunció VALL-E, su nueva IA capaz de simular la voz

Microsoft anunció VALL-E, su nueva IA que es capaz de simular la voz tras escuchar una muestra de audio de solo tres segundos.

A día de hoy, tenemos entre nosotros un buen número de IA que han demostrado su utilidad y variedad. Por ejemplo, tenemos IA que son capaces de escribir textos sobre cualquier cosa que les preguntes.

También hay chatbots con los que podemos conversar e incluso hubo casos donde se creía que eran personas reales. Tampoco podemos olvidarnos de las populares IA que crean imágenes a través de texto, como DALL-E, Midjourney o Stable Diffusion.

Este pasado jueves, los investigadores de Microsoft presentaron un nuevo modelo IA enfocado a convertir fragmentos de texto a voz. Así de primeras no parece muy novedoso, pues desde años ya existen las típicas voces robóticas de Windows para leer textos.

Pero a diferencia de estos TTS, la nueva IA llamada VALL-E simulará de forma realista la voz de una persona. Además, no solo se quedará con el tono de una voz concreta, sino que una vez aprendida, representará las emociones que dependerán del texto y palabras empleadas.

Microsoft anuncia que la nueva IA VALL-E se podrá utilizar en aplicaciones de conversión de texto a voz de alta calidad, edición de voz y creación de contenido al combinarla con otras IA como GPT-3.

Realmente si el resultado es bueno, podemos imaginarnos un sinfín de usos, donde podría ser empleada como doblaje de juegos que solo tienen texto para audiolibros o incluso para estudiar, al simular nuestra propia voz.

La IA se ha entrenado con 60.000 horas y más de 7.000 voces

Los investigadores de Microsoft aclaran que la IA VALL-E es un «modelo de lenguaje de códec neural», el cual se basa en una tecnología denominada EnCodec, anunciada por Meta en 2022.

A diferencia de otros métodos que manipulan las formas de onda para simular la voz, VALL-E genera códigos de códec de audio a partir de texto e instrucciones acústicas.

Tras analizar el tono de voz de una persona, descompone su información en tokens y usa los datos de entrenamiento para simular la voz de una persona en tan solo 3 segundos. Tras esto, intentará reproducir este tono de voz en cualquier frase o texto que le indiquemos.

Para su entrenamiento, Microsoft empleó una biblioteca de audio de Meta, llamada LibriLight. Esta contiene 60.000 horas de habla inglesa por parte de más de 7.000 locutores.

Eso sí, no todo es perfecto, pues para simular tu voz en solo 3 segundos, esta debe ser parecida a las de los datos de entrenamiento.

Si tenemos curiosidad sobre el resultado, hay docenas de demostraciones sobre como se escucha esta IA. Tenemos así la muestra «Speaker Prompt» que hace referencia al audio de 3 segundos y el «Ground Truth» donde pronuncia una frase concreta. Por último, tenemos «VALL-E» como la muestra final de como es el resultado al utilizar esta IA de Microsoft.

Fuente: elchapuzasinformatico.com

Silvia Chavela

Entradas recientes

Pasta dental hecha con cabellos podría reparar la dentadura

Una nueva investigación hecha por científicos de King’s College de Londres (KCL), en Reino Unido…

2 días hace

Multiva recibe la división fiduciaria de CIBanco por instrucción de Hacienda

La Secretaría de Hacienda y Crédito Público anunció que Banco Multiva será la institución que…

2 días hace

Buscan convertir basura y aguas residuales en biogás

Científicos del Instituto Politécnico Nacional (IPN) y de la Universidad Autónoma Metropolitana (UAM) trabajan en…

3 días hace

Península de Baja California se separa de México

La Península de Baja California se separa de México a un ritmo de centímetros por…

3 días hace

México será sede del STS Forum para América Latina y el Caribe

México anuncia que será el anfitrión del STS Forum (Science and Technology in Society Forum)…

3 días hace

Sam Altman financia una empresa de implantes cerebrales

Según relata el medio Financial Times, Altman estaría preparándose para financiar una startup rival de…

4 días hace