Avances

La llegada del DeepSpeech

La tecnología de voz está en su punto más alto y parece haber alcanzado bastante popularidad entre los usuarios y a pesar de que en un principio el avance era lento y solo se usaba unas cuantas palabras, ahora el software de reconocimiento de voz es mucho más inteligente y con ello trajo a Siri y Alexa para cambiar el mundo.

Esto consiste en que se usa DeepSpeech 0.7.0 es una implementación de TensorFlow, el cual hace uso de la arquitectura de DeepSpeech de Baidu, que es la que  permite hacer reconocimiento automático de voz.

Código abierto

El navegador Mozilla es el que ha estado  trabajado en este proyecto, de código abierto, desde el año 2016, donde su versión más reciente fue en el  2017 y para diciembre del 2019 llegó con la versión 0.6.0 y que existía  pero esta tenia un problema ya que no era compatible hacia atrás, es decir, cada versión obligaba a los desarrolladores a dejar el trabajo hecho anteriormente y adecuarlo a las posibilidades tecnológicas.

Sin embargo, lo que se está buscando con DeepSpeech, es crear un motor de reconocimiento del habla que sea simple, abierto y ubícuo, de manera más sencilla de explicar se busca un motor que no use hardware de servidores para poderse ejecutar, como en el caso de otros desarrollos de redes neuronales.

Además de que busca ser abierto, usando para ello la Licencia Pública de Mozilla y, ser ubícuo, significa que el motor pueda ejecutarse en tantas plataformas e idiomas diferentes.

Todo esto se basó en la arquitectura del software la cual está basada originalmente en la desarrollada por Baidu. Por lo que hoy en día el motor de Mozilla contienen el  núcleo que usa una RNN (una red neuronal recurrente), la cual ha sido entrenada con espectrogramas y transcripciones de texto generadas en inglés.

Pero el DeepSpeech se compone de dos subsistemas principales: un modelo acústico y un decodificador, siendo que el primero es una red neuronal que recibe las características del audio como entras, y las probabilidades de los caracteres de salida.

En el caso del decodificador usa un algoritmo de búsqueda que transforma las probabilidades de los caracteres en transcripciones textuales que es lo que termina siendo el resultado final y lo que nosotros recibimos.

 

 

Mundo Tech

Entradas recientes

¿Cuál es el mejor procesador para la alimentación complementaria? La tecnología que conserva más nutrientes para tu bebé

Cuando llega el momento de iniciar la alimentación complementaria, muchos padres descubren que no todos…

21 horas hace

México sigue ganándole a la IA… en algo que las máquinas aún no pueden copiar

La inteligencia artificial ya escribe textos, genera imágenes, compone canciones y hasta puede crear videos…

21 horas hace

Pagos por SPEI crecen en México, destaca Norman Hagemeister

Durante 2025, el Sistema de Pagos Electrónicos Interbancarios (SPEI) ganó terreno frente al efectivo y…

23 horas hace

la increíble tecnología natural que mantiene con vida a un bebé antes de nacer

Mucho antes de que existieran incubadoras, monitores médicos o tratamientos avanzados para recién nacidos, la…

2 días hace

Las papas que ya no necesitan aceite

Durante décadas, preparar papas fritas significó una cosa: aceite caliente. Sin embargo, la industria alimentaria…

2 días hace

Seguritech: ¿Proveedor de seguridad o integrador de misión crítica?

La convergencia entre inteligencia de datos, telecomunicaciones y monitoreo avanzado está redefiniendo la manera en…

2 días hace