Reconocimiento De Voz Con Sphinx-4

Páginas: 35 (8590 palabras) Publicado: 4 de mayo de 2012
Reconocimiento de voz con sistemas basados en HMM:
CMU SPHINX-3 y SPHINX-4
______________________________________________________________
1. Introducción
En esta práctica, usted aprenderá a utilizar un sistema completo de reconocimiento de voz basado en modelos HMM. Este tipo de sistemas, como tantos otros, es un clasificador de patrones estadísticos. Asocia un modelo HMM con cada unidad desonido. Aprende primero los parámetros de estos modelos HMM y luego utiliza los HMM para hallar la secuencia más probable de unidades de sonido de una determinada señal de voz.
El proceso de aprendizaje de los parámetros se denomina entrenamiento. El proceso de utilización de éstos, para deducir la secuencia más probable de unidades de una determinada señal, se conoce como decodificación, osimplemente reconocimiento. En consecuencia, un sistema de reconocimiento presenta dos componentes principales: un entrenador y un decodificador. En esta práctica, aprenderá a utilizar el entrenador del sistema SPHINX-3, diseñado en Carnegie Mellon University y escrito en el lenguaje de programación C, además del decodificador del sistema SPHINX-4, un sistema de código abierto de última generación,escrito en el lenguaje de programación JAVA. Dado que SPHINX-4 es un sistema de desarrollo (al que usted también puede contribuir) aprenderá a utilizar el decodificador en su estado más reciente en el momento de su ejercicio de prácticas.
El propósito de esta práctica es ayudarle a que se centre en varias cuestiones importantes relacionadas con el uso de un sistema de ASR basado en HMM y a queobtenga una visión de estado actual de la tecnología de reconocimiento basada en HMM.
2. Lo que le facilitaremos
Le facilitaremos todo lo que necesite de fuentes externas para el entrenamiento y la decodificación. No obstante, tendrá que entrenar sus propios modelos acústicos para decodificar. Este ejercicio de prácticas le guiará en los pasos necesarios.
1
Componentes facilitados para elentrenamiento
El entrenador SPHINX-3 que le facilitaremos consta de un grupo de programas en C que se han compilado para su sistema operativo (Linux). Para el entrenamiento sólo debe utilizar los ejecutables precompilados del sistema. Le damos el código fuente para su información, para quienes tengan curiosidad por los aspectos del software de SPHINX o deseen implementar cualquier pequeña modificación enel código basándose en sus ideas. En esta práctica no es necesario que trabaje con el código fuente.
El entrenador aprende los parámetros de los modelos de las unidades de sonido utilizando un grupo de señales de muestras de habla. Estas señales constan de una base de datos de entrenamiento. Le proporcionaremos una base de datos de entrenamiento compuesta por 1600 señales de voz. El entrenadornecesita también que le informen de qué unidades de sonido deben aprender los parámetros, y por lo menos, una secuencia en las que éstas podrían haber aparecido en cada señal de voz de su base de datos de entrenamiento. Esta información se le facilita al entrenador a través de un archivo denominado archivo de transcripción, en el que la secuencia de palabras y sonidos no discursivos se escribenexactamente como aparecían en la señal de voz, seguidos por una etiqueta que puede utilizarse para asociar esta secuencia con la señal de voz correspondiente.
Entonces, el entrenador busca un diccionario que asocie cada palabra con al menos una secuencia de unidades de sonido, para derivar una secuencia de unidades de sonido asociadas con cada señal. Por tanto, además de las señales de voz, también ledaremos un grupo de transcripciones para la base de datos (en un único archivo) y dos diccionarios, uno en el que las palabras legítimas de la lengua sean secuencias asociadas de unidades de sonido (o unidades de subpalabra), y otro en el que los sonidos no discursivos estén asociados con las correspondientes unidades de sonido discursivas o no discursivas. Nos referiremos al primero como el...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • Reconocimiento de Voz
  • Reconocimiento de voz
  • Reconocimiento De Voz
  • Reconocimiento De Voz
  • reconocimiento de voz
  • Reconocimiento De Voz
  • Reconocimiento de personas por voz
  • Reconocimiento De Comandos De Voz Por Matlab

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS