Ensayos

Solo disponible en BuenasTareas
  • Páginas : 5 (1097 palabras )
  • Descarga(s) : 7
  • Publicado : 27 de junio de 2010
Leer documento completo
Vista previa del texto
Análisis de voz
En otros apartados de este Tutorial, hemos visto varias herramientas utilizadas para determinar características importantes de la voz, como la energía y la duración, y donde se destacan los análisis relacionados con el dominio de la frecuencia: el espectro, el espectrograma, y la entonación.
En las tareas de reconocimiento y de síntesis, la voz es parametrizada, lo que implicadividir la señal de voz en intervalos cortos, llamados segmentos, y representar cada segmento mas concisamente por un conjunto limitado de valores o parámetros. Esto no solo es recomendable por reducir el volumen de datos requeridos para representar la voz, sino que además, el dominio frecuencial es más efectivo para distinguir los sonidos.
Hay una gran variedad de formas de párametrizar la voz,pero los más notables son:
- LPC (Codificación de Predicción Lineal)
- Cepstro
- Banco de Filtros
Reconocimiento de voz. Introducción
El reconocimiento de la voz constituye una parte importante del tratamiento del habla. Las técnicas de reconocimiento más desarrolladas son aquellas comúnmente usadas para el idioma inglés, las cuales incluyen el Análisis de Predicción Lineal (LPC) y elAlineamiento Temporal (DTW), estos algoritmos han tenido éxito habiendo sido sometidos a pruebas bajo diversos ambientes.
Debe tenerse en cuenta la importancia de desarrollar estas técnicas para el idioma español pues las características lingüísticas difieren de forma marcada cuando se requiera llevar hacia un reconocimiento más completo. El enfoque que se ha dado en un principio ha sido el de reconocerpalabras aisladas, es decir, que las palabras se pronuncien entre pausas pequeñas de tal forma que el procesamiento se realiza teniendo como unidades lingüísticas las palabras de un vocabulario específico. Las unidades lingüísticas de cualquier idioma vienen a ser más bien los fonemas y los dífonos por lo tanto un enfoque en este sentido sería tal vez más apropiado si es que se desea llegar avocabularios más extensos. Sin embargo el desarrollo aquí descrito puede considerarse en aplicaciones donde el vocabulario no exceda de 50 palabras.
Como ya se vio en el tema de la voz existe un modelo que describe el proceso del habla clasificando las señales en dos tipos:
Señales sonoras que se caracterizan por tener alta energía y contenido frecuencial en el rango de los 300 Hz a 4000 Hz, lascuales se generan por intermedio de las cuerdas vocales y además presentan cierta periodicidad como se muestra en la figura siguiente.
[pic]
Señales sordas también conocidas como fricativas que se caracterizan por tener baja energía y componente frecuencial uniforme presentando aleatoriedad en forma de ruido blanco se muestra en la figura siguiente.
[pic]

El tracto vocal modelado se manifiestacomo un filtro variable en el tiempo cuyos parámetros varían en el tiempo en función de la acción consciente que se realiza al pronunciar una palabra.
El filtro variable en el tiempo tiene dos posibles señales de entrada que dependerán del tipo de señal, sonora o sorda (no sonora). Para señales sonoras la excitación será un tren de impulsos de frecuencia controlada, mientras que para las señalesno sonoras la excitación será ruido aleatorio.
La combinación de estas señales modelizan el funcionamiento de la glotis. El espectro de frecuencias de la señal vocal puede obtenerse a partir del producto del espectro de la excitación por la repuesta en frecuencia del filtro.
El tracto vocal manifiesta un número muy grande de resonancias, sin embargo se consideran solo las tres o cuatro primerasque toman el nombre de 'formantes' (ver en voz) y cubren un rango de frecuencias entre 100 y 3500 Hz. Esto es debido a que las resonancias de alta frecuencia son atenuadas por la característica frecuencial del tracto que tiende a actuar como un filtro pasabajo con una caída de aproximadamente -12 dB por octava.
Este modelo es una simplificación del proceso del habla. Los sonidos fricativos no...
tracking img