Procesamiento De Voz
El Procesamiento de Voz (Speech Processing) Es el estudio de las señales de voz y de todos aquellos métodos para procesar estas señales
Se le denomina digital ya que las señales de voz son llevadas a una computadora para su análisis y procesamiento.
El procesamiento de voz es un caso especial del Procesamiento Digital de Señales que se aplica a lasseñales de voz.
Por ejemplo la síntesis de voz (text-to-speech synthesis) puede utilizar un analizador sintáctico como entrada de texto y la salida de un sistema de reconocimiento de voz (speech recognition system) puede ser utilizada en técnicas de extracción de información.
El procesamiento de voz se puede dividir en las siguientes categorías:
* Reconocimiento de Voz : Trata con el análisis delcontenido lingüístico de una señal de voz.
* Reconocimiento de Locutor: Cuyo objetivo es reconocer la identidad del hablante
* Codificación de Voz: Técnicas de compresión de las señales de voz
* Análisis de Voz: Estudio de los sonidos y la voz para propósitos de contenido lingüístico, médico, forense, etc.
* Síntesis de Voz: Creación de voz artificial por medio de lacomputadora
* Mejoramiento de Voz: Técnicas para el mejoramiento de la inteligibilidad y/o la calidad en la percepción de las señales de voz.
ESPECTRO DE SEÑAL DE VOZ
Las características espectrales de la señal de voz son no estacionarias (el sistema físico cambia rápidamente).
El habla se puede dividir en segmentos de sonido con propiedades acústicas similares (en periodos cortos)
Siendo esta suprimera división:
* Vocales: No hay restricción al flujo de aire.
* Consonantes: Las cavidades se ven obstaculizadas por órganos articulatorios.
Los sonidos que preceden o siguen a uno dado afectan a dicho sonido (fenómenos de coarticulación).
Las limitaciones físicas en la producción y en el sistema auditivo hacen que la comunicación oral se limite a un ancho de banda de 7-8 KHz.
Encuanto a los espectros se puede observar lo siguiente:
* Sonidos vocálicos: se observa la presencia de una excitación periódica
* Sonidos sordos: no existe tal excitación.
En los dos casos aparecen regiones enfatizadas (resonancias), y deenfatizadas (antiresonancias).
Estas resonancias están causadas por las reflexiones del sonido en las cavidades del tracto vocal. Lo que quiere decir quecada tracto vocal esta caracterizado por un conjunto de resonancias.
Los articuladores determinan las propiedades del filtro del sistema de producción de voz.
Resonancias formantes (forman el espectro).
Teóricamente existen infinitos formantes de un sonido. En la práctica usamos entre tres y cinco.
Una parte importante de los esquemas de codificación de voz hacen uso extensivo del modelodigital de producción del habla, en el cual se linealiza el proceso de producción y se supone que la señal de voz es generada mediante la excitación de forma adecuada de un filtro que modela la envolvente del espectro de una señal de voz en segmentos cortos de entre 20 y 30 ms.
Aquí son unos ejemplos del espectro de algunas vocales:
FORMANTES DE VOZ
Los formantes son bandas de frecuencia dondese concentra la mayor parte de la energía
sonora de un sonido. Estas resonancias o formantes son descritos según tres parámetros: el centro de frecuencia, ancho de banda y energía. Al modificar la forma del tracto vocal se modifican estos tres elementos en diferente medida y por lo tanto la función de filtro y el sonido final cambiaran.
Los armónicos provenientes del sonido laríngeo seránreforzados o atenuados por estas resonancias o formantes. De esta forma, los armónicos cercanos a los valores formanticos serán más amplificados que los armónicos que se encuentren más alejados de los formantes.
Si el tracto vocal fuese un cilindro perfecto, cerrado en un extremo (cuerdas vocales) y abierto en el otro (apertura labial), de 17,5 cm de longitud, los cuatro primeros formantes...
Regístrate para leer el documento completo.