Procesado de Sonido
´
Indice
1. Producci´n de la se˜ al de voz
o
n
4
2. Percepci´n de la se˜ al de voz
o
n
6
2.1. Nivel de presi´n sonora y umbral auditivo . . . . . . . . . . . . . . .
o
7
2.2. Algunas relaciones entre magnitudes f´
ısicas y psicoac´sticas . . . . . .
u
7
2.2.1. Intensidad sonora (o presion sonora) vs Sensaci´n sonora (Loudo
ness). . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . .
7
2.2.2. “Pitch” vs frecuencia fundamental. . . . . . . . . . . . . . . .
9
2.3. Enmascaramiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4. Bandas cr´
ıticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4.1. Enmascaramiento simult´neo . . . . . . . . . . . . . . . . . . 13
a
2.4.2. Enmascaramiento nosimult´neo . . . . . . . . . . . . . . . . . 15
a
3. An´lisis localizado de la se˜ al de voz
a
n
3.1. Enventanado
16
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.2. An´lisis trama a trama . . . . . . . . . . . . . . . . . . . . . . . . . . 18
a
3.3. Par´metros temporales de la se˜al de voz . . . . . . . . . . . . . . . . 20
a
n
3.3.1. Energ´ localizada(Short-time Energy) . . . . . . . . . . . . . 20
ıa
3.3.2. Tasa de cruces por cero (Short-time Zero Crossing Rate, ZCR) 20
3.3.3. Funci´n de autocorrelaci´n localizada (Short-time autocorreo
o
lation function) . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.4. Caracter´
ısticas espectrales . . . . . . . . . . . . . . . . . . . . . . . . 21
4. Predicci´n lineal
o
22
4.1.Estimaci´n de los LPC . . . . . . . . . . . . . . . . . . . . . . . . . . 25
o
4.2. El algortimo de Levinson-Durbin . . . . . . . . . . . . . . . . . . . . 26
4.3. Predicci´n lineal de las se˜ales de voz . . . . . . . . . . . . . . . . . . 26
o
n
4.4. Predictor largo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.4.1. Tramas y subtramas . . . . . . . . . . . . . . . . . . . . .. . 28
4.4.2. Res´
ıntesis de la se˜al de voz a partir de los LPCs . . . . . . . 28
n
2
4.4.3. Pre´nfasis de la se˜al de voz . . . . . . . . . . . . . . . . . . . 29
e
n
4.4.4. Expansi´n del ancho de banda (Bandwidth expansion) . . . . 29
o
4.5. Cesptrum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.6. Mel-Frequency Cepstrum . . . . . . . . . . . . . . . . .. . . . . . . . 32
5. Bibliograf´
ıa
33
3
1.
Producci´n de la se˜ al de voz
o
n
La respiraci´n normal genera sonidos pr´cticamente imperceptibles porque el
o
a
aire expelido por los pulmones pasa a traves de la laringe y del tracto vocal sin
encontrar ning´n obst´culo.
u
a
El sonido articulado se genera cuando el camino se estrecha o se ocluye totalmente, convirtiendo elflujo normal de aire en una turbulencia o en “pulsos” de
aire.
En la laringe se encuentran las cuerdas vocales que pueden obstruir parcial
o completamente el flujo de aire. La laringe es un conjunto de cuatro cart´
ılagos
(tiroides, cricoide, aritenoide y epiglotis) unidos por ligamentos y membranas. La
epiglotis sirve para cubrir el resto de la laringe cuando se ingiere alimento. En elinterior de la laringe se encuentran las cuerdas vocales que son dos tendones con un
reborde interior es un poco m´s grueso. El espacio vac´ entre las cuerdas vocales
a
ıo
se denomina glotis. Las cuerdas vocales son t´
ıpicamente de 15 mm en los hombres
y de 13 mm en las mujeres. Por medio de contracciones musculares se puede variar
su longitud y grosor y pueden adoptar diferentes posicionesDurante la respiraci´n normal las cuerdas vocales permanecen lo bastante sepo
aradas para no producir ning´n sonido.
u
En los sonidos sonoros las cuerdas vocales son lo bastante el´sticas y est´n lo
a
a
suficientemente cerca para que vibren con le flujo de aire. La frecuencia de vibraci´n
o
es la denominada frecuencia fundamental y depende del individuo. En hombres
t´
ıpicamente var´...
Regístrate para leer el documento completo.