Electrónica

Páginas: 20 (4756 palabras) Publicado: 11 de noviembre de 2012
REPRESENTACIÓN DE LA VOZ EN EL RECONOCIMIENTO DEL HABLA

Página 1 de 7

Representación de la voz en el reconocimiento del habla
Voice representation in speech recognition
Climent Nadeu
Para reconocer el habla de forma automática se requiere una representación paramétrica de la voz que retenga sus
características relevantes. En este artículo se exponen las ideas básicas del proceso deextracción de dichas características
a partir de la señal de voz recogida por el micrófono, indicando las propiedades de producción y percepción de la voz que
están en juego y fijándose particularmente en la consecución de representaciones robustas al entorno.
Automatic speech recognition requires a parametric representation of the speech signal which carries its relevant
features. In this paper,the basic ideas underlying the process of feature extraction from the speech signal are described,
the involved properties of voice production and perception are summarised, and a particular attention is payed to
environmental robust techniques.

Los sistemas informáticos que permiten interacción oral con el usuario van ganando, lentamente, en
prestaciones y en naturalidad. Así, en nuestravida cotidiana se nos irán haciendo cada vez más
familiares acciones como el control de un dispositivo mediante órdenes orales o el acceso a un
servicio de información dialogando con el sistema. Y, a más largo plazo, veremos cómo la voz
sustituye en gran medida al teclado, o el asistente personal digital nos traduce lo que está diciendo
nuestro interlocutor humano.
Todas estas aplicacionesrequieren que el sistema sea capaz de convertir la voz captada por un
micrófono en una secuencia de palabras, proceso que se denomina reconocimiento del habla. Dicha
secuencia puede ser el resultado final que se persigue, como en el caso del dictado automático, o
bien la entrada a una etapa de procesamiento posterior que permita comprender el significado de lo
que está diciendo el usuario.
Lossistemas actuales de reconocimiento automático representan el habla mediante modelos
estadísticos (modelos de Markov ocultos) de las unidades fonéticas elementales (normalmente
fonemas contextuales), así como de las relaciones que se establecen entre dichas unidades para
componer las palabras (transcripciones fonéticas) y entre las palabras para componer las frases
(gramática). Con estos modelosestadísticos, y mediante el cálculo de probabilidades, se estima la
secuencia de palabras que ha sido pronunciada. La comprensión del habla utiliza adicionalmente el
conocimiento semántico del dominio de la aplicación para captar el significado de la elocución de
entrada al sistema a partir de la cadena (o cadenas alternativas) de palabras que suministra el
reconocedor.
La inmensa mayoría desistemas de reconocimiento actuales se basan en modelos estadísticos
obtenidos con algoritmos de aprendizaje o entrenamiento que extraen las características del habla
implícitamente contenidas en grandes bases de datos orales (y también textuales, para entrenar las
gramáticas), convenientemente transcritas y etiquetadas.
Como se comprenderá, para que el sistema ofrezca una buena tasa dereconocimiento, debe existir
una correspondencia entre la base de datos de entrenamiento y la tarea que deberá abordar el
reconocedor cuando esté funcionando. Por ejemplo, para entrenar adecuadamente modelos de las
unidades fonéticas elementales, dichas unidades deben aparecer un número suficiente de veces en la
base de aprendizaje y en variedad de contextos. Si se quiere que el sistema sirva paracualquier
hablante de un idioma o dialecto (sistema independiente del locutor), la base de datos de aprendizaje
deberá contener las voces de un número elevado de locutores (por ejemplo 5000 en las bases
SPEECHDAT recogidas para la mayoría de lenguas de la Europa occidental).
Puesto que la voz consiste en una secuencia de sonidos elementales diferenciados, el cálculo de
probabilidad que...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • Electronica
  • Electron
  • Electronica
  • Electronica
  • Electronica
  • Electronica
  • Electronica
  • Electrones

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS