Reconocimiento de personas por voz

Solo disponible en BuenasTareas
  • Páginas : 7 (1556 palabras )
  • Descarga(s) : 0
  • Publicado : 26 de enero de 2011
Leer documento completo
Vista previa del texto
Jorge Luis Rojas Caicedo 0325096, Cesar Fernando Neira Peña 0325091

Proyecto # 3 Redes Neuronales
Reconocimiento de personas por voz utilizando red neuronal tipo Kohonen
Abstrac—El reconocimiento de voz ha llamado la atención desde hace mucho tiempo por sus múltiples aplicaciones para cuestiones de seguridad o para tareas en las que se quiere tener un servicio personalizado autónomo.Existen varios métodos que se apoyan en las múltiples características de la voz y que hacen una diferencia de persona a persona, en este trabajo se mostrara una aplicación cuyo objetivo es el de entregar el nombre del hablante con una capacidad de distinguir entre cuatro personas el método usado es la red neuronal tipo Kohonen cuya principal aplicación es la clasificación de información o elagrupamiento de patrones por clases.

Index Terms—Perceptron, Multicapa, Redes Neuronales Artificiales, BackPropagation, MLP, Matlab.
INTRODUCCIÓN

L
A voz juega un papel importante en la idea de tener una característica que distinga a una persona de otra. Existen varios factores que influyen en el habla y que le dan algo característico a cada individuo, como su sexo, su edad ó la región de la queproviene, estas características nos proveen patrones frecuenciales y temporales que facilitan el objetivo si se logra un método confiable de extracción, en este trabajo se verá como la herramienta decisiva es el CEPSTRUM, con el cual se identificaron elementos con los que se entreno una red neuronal tipo Kohonen, la cual, luego con su característica de clasificación se encargo de hacer laidentificación del hablante o un aviso de error en caso de que no se encuentre entre la base de datos la persona que esta intentando ser reconocida, se mostrara la metodología que se siguió y las múltiples pruebas que se hicieron hasta llegar a un método que diera buenos resultados por último se darán algunas recomendaciones y se resaltaran las características que tienen mayor influencia si se desearamejorar este método.

Procedimiento
El procedimiento básicamente se puede resumir con el siguiente diagrama de bloques:

Figura 1. Diagrama de bloques reconocedor de voz kohonen
La parte más importante fue la correspondiente al primer bloque, el preprocesamiento de voz ya que de este depende la extracción de los patrones adecuados para entrenar la red neuronal en la primera parte del programa,luego de tenerla entrenada se utilizara para preprocesar cada dato que se ingrese a ser identificado para darle a la red entradas validas para su procesamiento y clasificación. La metodología q se usó fue la siguiente en este primer bloque:

Lo primero es identificar el dato con el cual se trabajara en este caso se opto por trabajar con audios grabados a 8 KHz- mono esto para minimización dedatos, este es subdividido en muestras de 200 milisegundos las cuales luego se traslapan en una proporción de un 50% esto evita tener cambios bruscos de una muestra a otra, y por último a esta muestra final se le hace un enventanado por el método de haming, al resultado de todo lo anterior se le realiza un análisis cepstrum, cuya parte mas importante es el principio, el cual arroja lascaracterísticas más notorias que definirán al hablante, después de varias pruebas se decidió por trabajar con los primeros 20 coeficientes Cepstrum, de esta manera se obtuvieron buenos tiempos de procesamiento y un buen rendimiento.

Los cepstrum obtenidos de las muestras con las que se hizo el entrenamiento se pueden ver en la figura 2.
Figura 2. Cepstrum señales para entrenamiento.

De allí los primeros20 coeficientes fueron los patrones de entrenamiento de la red.

Como se dijo en un principio esta red estará adecuada para identificar entre cuatro posibles hablantes o decir si el dato de entrada no pertenece a ninguno. La red neuronal es del tipo Kohonen o también conocida como Mapas Auto Organizados, En el proceso de entrenamiento la red detecta los diferentes grupos que hay en los datos...
tracking img