sintetizadores de voz

Páginas: 10 (2327 palabras) Publicado: 27 de noviembre de 2013
V Jornadas en Tecnología del Habla

DESCRIPCIÓN DEL SINTETIZADOR DE VOZ COTOVÍA PARA LA EVALUACIÓN
ALBAYZIN TTS 2008
Eduardo R. Banga, Francisco Méndez, Francisco Campillo, Gonzalo Iglesias, Laura Docío
Grupo de Teoría de la Señal
Dpto. Teoría de la Señal y Comunicaciones
Universidad de Vigo – 36310 Vigo

RESUMEN
Este artículo describe el estado actual del sintetizador de voz basado encorpus Cotovía, desarrollado en
la Universidad de Vigo con la colaboración del Centro Ramón Piñeiro para la Investigación en Humanidades. Cotovía es un sistema en el que se efectúa una
búsqueda combinada tanto de las unidades acústicas
y entonativas como de la estructura prosódica, con el
objetivo de generar la voz sintética de mayor calidad
posible a partir del corpus disponible.
1.INTRODUCCIÓN
Cotovía es un sistema de conversión texto–voz
en gallego y castellano englobado dentro de las técnicas de concatenación. A diferencia de la mayoría
de los sintetizadores de voz actuales, en los que se
van generando las características fonéticas en una serie de etapas secuenciales, lo cual en cierta manera
implica asumir independencia entre ellas, en Cotovía se aplica el concepto dela selección de unidades ([1]) tanto en la generación de la forma de onda
como en el modelado entonativo, y se lleva un paso
más allá escogiendo la mejor combinación de unidades acústicas y entonativas. De la misma forma, en
la selección entonativa también se consideran diferentes estructuras entonativas, sacando así partido de
la variabilidad de la voz, que permite que un mismo
mensaje sepueda realizar de diferentes maneras sin
afectar ni a la naturalidad ni a la inteligibilidad.
En este artículo se explican las características principales del sintetizador en el momento de presentarse
a la evaluación Albayzin TTS 2008. En primer lugar,
en la sección 2 se exponen los pasos que se siguieron para procesar la voz y poder generar a partir de
Este trabajo ha sido subvencionado porel Gobierno Español mediante el proyecto coordinado AVIVAVOZ (TEC200613694-C03)

ella la información necesaria para la síntesis. En La
sección 3 se describen los principales módulos del
sistema, desde la etapa lingüística hasta la generación de la forma de onda, incluyendo los diferentes
modelos de estimación de la prosodia. Finalmente,
en la sección 4 se presentan las conclusiones.
2.GENERANDO LA VOZ
Para la evaluación de sistemas de conversión de
voz Albayzin 2008 se ha puesto a disposición de
los participantes el corpus upc_esma [2] como material de desarrollo. Este corpus consta de aproximadamente 1h 45 min. de voz (mono, frecuencia de
muestreo 16 KHz, resolución de 16 bits por muestra), dividido en 3 subcorpus: frases fonéticamente
equilibradas (506 ficheros,aproximadamente 30 minutos), párrafos fonéticamente equilibrados (208 ficheros, aproximadamente 30 minutos) y 45 minutos
(62 ficheros) de párrafos literarios. Puesto que los niveles de grabación de cada subcorpus eran distintos,
se ha hecho una normalización, fichero a fichero, al
70 % del valor máximo.
Para cada subcorpus se han proporcionado los
ficheros de audio, la señal del laringógrafo, los ficheros detexto, la transcripción fonética (SAMPA)
y una segmentación fonética revisada manualmente
para una parte (todas las frases y 144 de los 208 párrafos fonéticamente equilibrados) y otra automática
de la totalidad de los corpus.
Debido a discrepancias entre la transcripción y
segmentación fonéticas proporcionados y el procesado lingüístico realizado por Cotovía, que es el que
se utiliza paraconstruir las voces de nuestro sistema, se ha decidido no utilizar directamente ninguna
de las segmentaciones proporcionadas. En su lugar
se ha adaptado de forma semi–automática a nuestro
sistema la parte segmentada manualmente, realizan-

— 100 —

V Jornadas en Tecnología del Habla

do una nueva segmentación automática del resto del
material de desarrollo.
El proceso de segmentación...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • Sintetizador De Voz
  • Sintetizadores
  • sintetizar
  • SINTETIZADORES
  • El sintetizador
  • la voz
  • LA VOZ
  • La Voz

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS