Emes.

Solo disponible en BuenasTareas
  • Páginas : 12 (2779 palabras )
  • Descarga(s) : 0
  • Publicado : 16 de junio de 2011
Leer documento completo
Vista previa del texto
EMES. Etiquetador Morfológico para el idioma español.
ANTONIO HERNÁNDEZ.* e DIDIER BUENO.**
*Escuela Superior Politécnica Ecológica Amazónica (ESPEA), Ave. Puerto Napo Km 1, Tena, Napo, Ecuador. dir_acad_puyo@espea.edu.ec
**Ingeniero Informático graduado por la Universidad de Matanzas “Camilo Cienfuegos”, Km 3 ½ Carretera a Varadero. Matanzas. Cuba. didier_bueno@yahoo.com

RESUMEN
Sedesarrolló un Etiquetador Morfológico para el idioma Español (EMES) realizado en lenguaje C++ sobre la plataforma Linux, distribución openSuSe, basado en técnicas de aprendizaje automático (o basado en corpus), fundamentado en el análisis morfológico-léxico y usando, entre los modelos estadísticos, los modelos ocultos de Markov (HMM) para el entrenamiento y desambiguación del sentido de las palabrasalcanzando una precisión del 99% en las pruebas realizadas.
Palabras claves: etiquetador, markov, morfológico, lenguaje natural, desambiguación, morfosintáctico.

Morphological Tagging for the Spanish Language (EMES)

ABSTRACT

It was developed a Morphological Tagging for the Spanish Language (EMES) done in C++ language on Linux platform, distribution openSuSe, based on automatic techniquesof learning (based on corpus), substantiated on the analysis morphological-lexicon and using, among the statistical models, the hidden models of Markov (HMM) for the training and disambiguation of the sense of the words, obtaining a precision of 99% in the realized tests.

Key words: pos-tagging, tagger, HMM, morphological, natural language, disambiguation, morphological-syntactic

IntroducciónSegún Moreno (1999) (citado por Molina, 2004), el Procesamiento del Lenguaje Natural (PLN) se define como una parte esencial de la Inteligencia Artificial que investiga y formula mecanismos computacionalmente efectivos que faciliten la interrelación hombre-máquina.
Los sistemas de PLN tienden a dividirse en componentes más o menos independientes entre sí, permitiendo abordar el procesamientode una oración a través de una serie de niveles de análisis. La modularidad permite que el sistema sea flexible y que cada nivel pueda ser abordado por la técnica más adecuada en cada caso. (García, 2008).
Por otra parte debe ser capaz de manejar distintas fuentes de conocimiento lingüístico: fonética, morfología, sintaxis, semántica, pragmática o conocimiento del discurso y conocimiento delmundo. Estas fuentes de conocimiento no son independientes entre sí, por lo que la interpretación final de una oración es el resultado de la interrelación de todas ellas.
Una de las primeras tareas de análisis en PLN es el análisis morfosintáctico de las palabras de la oración. Esta tarea debe resolver uno de los principales problemas de ambigüedad del lenguaje natural: la ambigüedad léxicacategorial. Este problema consiste en la determinación de la categoría o función sintáctica que la palabra desempeña en la oración (nombre común, nombre propio, adjetivo, etc.), que además puede acompañarse con información morfológica (género, número, persona, etc.). Esta información se puede recoger en una etiqueta o part-of-speech (POS) y por ello se habla de etiquetado morfosintáctico de textos (POStagging).
Una palabra puede tener distintas etiquetas léxicas y un etiquetador debe resolver cuál es la etiqueta correcta para cada palabra en una oración. Por lo tanto, un etiquetador resuelve la ambigüedad léxica.
Un ejemplo de ambigüedad léxica son las distintas categorías a las que puede pertenecer la palabra “bajo”: nombre común, preposición, adjetivo calificativo, adverbio de lugar, verbo.Un ejemplo de oración etiquetada, utilizando el estándar Parole , sería:
“El TDMS músico NCMS bajo AQMS toca VMIP1S el TDMS bajo NCMS”
Las categorías son estructuradas y guardan información morfológica. Por ejemplo, NCMS significa Nombre Común Masculino Singular, TDMS arTículo Determinado Masculino Singular, AQMS Adjetivo calificativo Masculino Singular, VMIP1S Verbo principal Indicativo...
tracking img