Varios

Solo disponible en BuenasTareas
  • Páginas : 19 (4731 palabras )
  • Descarga(s) : 4
  • Publicado : 9 de marzo de 2010
Leer documento completo
Vista previa del texto
Desarrollo de un etiquetador semántico para textos en castellano, inglés y valenciano.
 
CTIDIB/2002/151
Financiado por la Oficina de Ciencia y Tecnología (OCYT) de la Generalitat Valenciana

 
MEMORIA DESCRIPTIVA Y TÉCNICA 4
 
OBJETIVO 4
 
DESCRIPCIÓN DEL PROYECTO 5
 
PLAN DE TRABAJO 11
 
PLANIFICACIÓN DE LAS TAREAS 14
 
NOVEDAD TECNOLÓGICA EN EL PROYECTO 15
 
PATENTES Y PUBLICACIONESPREVISTAS 15
 
ESTADO DE LA TÉCNICA 15
 
BIBLIOGRAFÍA 16
 

 
MEMORIA DESCRIPTIVA Y TÉCNICA
 
 
OBJETIVO
 
El objetivo principal de este proyecto es construir un etiquetador semántico para el español, inglés y valenciano. Este etiquetador realizará automáticamente una anotación del sentido para cada una de las palabras de los texto en cada lengua. Para ello, se anotará el sentido suministradopor WordNet según la lengua que se esté tratando (http://www.cogsci.princeton.edu/~wn/w3wn.html).
Este etiquetador pretende mejorar la anotación de grandes conjuntos de datos mediante la asignación automática de una etiqueta semántica con su sentido apropiado. Esto supone un beneficio importante tanto en tiempo como en costes, ya que según estimó Ng en su trabajo [1], un hombre con dedicaciónexclusiva tardaría 16 años para construir un corpus etiquetado semánticamente para el inglés. Otro factor a tener en cuenta es la diversidad de lenguas, por lo que se debería realizar la anotación de los corpus para cada una de las lenguas. Este etiquetador permitirá mejorar la calidad de aquellas aplicaciones que precisen conocer el significado semántico dentro del campo de investigación de laLingüística Computacional, concretamente en el del Procesamiento del Lenguaje Natural (PLN).
El objetivo principal científico y tecnológico del proyecto se centra en el campo de investigación denominado Desambiguación del sentido de las palabras (conocido en inglés, Word Sense Disambiguation (WSD)). En términos generales, la desambiguación del sentido de las palabras consiste en asociar una palabra dada deun texto con una definición de un sentido o significado, lo que permite distinguirla de otros significados atribuibles a esa palabra. Entrando más en detalle, WSD consistiría en preprocesar un texto no restringido en cualquier lengua con el fin de extraer un conjunto de características (pistas o indicios), para posteriormente usarlas para asignar a cada palabra del texto el sentido más probable,adecuado y eficiente. La mayoría de los sistemas de WSD, para solucionar este problema, lo que hacen es determinar los diferentes sentidos de cada palabra del texto de entrada utilizando una lista cerrada de sentidos (como los que hay en un diccionario), un grupo de categorías (como las de un tesauro) o un diccionario multilingüe para traducirla a otro lenguaje. Para posteriormente mediante el usodel contexto de la palabra a ser desambiguada asignar un sentido apropiado. Para realizar la asignación del sentido a cada palabra, se utilizan dos recursos de información:
 
* El contexto de la palabra a ser desambiguada, el cual se obtiene con la información contenida dentro del texto en el que la palabra aparece, junto con la información lingüística sobre el texto, como la colocación, etc.* Recursos de conocimiento externo como son los recursos léxicos, enciclopédicos, así como recursos de conocimiento léxico (WordNet) desarrollados manualmente, que proporcionan datos valiosos para asociar palabras con sentidos.
 
Así, el objetivo de este proyecto es anotar el sentido de las palabras de textos no restringidos con la finalidad de ayudar a mejorar otras aplicaciones del PLN quenecesitan conocer el sentido de las palabras, como Traducción Automática (TA), Recuperación de la Información (RI), Clasificación de Textos, Análisis del Discurso, Extracción de Información (EI), etc. Además, otro de los objetivos científicos de este proyecto se centra en la anotación de textos multilingües, tanto en español, inglés y valenciano, aportando la posibilidad de ayudar a las tareas...
tracking img