Ingeniero

Páginas: 198 (49320 palabras) Publicado: 29 de mayo de 2012
UNIVERSIDAD DE LA REPÚBLICA
Facultad de Ingeniería InCo - Instituto de Computación

“Sistema de Identificación de Segmentos Relacionados Temáticamente”
Tesis de grado presentada por

Martín Barreto - Ricardo Bedat Docentes Msc. Ing. Juan José Prada Ing. Aiala Rosá

Montevideo, Uruguay - 2009

Resumen
El crecimiento de la cantidad de información digital se ha producido de maneraexponencial y desordenada. Esto conlleva a una necesidad de herramientas y mecanismos que nos faciliten la tarea de recuperar y extraer información útil de manera eficaz y eficiente. Un proceso eficaz para poder encontrar información útil es emplear mecanismos de Recuperación de Información seguido de procesos de Extracción de Información. Nuestro trabajo se ubica dentro del área de Extracción deInformación y tiene como objetivo principal la búsqueda de segmentos de texto que estén relacionados temáticamente a una expresión de consulta. Desde un principio y durante todo el desarrollo del proyecto se optó por la construcción de una herramienta genérica y por tal motivo se consideró un dominio de documentos no acotado. Durante el desarrollo del proyecto nos enfrentamos a desafíos de diversa índolevinculados al procesamiento del lenguaje natural; como son el reconocimiento de oraciones, la identificación de entidades con nombre, el reconocimiento de locuciones, el análisis de categoría gramatical, el reconocimiento de los significados de las palabras, la identificación del lema de una palabra, el reconocimiento de sinónimos, hiperónimos, merónimos y otros tipos de relaciones, la expansión dela consulta, descarte de palabras que no aportan información semántica, la desambiguación automática, entre otros. Herramientas como Freeling[1] y WordNet[2] fueron claves para el éxito. Freeling nos brinda varios servicios para el análisis lingüístico y la posibilidad de poder mapear las palabras con conjuntos de sinónimos presentes en WordNet. WordNet nos permite encontrar las relacionessemánticas y léxicas entre conceptos del documento y de la expresión ingresada por el usuario. También fue determinante para obtener una arquitectura flexible, robusta y escalable la utilización de UIMA[3]. Este framework es de gran ayuda para poder manipular información no estructurada y asignar metadatos al documento a medida que se procesa, así como también, para dividir el sistema en componentesindependientes y reutilizables. La utilización de UIMA nos permitió integrar nuestro sistema a Lavinia[4], que es un ambiente web basado en este framework para procesamiento del lenguaje natural desarrollado en el ámbito del Grupo de Procesamiento de Lenguaje Natural de la Facultad de Ingeniería[15]. Los resultados alcanzados por nuestro sistema son altamente alentadores, obteniendo una precision de74,80 % y un recall de 78,28 %, valores superiores a trabajos relacionados[16, 17, 19, 18] realizados para otras lenguas. Quedamos muy conformes con los resultados del trabajo, consideramos que tanto la investigación realizada como el producto obtenido son un valioso aporte al área, especialmente para el idioma español. Y aunque queda mucho por hacer y mejorar, nuestro proyecto es un buen punto departida.

Palabras clave: Identificación temática, Expansión de consultas, Extracción de Información, Recuperación de Información, Relación Semántica.

4

Índice general
1. Introducción 1.1. El problema . . . . . . . 1.2. Motivación . . . . . . . . 1.3. Objetivo . . . . . . . . . 1.4. Plan de trabajo . . . . . 1.5. Organización del informe 2. Análisis del problema 3. Marco teórico 3.1.Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Sistemas de Extracción de información . . . . . . . . . . . . . . 3.2.1. MUC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2. TREC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.3. ACE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.4. DUC y TAC . . . . . . . . . . . . . . . . . . . ....
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • Ingeniero
  • Ingeniero
  • Ingeniero
  • Ingeniero
  • Ingeniero
  • Ingeniero
  • Ingeniero
  • Ingeniero

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS