Extracción y categorización de información

Páginas: 11 (2525 palabras) Publicado: 16 de septiembre de 2012
Extracción y Categorización de Información.
Lorena Etcheverry - Diego Sastre

Resumen
De acuerdo a lo requerido para el cumplimiento del curso de Extracción y Categorización de Información, se presenta la realización de un sistema prototipo, que procesa archivos de texto con noticias en español, dando como resultado un archivo XML con anotaciones correspondientes a diferentes reconocimientosde la información contenida. Se estudia y utiliza como herramienta el sistema Gate [1] para procesamiento de lenguaje natural.

1

Introducción

El objetivo principal del presente trabajo es aplicar los conceptos adquiridos en el curso de Extracción de Información, resolviendo alguno de los problemas que se presentan cuando se intenta implementar un sistema de procesamiento de texto paraextracción de datos. En particular el trabajo consiste en resolver, en el dominio de noticias económicas en español, los siguientes problemas referentes a la extracción de información: • • • • • • TIMEX (Reconocimiento de expresiones de fecha y temporales) NUMEX (Reconocimiento de expresiones numericas) NAMEX (Reconocimiento de entidades nombradas Ej: nombres propios) Reconocimiento de abreviaturas ysiglas (Ej.) Diseño parametrizable Relaciones del tipo, que compañía compro a otra o se asoció con otra)

Se toma como entrada documentos en texto plano que contienen reportes de noticias y se procede a analizar el texto, resolviendo cada uno de los puntos mencionados anteriormente. La salida del sistema es un documento XML donde se marcan adecuadamente los diferentes elementos encontrados.Como objetivo adicional del proyecto, se planteó el conocer y utilizar como herramienta para la implementación, el sistema Gate [1] desarrollado en la Universidad de Sheffield.

Proyecto de Extracción y Categorización de la Información

El resto del documento presenta en la sección 2 el diseño del sistema , en la sección 3 la implementación realizada y en la 4 las conclusiones del trabajo.

2Diseño del sistema

La solución propuesta fue diseñada utilizando los distintos componentes que aporta Gate en su sistema ANNIE (A Nearly-New IE system desarrollado por Hamish Cunningham, Valentin Tablan, Diana Maynard, Kalina Bontcheva, Marin Dimitrov y otros en el marco del proyecto GATE) , ver [1]. Gate consiste en un ambiente de desarrollo más un framework o librería de componentes paraimplementación de sistemas de procesamiento de lenguaje natural. Aporta una arquitectura general para el diseño de este tipo de soluciones que fue aplicada en este trabajo. 2.1 Arquitectura de ANNIE

ANNIE es un sistema altamente modularizado, cuyos componentes se organizan en una arquitectura de estilo pipeline. En la figura 1 se representa la secuencia de componentes. En la figura, losrectángulos en colores rojo y azul corresponden a componentes de procesamiento (Gate los llama “processing resources”) y los rectángulos en gris con bordes redondeados corresponden con datos que utilizan estos componentes o módulos de procesamiento. Estos módulos se ejecutan en cascada, el primero de ellos (Unicode Tokeniser) toma como entrada un documento a procesar y luego su salida es tomada comoentrada para el segundo módulo y así sucesivamente, siendo la salida del último módulo el documento procesado y anotado.

2

Proyecto de Extracción y Categorización de la Información

Figura 1

2.2

Diseño realizado

El trabajo respeta la secuencia en cascada o pipeline de módulos que propone Gate, reutilizando los dos primeros módulos de ANNIE, los cuales son adaptados y modificados yluego como tercer elemento del pipeline, se define un sistema de transductores. Para esto utiliza el lenguaje Jape, mediante la aplicación de otro componente del framework llamado Jape Transducer que provee GATE a estos efectos.

Los dos módulos adaptados del sistema ANNIE son: • Unicode Tokeniser - Se realizan modificaciones a las reglas que propone Gate con el objetivo de agregar reconocimiento...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • Extraccion de informacion
  • Categorización De La Información Cualitativa
  • Alicia Informacion Extraccion Liquido Liquido
  • Extracción Y Recopilación De La Información De Interés En La Literatura
  • CATEGORIZACIÓN
  • Categorización
  • categorizacion
  • Categorización

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS