Explicacion annie gate

Solo disponible en BuenasTareas
  • Páginas : 5 (1010 palabras )
  • Descarga(s) : 0
  • Publicado : 4 de diciembre de 2011
Leer documento completo
Vista previa del texto
. Diagrama de Despliegue

La aplicación de Extracción de Información se divide en tres capas:
* GUI
* Procedimientos
* Base de Datos

Explicación de cada modulo
Corpora
Módulo que permite convertir un documento .txt en un documento Gate lo que permite que sea utilizado por los demás módulos.
English Tokeniser
Módulo que permite hacer la separación en palabras del idiomaingles, así como, signos de puntuación y espacios en blanco.
Sentence Splitter
Módulo que permite la separación de oraciones en inglés.
Gazetteer
Módulo que permite la clasificación de sustantivos. Necesita de listas en formato txt que definan la clasificación de los sustantivos según nuestro dominio terrorista necesita que en cada lista se encuentre los nombres de las entidades, cada archivotendrá la lista de nombres de la entidad a la que se hace referencia, el nombre de la entidad que se enlista será puesta como nombre de archivo.

POS Tagger
Permite hacer el etiquetado de cada palabra del texto dado unas reglas de etiquetado y etiquetado lexicón que son archivos txt, lo que ayuda a que cada palabra sea clasificado como sustantivos, verbos, adjetivos, adverbios, artículos, pronombres,preposiciones, conjunciones, interjecciones, esto lo hace el etiquetado lexicón, pero puede haber palabras ambiguas que pueden ser sustantivos y adjetivos a la vez, es por eso que se necesita las reglas de etiquetado.
Name Entity Recognition
Una vez que se tiene una tokenización de palabras, separación en oraciones del texto, además, de a darle cada palabra una clasificación como se explicó enel módulo POS Tagger y poner listas en el módulo gazetteer. Se configura un archivo de extensión jape que dará las reglas para que las entidades sean clasificadas de acuerdo a los nombres dados en el gazetteer necesita todos estos módulos previos ya que se ayudara de la clasificación previa para dar las reglas.
Orthomatcher
Este módulo sirve para configurar listas de correferencia tiene unconjunto de nombres de archivos donde se encuentran las listas y en base a una configuración de (:) indica que las entidades de un archivo hace correferencia a otros archivos que indica en forma de nombres de archivos, para que funcione necesita los módulos previos
Pronominal Correference
Modulo que permite ejecutar la correferencia para que funcione necesita que previamente se halla ejecutadosobre el texto los módulos anteriores.

ANNIC
Es otro módulo que permite el guardado de anotaciones que son características o las salidas que se vota en cada módulo en particular, se guardara, las anotaciones establecidas como salida de Name Entity Recognition y del Pronominal Correference. Este módulo permite conectarse a una Base de datos para guardar las anotaciones, se ha escogido Postgresscomo Base de datos. Por defecto ANNIC las guarda en una base de datos ANNIC que la podemos exportar a Postgrees para manejar mejor las anotaciones.
Interfaz
Este módulo permite crear el entorno visual que son los entornos de texto, así como, el subrayado con colores de entidades y correferencia que se va a reconocer.

BD Postgress
Base de datos Postgress.

Especificación de archivoslistaPorCadaEntidad.lst
Es un conjunto de textos planos txt donde se encuentra todos los nombres de una entidad, el nombre de cada entidad se pone como nombre del archivo.

Documento.txt
Es un documento txt cualquiera es el texto a analizar la extracción de información, puede ser un documento o un conjunto de documentos.

Documento gate
Es el documento txt antes explicado solo que Gate loserializa de una forma para que pueda ser reconocido por los demás módulos como tokenizer y separador de oraciones.

etiquetadoLexicon.txt
A cada palabra se le asigna una clasificación si es sustantivo, adjetivo, verbo, etc. Por ejemplo
George NNP a la palabra George se la clasificara como un sustantivo nombre propio(se etiqueta la palabra). Dentro de este archivo se tendrá una palabra con su...
tracking img