Manual Annie

Páginas: 8 (1961 palabras) Publicado: 24 de septiembre de 2011
GATE fue desarrollado originalmente en el contexto de la Extracción de Información (IE) de I + D, y los sistemas de IE en muchos idiomas y las formas y tamaños se han creado con puerta con los componentes de IE que se han distribuido con él (ver [Maynard et al. 00] para las descripciones de algunos de estos proyectos).
GATE se distribuye con un sistema de IE llamado Annie, A Nearly-New IE system(desarrollado por Hamish Cunningham, Tablan Valentin, Maynard Diana, Bontcheva Kalina, Dimitrov Marín y otros). ANNIE se basa en algoritmos de estado finito y el lenguaje JAPE (véase el capítulo 8).
1. Restablecimiento del Documento
Permite que el documento vuelva a su estado original, mediante la eliminación de todas las series de anotación y su contenido, además de la que contiene elanálisis de formato de documento (Marcas Originales). Un parámetro opcional, keepOriginalMarkupsAS, permite a los usuarios decidir si mantener las Marcas originales o no, mientras que resetea el documento. El parámetro annotationTypes se puede utilizar para especificar una lista de tipos de anotación para eliminar de todos los conjuntos en lugar de los juegos de conjunto.
Alternativamente, si elparámetro setsToRemove no está vacío, los parámetros, excepto annotationTypes se ignoran y sólo la anotación de los conjuntos especificados en esta lista serán eliminados. Si annotationTypes también se especifica, sólo los tipos de anotaciones en los conjuntos especificados se eliminan. Con el fin de especificar que desea restaurar el conjunto de anotación por defecto, simplemente haga clic en el botón"Añadir" sin introducir un nombre {esto añadirá <null> que denota el conjunto de anotación por defecto. Este recurso se añade normalmente al comienzo de una aplicación, de modo que un documento se restablece antes de que una aplicación se vuelve a ejecutar en dicho documento.
2. Tokeniser
El tokeniser divide el texto en tokens muy simples, tales como números, puntuación y las palabras dediferentes tipos. Por ejemplo, podemos distinguir entre las palabras en mayúsculas y minúsculas, y entre ciertos tipos de puntuación. El objetivo es limitar el trabajo de la tokeniser para maximizar la eficiencia y permitir una mayor flexibilidad al colocar la carga sobre las reglas gramaticales, que son más adaptables.
3.1. Reglas del Tokeniser
Una regla tiene un lado izquierdo (LHS) yun lado derecho (RHS). La LHS es una expresión regular que tiene que ir acompañada de la entrada, el lado derecho describe las anotaciones que se añade a la AnnotationSet. El LHS se separa del RHS por ‘>’. Los siguientes operadores se pueden utilizar en la LHS:
* | (or)
* * (0 or more occurrences)
* ? (0 or 1 occurrences)
* + (1 or more occurrences)
La RHS usa ‘;’ comoseparador, y tiene el siguiente formato:
{LHS} > {Annotation type};{attribute1}={value1};...;{attributen}={value n}
Los detalles acerca de las construcciones primitivas disponibles se encuentran en el archivo tokeniser (DefaultTokeniser.Rules).
La siguiente regla tokeniser es para una palabra que comienza con una sola letra mayúscula:
‘UPPERCASE_LETTER’ ‘LOWERCASE_LETTER’* >Token;orth=upperInitial;kind=word;
Afirma que la secuencia debe empezar con una letra mayúscula, seguido por cero o más letras minúsculas. Esta secuencia se anotará el tipo ‘token’. El atributo ‘orth’ (ortografía) tiene el valor 'upperInitial', el atributo 'kind' tiene el valor 'word'.
3.2. Tipos de Tokens
En el conjunto predeterminado de reglas, los siguientes tipos de token y SpaceToken son posibles:
A.Word
Word se define como cualquier conjunto de letras contiguas en mayúsculas o minúsculas, incluyendo un guión (pero no otras formas de puntuacion). Una palabra también tiene el atributo de "Orth", para lo cual se definen los cuatro valores:
* upperInitial: letra inicial en mayúscula, el resto en minúsculas.
* allCaps: todas las letras mayúsculas.
* lowerCape: todas las letras...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • annie
  • ANNIE
  • Annie
  • Annie
  • annie
  • Annie
  • annia
  • Anni

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS