Tokenización

Páginas: 3 (616 palabras) Publicado: 6 de septiembre de 2014
BLOQUE III. NIVELES DE DESCRIPCIÓN GRAMATICAL

CAPÍTULO 5. IDENTIFICACIÓN DE UNIDADES DE ANÁLISIS
0. Introducción
El análisis sintáctico de un corpus conlleva un tratamiento lingüísticoprevio. En el siguiente esquema se pueden observar los pasos de todo el proceso:

















El tratamiento de lingüístico de un texto puede verse como una progresión detransformaciones del texto original, el cual es una secuencia de caracteres, que precede al análisis sintáctico del corpus. Dentro de estas transformaciones normalmente tienen lugar dos: aislamiento de palabrasy aislamiento de oraciones. El aislamiento de estas unidades de análisis desde un texto se denomina tokenización. Como resultado de la tokenización se obtienen dos tipos de de unidades de análisis,denominadas tokens:






Según se esté ante un lenguaje artificial o uno natural el token se definirá de una manera u otra:




1.Preprocesamiento
Todo archivo electrónico de textooriginal presenta espacios extras en blanco, un número de marcas que indican cambios de fuente, subdivisiones de texto, caracteres especiales,, etc. Como primer paso del tratamiento lingüístico, el textooriginal experimenta un preprocesamiento que actúa como filtro eliminando algunas de las mencionadas marcas del texto y uniendo las dos partes de las palabras que se encuentran separadas por guión. Aveces pueden ocurrir errores en el filtrado (por ejemplo, juntar dos palabras separadas por guión al tomarlas como dos partes de una misma palabra, como físico-químico). Los errores se pueden tratarde diferentes maneras:
En esta etapa, subsanándolos con acceso al diccionario y a un paquete morfológico.
Tratándolos en una etapa posterior.
Aceptarlos como ruido del sistema.2.Tokenización
Una vez que el texto de entrada del corpus se ha preprocesado, tenemos una cadena de caracteres correspondientes a lo que el procesador lingüístico considerará texto. En una etapa del...
Leer documento completo

Regístrate para leer el documento completo.

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS