Clasificación automática de textos considerando el estilo de redacción

Solo disponible en BuenasTareas
  • Páginas : 62 (15304 palabras )
  • Descarga(s) : 7
  • Publicado : 15 de agosto de 2010
Leer documento completo
Vista previa del texto
Clasificación Automática de Textos considerando el Estilo de Redacción
Por

ROSA MARIA COYOTL MORALES

Tesis sometida como requisito parcial para obtener el grado de

Maestra en Ciencias en la especialidad de Ciencias Computacionales
en el

Instituto Nacional de Astrofísica, Óptica y Electrónica. INAOE

Supervisada por: DR. LUIS VILLASEÑOR PINEDA Coordinación de CienciasComputacionales, INAOE DR. MANUEL MONTES Y GÓMEZ Coordinación de Ciencias Computacionales, INAOE Tonantzintla, Pue. 2007
© INAOE 2007 Derechos Reservados El autor otorga al INAOE el permiso de reproducir y distribuir copias de esta tesis en su totalidad o en partes

1

2

A mi mamá y papá, Ana Teresa y Clemente, por todo su cariño, motivación, comprensión y apoyo. “Gracias por creer en mi”.

Amis hermanos, Martin y Diana por todo su cariño, motivación y apoyo.

A mis cuñandos, Laura y Marco por su cariño y apoyo.

3

4

Agradecimientos
A mis asesores Dr. Luis Villaseñor Pineda y Dr. Manuel Montes y Gómez mi más sincero agradecimiento por su apoyo constate, sus comentarios acertados y sus consejos que me acompañaron a lo largo de mis estudios de maestría en el INAOEP. A missinodales, Dr. Aurelio López López, Dr. Jesús Ariel Carrasco Ochoa y Dra. Angélica Muñoz Meléndez por sus observaciones y comentarios. Al INAOE, por todas las facilidades proporcionadas durante mi estancia académica. A mis compañeros de la maestría por su amistad y por darme tantos momentos de alegría. A CONACYT por el apoyo económico a través de la beca No. 189686.

5

6

Resumen
En laactualidad existe una inmensa cantidad de información disponible en formato electrónico. Toda esta información es improductiva si no se dispone con mecanismos apropiados para su acceso, clasificación y análisis. En particular, la clasificación automática de textos consiste en colocar un documento dentro de un grupo de clases previamente definidas. La mayor parte del trabajo en esta área se haenfocado en la clasificación de textos por su tema o tópico. Sin embargo, un documento también puede ser clasificado de acuerdo a su estilo (clasificación notemática). En la clasificación no-temática se consideran tareas tales como la clasificación de opiniones, la detección de plagio, la atribución de autoría, la clasificación por género, etc. El objetivo principal de esta tesis es proponermétodos que permitan determinar los rasgos léxicos que hacen posible caracterizar el estilo de escritura de los documentos. Los métodos descritos consideran la caracterización de los documentos a través un conjunto de secuencias de palabras que combinan tanto palabras de contenido como funcionales. La utilidad de este tipo de caracterización se demuestra mediante su aplicación en las tareas deatribución de autoría y clasificación por género.

i

ii

Abstract
Nowadays there is a large amount of information available in digital format. All this information is useless if we do not have adequate mechanisms for its access, classification and analysis. In particular, text classification concerns the automatic assignment of free text documents to one or more predefined categories. Mostwork in this field focuses on categorizing documents by their topic. However, a document can be also classified by its written style (non-topic classification). Basically, nontopic classification considers tasks such as sentiment classification, plagiarism detection, authorship attribution, genre classification, etc. The main objective of this thesis is to propose methods for determining thelexical features that allow characterizing the written style of documents. The proposed methods consider the characterization of documents by sets of word sequences that combine content and functional words. The usefulness of this kind of characterization is demonstrated by its application in the tasks of authorship attribution and genre classification.

iii

iv

Contenido
Resumen...
tracking img