Text mining

Solo disponible en BuenasTareas
  • Páginas : 15 (3535 palabras )
  • Descarga(s) : 0
  • Publicado : 27 de abril de 2011
Leer documento completo
Vista previa del texto
[pic]

PROLOGO

La era de la información ha hecho que sea fácil de almacenar grandes cantidades de datos. La proliferación de los documentos disponibles en la Web, en intranets corporativas, en los cables de noticias, y en otros lugares es abrumadora. Sin embargo, aunque la cantidad de datos a nuestra disposición es cada vez mayor, nuestra capacidad de absorber y procesar esta informaciónsigue siendo constante. Los motores de búsqueda sólo exacerban el problema haciendo más y más documentos disponibles en cuestión de un ictus clave.

El tesoro más valioso de la raza humana es el conocimiento. Gran parte de este conocimiento existe en forma de lenguaje natural: libros, periódicos, artículos, etcétera. La posesión real de todo este conocimiento depende de nuestra habilidad pararealizar ciertas operaciones con la información, por ejemplo: buscarla, compararla, y resumirla. La minería de texto, una nueva área de investigación definida como descubrimiento de conocimiento en colecciones de textos, se enfoca en el análisis de grandes conjuntos de documentos. En particular, considera el descubrimiento de patrones interesantes, tales como grupos, asociaciones y desviaciones, encolecciones de textos. Los métodos actuales de minería de texto se caracterizan por usar representaciones sencillas del contenido de los documentos, por ejemplo, bolsas o vectores de palabras. Por una parte estas representaciones son fáciles de obtener y analizar, pero por otra parte restringen los patrones descubiertos a un nivel temático. Con el propósito de obtener resultados más útiles ysignificativos deben usarse representaciones más completas de la información. Basándonos en esta suposición se propuso un nuevo método para realizar minería de texto a nivel detalle. Este método usa los grafos conceptuales como representación del contenido de los textos, y obtiene algunos patrones descriptivos de los documentos aplicando varios tipos de operaciones sobre estos grafos.

INTRODUCCIONEste es un trabajo investigativo sobre la minería de texto, utilizando un paquete estadístico concreto, R, como software de apoyo. La idea es documentar al estudiante tanto de matemáticas e ingeniería como de otras carreras, en este tema, en el documento se encontrará el desarrollo de una aplicación o ejemplo de la minería de texto usando el software R.

El objetivo de esta investigación es queel lector, al terminarlo, sea capaz de apropiar conocimientos referentes a Minería de Texto estableciendo una base teórica y práctica para futuras investigaciones de la Konrad Lorenz en aplicaciones de esta tecnología.

¿Por qué R? R es un paquete estadístico de libre acceso basado en el lenguaje S, desarrollado en AT&T por Becker, Chambers y Wilks. R tiene facilidades similares con el lenguajeS, el apoyo de un magnífico equipo de profesionales, y además es gratuito. Cualquier manual o libro sobre S ó Splus sirve perfectamente para aprender R. Gran parte de los comandos de ambos lenguajes son iguales, o cuando menos, similares.
La filosofía de R se basa en el análisis interactivo de los datos a base de comandos. A diferencia de otros programas, no funciona por menús desplegables dondese van eligiendo las opciones del análisis que se desea realizar. Esto hace que el aprendizaje pueda resultar algo duro al principio, o por decirlo de otra manera, menos cómodo. A cambio, una vez acostumbrados, tendremos un control infinitamente mayor sobre nuestros análisis que el que tendríamos siguiendo el otro El uso de este software da portabilidad y permite brindar soporte fácilmente a estecontenido.
Formulación del problema

La falta de documentación y el poco interés por el tema en la universidad, conlleva al estudiante a inspeccionar y desarrollar más a fondo dicho asunto ?

Objetivos Específicos

1. Apropiar los conocimientos teóricos de la minería de texto.

2. Ofrecer un documento donde se puede entender de manera fácil la instalación y carga de los paquetes...
tracking img