Mineria de texto

Solo disponible en BuenasTareas
  • Páginas : 21 (5170 palabras )
  • Descarga(s) : 7
  • Publicado : 2 de agosto de 2010
Leer documento completo
Vista previa del texto
MINERÍA DE TEXTO

Ronald Quirós S
Escuela de Computación e Informática
Universidad de Costa Rica

Resumen

Con el creciente uso del computador y la Internet, la cantidad de información disponible en forma de documentos digitales (textos) ha logrado valores nunca antes alcanzados.

Surge, entonces, la necesidad  de desarrollar métodos que permitan acceder a informaciónde interés de manera automática y rápida.  Basados en éste principio han aparecido nuevas disciplinas de investigación que se han encargado de formular métodos para suplir dicha necesidad.  Estas nuevas disciplinas observan que los textos, aunque constituyen una fuente inmensa y rica en información, se encuentran en una forma difícil de descifrar automáticamente, ya que la información no seestructurada. 

En consecuencia, se han propuesto métodos que: extraen información relevante de los textos, clasifican textos, agrupan textos, etc, de manera que se permita estructurar la información para que luego sea organizada y permita su fácil y rápido acceso.Todos estos métodos pertencen a la Minería de Texto (Text Mining –TM).

Se observa entonces, lo valioso de contar con herramientas desoftware que ofrezcan todos los métodos propuestos para la minería de texto, de manera que permita a los usuarios de esta herramienta utilizar una gran variedad de métodos y elegir el o los que más les convengan.

Entonces dado lo anterior se hace necesario conocer y descubrir temas relacionados con la minería de textos como los siguientes:

a. Qué es la minería de texto?
b. Porque usar laminería de textos?
c. Características y ventajas de la explotación minera del texto.
d. Como operan los sistemas de minería de texto?
e. Principales elementos a considerar al seleccionar una herramienta de minería de texto
f. Aplicaciones y herramientas de mineria de texto que existen en el mercado hoy día

Introducción

Muchas organizaciones han invertido hoy en tecnologías de Mineríade datos para reducir el fraude, predecir el cambio de compra en los clientes o para dirigir su publicidad a los clientes más rentables.
Con todo ello, aún así es posible que fracasen en la capitalización de datos no estructurados, tales como e-mails, informes de incidencias, patentes, actas de reuniones, legislación de interés u otro registro textual de la base de datos. Ocuparse de unacantidad abrumadora de información no estructurada es un importante reto para las compañías hoy en día.
Se estima que el 80% de los datos de las organizaciones no es estructurado, lo que implica que la información es difícil de encontrar, acceder, utilizar, analizar y usar.

Ante este problema surge la Minería de Textos que es una tecnología emergente cuyo objeto es la búsqueda de conocimiento engrandes colecciones de documentos no estructurados, de manera que pueda combinarlo con información de las empresas para construir modelos más apropiados[1].

Los sistemas de minería de textos pueden ayudar en la categorización de la información existente en una organización, en el filtrado de información, por ejemplo de e-mail, en la detección de información similar o relacionada con otraexistente o para eliminar información duplicada.

Por lo tanto durante el artículo se tratará como principal objetivo, conocer acerca de la minería de texto, las técnicas usos y aplicaciones para las que se utiliza en nuestra vida cotidiana.

Desarrollo

Ya en 1977, el sistema THOMAS[2] ilustró cómo las palabras o las frases claves podían utilizarse para guiar a los usuarios en el descubrimientode documentos de referencia útil. Las frases claves son un tipo especialmente útil de información abreviada. Sin embargo, tales frases se eligen con frecuencia manualmente, bien por los autores o por indizadores profesionales. Condensan los
documentos en unas pocas palabras y frases, ofreciendo una descripción breve y precisa de los contenidos de un documento.

La asignación manual de frases...
tracking img