Web mining

Solo disponible en BuenasTareas
  • Páginas : 5 (1223 palabras )
  • Descarga(s) : 0
  • Publicado : 9 de junio de 2011
Leer documento completo
Vista previa del texto
WEB MINING
* Integración de información obtenida mediante los métodos tradicionales de la minera de datos con información recogida sobre la web.

* Descubrir los patrones interesantes en la estructura, contenido y la utilización de los sitios web.

La minera web es un proceso complejo que comprende el análisis de información diversa, como el contenido y estructura de los documentos web(html, xml), archivos de texto, bases de datos, bitácoras de acceso de usuarios, bitácoras (logs) de referencias de otros servidores, perfiles de usuarios y otros, con el de encontrar información útil y relevante de acuerdo a las necesidades de un usuario. Por lo que en un escenario ideal se contara con un sistema que cuenta con una interfaz que analiza el comportamiento y preferencias delusuario y realiza peticiones en su representación a una base de conocimientos que se encuentra estructurada y gestionada debidamente para la rápida y correcta recuperación de información; en donde dicha base de conocimientos devuelve las respuesta a la interfaz para que esta a su vez le brinde una respuesta al usuario.
TIPOS DE MINERÍA EN LA WEB
Web mining - es la aplicación de técnicas de minería dedatos para descubrir los patrones de la Web. De acuerdo a los objetivos de análisis, la minería web se puede dividir en tres tipos diferentes, que son la minería de uso de la Web, minería del contenido de la Web y minería de la estructura de la Web.
En este sentido podemos definir el Web mining en tres variantes:
1. Minería del contenido de la Web, o Web Content Mining;
2. Minería de laestructura de la Web, o Web Structure Mining;
3. Minería de los registro de navegación en la Web. o Web Usage Mining.

Minería del uso de la Web
La minería del uso de la Web es un proceso de extracción de información útil a partir de los registros del servidor, es decir, del historial de los usuarios. La minería del uso de la Web es el proceso de descubrir lo que los usuarios buscan enInternet. Algunos usuarios pueden estar mirando sólo los datos textuales, mientras que otros pueden estar interesados en los datos multimedia.

Minería del contenido de la Web
Minería del contenido de la Web es el proceso de descubrir información útil de texto, imagen, audio o datos de vídeo en la web. La minería de contenido web a veces se llama la minería de textos web, porque el contenido deltexto es la zona más ampliamente investigado. Las tecnologías que se utilizan normalmente en la minería de contenido web son PNL (procesamiento de lenguaje natural) e IR (recuperación de información). Aunque la minería de datos es un término relativamente nuevo, la tecnología no lo es. Las empresas han utilizado los ordenadores de gran alcance para tamizar a través de volúmenes de datos de escánerde supermercados y analizar los informes de investigación de mercado durante años. Sin embargo, las continuas innovaciones en el poder, equipo de procesamiento, almacenamiento en disco y software de estadística están aumentando drásticamente la precisión de análisis, mientras reduciendo el coste.

Minería de la estructura de la Web
Minería de la estructura de la Web es el proceso de utilizaciónde la teoría de grafos para analizar el nodo y la estructura de conexión de un sitio web. Según el tipo de web de los datos estructurales, estructura de minería de la Web se pueden dividir en dos tipos:
* El primer tipo es la extracción de patrones a partir de hipervínculos de la web. Un hipervínculo es un componente estructural que conecta a la página web en una ubicación diferente.
* Elotro tipo es la minería de la estructura del documento. Se está utilizando la estructura de árbol para analizar y describir el HTML (Hyper Text Markup Language) o XML (eXtensible Markup Language) tags dentro de la página web

APLICACIONES DE APOYO A LA TOMA DE DECISIONBES Y HERRAMINETAS DE SOPORTE A LA GESTIÓN
Los tipos de minería que ayudan al análisis de datos, constituyen las bases para el...
tracking img