Web Mining
Web Mining
Aplicación técnicas data mining sobre datos que Web Descubrimiento automático información útil de documentos y servicios Web
Texto, imágenes, video Hiperenlaces Archivo log
Netcraft survey
Páginas Infinito (técnicamente) Mucha Duplicación (30-40%) Estimación páginas estáticas únicas HTML
• Google = 8 billones(?), Yahoo = 20 b
Número sitios web (Junio 2007)Netcraft :124 millones de sites 12.8 millones de sitios nuevos en 2007 (http://news.netcraft.com/archives/web_ser ver_survey.html)
Netcraft survey
http://news.netcraft.com/archives/web_server_survey.html
Top Developers
Web: Grafo
Nodos: páginas (sin contenido), Arcos: links Diferenciar páginas “importantes” de no importantes
Page rank
Comunidades de páginas relacionadas
Hubsand Authorities
Detectar web spam
Trust rank
Web Mining
Clasificación de datos en el WWW Texto, imágenes, video Hiperenlaces Archivo log Web Content
Web Structure Web Usage
Web Mining Taxonomy
Web Mining
Uses interconnections between web pages to give weight to pages
Web Content Mining
Web Structure Mining
Web Usage Mining
Web Page Content Mining
Identifyinformation within given web pages
Search Result Mining
Categorizes documents
General Access Pattern Tracking
Understand access patterns and trends to improve structure
Customized Usage Tracking
Analyzes access patterns of a user to improve response
Web Content Mining
Proceso de extraer información útil de los contenidos de los documentos Web Extraer texto de los documentos HTML Eliminarsufijos y conservar la raíz (stemming) Eliminar palabras que no aportan información (stop words) Determinar la colección de palabras con frecuencia de aparición alta Calcular la frecuencia de tipos o conceptos, por documento
Web Content Mining
Document classification Dadas categorías (dependen del contenido del sitio web analizado) clasificar el contenido de una nueva página Web Documentclustering Agrupar documentos basados en métricas (función de similitud)
Web Content Mining:Utilidad
Identificar tópicos representados por un documento Web Categorizar documentos Web Encontrar páginas Web mediante búsquedas por tópicos de interés Mostrar/Ocultar documentos basados en un puntaje de relevancia
Preprocesamiento del texto
Eliminar stop words)
(Stemming,
ExtraerCaracterísticas Selección de Características Extraer conocimiento con algoritmos de minería Interpretar los resultados de los algoritmos de minería
Web Content Mining
Web Content Mining
Web Structure Mining
Encuentra estructura de página Web que sería apropiada para un propósito de navegación Permite conocer la frecuencia de uso de un camino específico en un sitio Web Secuencia mas utilizadaDeterminación enlaces poco utilizados
Web Usage Mining
Utiliza un archivo log como entrada :huella de navegación de usuario en el Web Analiza el comportamiento de los usuarios Descubre patrones de uso Permite llevar a cabo el diseño de un sitio Web según perfiles de usuario identificados
Archivo Log Estructura
Dirección IP del usuario Tiempo de acceso Método solicitado (Get ó Post) URLde la página accesada Protocolo (http/1.0) Código retornado Número de bytes transmitidos
Web mining
203.30.5.145 www.acr-news.org - [01/Jun/1999:03:09:21 -0600] "GET /Calls/OWOM.html HTTP/1.0" 200 3942 "http://www.lycos.com/cgibin/ pursuit?query=advertising+psychology&maxhits=20&cat=dir" "Mozilla/4.5 [en] (Win98; I)" 203.30.5.145 www.acr-news.org - [01/Jun/1999:03:09:23 -0600] "GET/Calls/Images/earthani.gif HTTP/1.0" 200 10689 "http://www.acr-news.org/Calls/OWOM.html" "Mozilla/4.5 [en] (Win98; I)" 203.30.5.145 www.acr-news.org - [01/Jun/1999:03:09:24 -0600] "GET /Calls/Images/line.gif HTTP/1.0" 200 190 "http://www.acr-news.org/Calls/OWOM.html" "Mozilla/4.5 [en] (Win98; I)" 203.30.5.145 www.acr-news.org - [01/Jun/1999:03:09:25 -0600] "GET /Calls/Images/red.gif HTTP/1.0" 200 104...
Regístrate para leer el documento completo.