Web Mining

Páginas: 8 (1900 palabras) Publicado: 3 de junio de 2012
Web Mining

Web Mining
Aplicación técnicas data mining sobre datos que Web Descubrimiento automático información útil de documentos y servicios Web
Texto, imágenes, video Hiperenlaces Archivo log

Netcraft survey
Páginas Infinito (técnicamente) Mucha Duplicación (30-40%) Estimación páginas estáticas únicas HTML
• Google = 8 billones(?), Yahoo = 20 b

Número sitios web (Junio 2007)Netcraft :124 millones de sites 12.8 millones de sitios nuevos en 2007 (http://news.netcraft.com/archives/web_ser ver_survey.html)

Netcraft survey

http://news.netcraft.com/archives/web_server_survey.html

Top Developers

Web: Grafo
Nodos: páginas (sin contenido), Arcos: links Diferenciar páginas “importantes” de no importantes
Page rank

Comunidades de páginas relacionadas
Hubsand Authorities

Detectar web spam
Trust rank

Web Mining
Clasificación de datos en el WWW Texto, imágenes, video Hiperenlaces Archivo log Web Content

Web Structure Web Usage

Web Mining Taxonomy

Web Mining

Uses interconnections between web pages to give weight to pages

Web Content Mining

Web Structure Mining

Web Usage Mining

Web Page Content Mining
Identifyinformation within given web pages

Search Result Mining
Categorizes documents

General Access Pattern Tracking
Understand access patterns and trends to improve structure

Customized Usage Tracking
Analyzes access patterns of a user to improve response

Web Content Mining
Proceso de extraer información útil de los contenidos de los documentos Web Extraer texto de los documentos HTML Eliminarsufijos y conservar la raíz (stemming) Eliminar palabras que no aportan información (stop words) Determinar la colección de palabras con frecuencia de aparición alta Calcular la frecuencia de tipos o conceptos, por documento

Web Content Mining
Document classification Dadas categorías (dependen del contenido del sitio web analizado) clasificar el contenido de una nueva página Web Documentclustering Agrupar documentos basados en métricas (función de similitud)

Web Content Mining:Utilidad
Identificar tópicos representados por un documento Web Categorizar documentos Web Encontrar páginas Web mediante búsquedas por tópicos de interés Mostrar/Ocultar documentos basados en un puntaje de relevancia

Preprocesamiento del texto
Eliminar stop words)

(Stemming,

ExtraerCaracterísticas Selección de Características Extraer conocimiento con algoritmos de minería Interpretar los resultados de los algoritmos de minería

Web Content Mining

Web Content Mining

Web Structure Mining
Encuentra estructura de página Web que sería apropiada para un propósito de navegación Permite conocer la frecuencia de uso de un camino específico en un sitio Web Secuencia mas utilizadaDeterminación enlaces poco utilizados

Web Usage Mining
Utiliza un archivo log como entrada :huella de navegación de usuario en el Web Analiza el comportamiento de los usuarios Descubre patrones de uso Permite llevar a cabo el diseño de un sitio Web según perfiles de usuario identificados

Archivo Log Estructura
Dirección IP del usuario Tiempo de acceso Método solicitado (Get ó Post) URLde la página accesada Protocolo (http/1.0) Código retornado Número de bytes transmitidos

Web mining
203.30.5.145 www.acr-news.org - [01/Jun/1999:03:09:21 -0600] "GET /Calls/OWOM.html HTTP/1.0" 200 3942 "http://www.lycos.com/cgibin/ pursuit?query=advertising+psychology&maxhits=20&cat=dir" "Mozilla/4.5 [en] (Win98; I)" 203.30.5.145 www.acr-news.org - [01/Jun/1999:03:09:23 -0600] "GET/Calls/Images/earthani.gif HTTP/1.0" 200 10689 "http://www.acr-news.org/Calls/OWOM.html" "Mozilla/4.5 [en] (Win98; I)" 203.30.5.145 www.acr-news.org - [01/Jun/1999:03:09:24 -0600] "GET /Calls/Images/line.gif HTTP/1.0" 200 190 "http://www.acr-news.org/Calls/OWOM.html" "Mozilla/4.5 [en] (Win98; I)" 203.30.5.145 www.acr-news.org - [01/Jun/1999:03:09:25 -0600] "GET /Calls/Images/red.gif HTTP/1.0" 200 104...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • Analisis multidimensional y web mining
  • Mining
  • Aplicaci N De T Cnicas De Web Mining Sobre Los
  • Data mining
  • Data mining
  • Data Mining
  • DATA MINING
  • Data Mining

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS