Mineria de datos iii - 4

Solo disponible en BuenasTareas
  • Páginas : 14 (3254 palabras )
  • Descarga(s) : 0
  • Publicado : 1 de junio de 2011
Leer documento completo
Vista previa del texto
Características Especiales de la Extracción de Conocimiento de Info. No Estructurada
Objetivos ligeramente Especiales: • Búsqueda de Información Relevante o Relacionada.

3.4. Web Mining

• Creación de Nueva Información a partir de información existente (resúmenes, listas, ...). • Personalización de la Información. • Aprendizaje a partir de los usuarios, visitantes o consumidores.

1

2Métodos No Apropiados
• Sin una profunda transformación de los datos, muchas técnicas de aprendizaje automático son inútiles para muchas aplicaciones: • Métodos de clasificación (árboles de decisión, fence & fill, ...): están basados en una clase dependiente de un número de atributos predeterminados (exceptuando Naive Bayes). • Métodos numéricos (regresión, redes neuronales, ...): los datosson simbólicos, no numéricos. • Métodos por casos (kNN, CBR, ...): tiempos de respuesta serían muy altos.

Métodos Apropiados
• No estructurada: • Métodos Bayesianos. • Otros métodos estadísticos. • Métodos relacionales. • Semiestructurada: • Gramaticales (autómatas). • Métodos relacionales con Constructores.

3

4

Web Mining
Web Mining se refiere al proceso global de descubririnformación o conocimiento potencialmente útil y previamente desconocido a partir de datos de la Web. (Etzioni 1996) Web Mining combina objetivos y técnicas de distintas áreas: • Information Retrieval (IR) • Natural Language Processing (NLP) • Data Mining (DM) • Databases (DB) • WWW research • Agent Technology
5

Web Mining
¿Está la Información de la Web lo suficientemente estructurada parafacilitar minería de datos efectiva? (Etzioni 1996) Web Mining se puede estructurar en fases (Kosala & Blockeel 2000): • Descubrimiento de recursos: localización de documentos relevantes o no usuales en la red. Ésta es la función de índices buscadores (extraen contenido en palabras, zona del documento, idioma) e índices temáticos (clasifican los documentos). • Extracción de información: extraerdeterminada información a partir de un documento, ya sea HTML, XML, texto, ps, PDF, LaTeX, FAQs, .... • Generalización: descubrir patrones generales a partir de sitios web individuales: clustering, asociaciones entre documentos. • Análisis, validación e interpretación de los patrones. 6

1

Web Mining
Visión clásica como Recuperación de Información: Web Mining como Information Retrieval (IR):Disparado por consulta (query-triggered)
• Es el objetivo de numerosas herramientas: buscadores e índices. • Las herramientas son clásicas estadísticas y ad-hoc....

Web Mining
No sólo se requiere información relevante sino información de calidad o autorizada. Para ello es importantísimo no analizar los documentos de forma inconexa, sino analizar su red de interconexiones (sus enlaces) • Muchainformación está en enlaces entrantes: muchas páginas no se autodescriben. P.ej. una página puede ser clasificada por los enlaces que le llegan (referentes), que suelen ir acompañados de una pequeña descripción de la página o junto a otros enlaces similares (clustering). • También (no tanta) información sobre la página se encuentra en enlaces salientes.
7 8

Visión más ambiciosa como Extracción deInformación: Web Mining como Information Extraction (IE): Disparado por datos (data-triggered)
• Es una visión más ambiciosa del Web Mining • Las herramientas son más generales y de aprendizaje automático.

IR persigue seleccionar documentos relevantes mientras que IE persigue extraer hechos relevantes a partir de los documentos. (Kosala & Blockeel 2000)

Clasificación del Web MiningClasificación no disjunta (Kosala & Blockeel 2000):

Web Content Mining
Web Content Mining: Las técnicas varían dependiendo del tipo de documento: • Text Mining: técnicas de recuperación de información (IR) fundamentalmente. Técnicas estadísticas y lingüísticas. • Hypertext Mining: no sólo se refiere a enlaces entre documentos sino también intro-documentos (OEM). Se ha de construir un grafo de...
tracking img