Mineria de datos iii - 4

Páginas: 14 (3254 palabras) Publicado: 1 de junio de 2011

Características Especiales de la Extracción de Conocimiento de Info. No Estructurada
Objetivos ligeramente Especiales: • Búsqueda de Información Relevante o Relacionada.

3.4. Web Mining

• Creación de Nueva Información a partir de información existente (resúmenes, listas, ...). • Personalización de la Información. • Aprendizaje a partir de los usuarios, visitantes o consumidores.

1

2Métodos No Apropiados
• Sin una profunda transformación de los datos, muchas técnicas de aprendizaje automático son inútiles para muchas aplicaciones: • Métodos de clasificación (árboles de decisión, fence & fill, ...): están basados en una clase dependiente de un número de atributos predeterminados (exceptuando Naive Bayes). • Métodos numéricos (regresión, redes neuronales, ...): los datosson simbólicos, no numéricos. • Métodos por casos (kNN, CBR, ...): tiempos de respuesta serían muy altos.

Métodos Apropiados
• No estructurada: • Métodos Bayesianos. • Otros métodos estadísticos. • Métodos relacionales. • Semiestructurada: • Gramaticales (autómatas). • Métodos relacionales con Constructores.

3

4

Web Mining
Web Mining se refiere al proceso global de descubririnformación o conocimiento potencialmente útil y previamente desconocido a partir de datos de la Web. (Etzioni 1996) Web Mining combina objetivos y técnicas de distintas áreas: • Information Retrieval (IR) • Natural Language Processing (NLP) • Data Mining (DM) • Databases (DB) • WWW research • Agent Technology
5

Web Mining
¿Está la Información de la Web lo suficientemente estructurada parafacilitar minería de datos efectiva? (Etzioni 1996) Web Mining se puede estructurar en fases (Kosala & Blockeel 2000): • Descubrimiento de recursos: localización de documentos relevantes o no usuales en la red. Ésta es la función de índices buscadores (extraen contenido en palabras, zona del documento, idioma) e índices temáticos (clasifican los documentos). • Extracción de información: extraerdeterminada información a partir de un documento, ya sea HTML, XML, texto, ps, PDF, LaTeX, FAQs, .... • Generalización: descubrir patrones generales a partir de sitios web individuales: clustering, asociaciones entre documentos. • Análisis, validación e interpretación de los patrones. 6

1

Web Mining
Visión clásica como Recuperación de Información: Web Mining como Information Retrieval (IR):Disparado por consulta (query-triggered)
• Es el objetivo de numerosas herramientas: buscadores e índices. • Las herramientas son clásicas estadísticas y ad-hoc....

Web Mining
No sólo se requiere información relevante sino información de calidad o autorizada. Para ello es importantísimo no analizar los documentos de forma inconexa, sino analizar su red de interconexiones (sus enlaces) • Muchainformación está en enlaces entrantes: muchas páginas no se autodescriben. P.ej. una página puede ser clasificada por los enlaces que le llegan (referentes), que suelen ir acompañados de una pequeña descripción de la página o junto a otros enlaces similares (clustering). • También (no tanta) información sobre la página se encuentra en enlaces salientes.
7 8

Visión más ambiciosa como Extracción deInformación: Web Mining como Information Extraction (IE): Disparado por datos (data-triggered)
• Es una visión más ambiciosa del Web Mining • Las herramientas son más generales y de aprendizaje automático.

IR persigue seleccionar documentos relevantes mientras que IE persigue extraer hechos relevantes a partir de los documentos. (Kosala & Blockeel 2000)

Clasificación del Web MiningClasificación no disjunta (Kosala & Blockeel 2000):

Web Content Mining
Web Content Mining: Las técnicas varían dependiendo del tipo de documento: • Text Mining: técnicas de recuperación de información (IR) fundamentalmente. Técnicas estadísticas y lingüísticas. • Hypertext Mining: no sólo se refiere a enlaces entre documentos sino también intro-documentos (OEM). Se ha de construir un grafo de...

Leer documento completo

Regístrate para leer el documento completo.

Mineria de datos iii - 4

Estos documentos también te pueden resultar útiles

Mineria de datos iii

Mineria de datos iii

Mineria de datos

Mineria de Datos

MINERIA DE DATOS

Mineria de datos

Mineria de datos

mineria de datos

OTRAS TAREAS POPULARES

Únete a millones de otros estudiantes y comienza tu investigación

Conviértase en miembro formal de Buenas Tareas