Mineria de datos iii - 1

Solo disponible en BuenasTareas
  • Páginas : 6 (1340 palabras )
  • Descarga(s) : 0
  • Publicado : 1 de junio de 2011
Leer documento completo
Vista previa del texto
Temario
1. Introducción

PARTE III: MINERÍA DE DATOS
José Hernández Orallo
jorallo@dsic.upv.es

1.1. Finalidades y Evolución de los Sistemas de Información. 1.2. Herramientas para la Toma de Decisiones: diferencias e interrelación. 1.3. Almacenes de Datos, OLAP y Minería de Datos: definición e interrelación.

2. Almacenes de Datos
2.1. Introducción a los Almacenes de Datos. 2.2.Arquitectura de un Sistema de Almacén de Datos. 2.3. Explotación de un Almacén de Datos: Herramientas OLAP. 2.4. Sistemas ROLAP y MOLAP. 2.5. Carga y Mantenimiento de un Almacén de Datos. 2.6. Diseño de un Almacén de Datos. 2.7. Líneas de Investigación Abiertas.

3. Minería de Datos
3.1. Introducción a la Minería de Datos (DM) 3.2. El proceso de KDD 3.3. Técnicas de Minería de Datos 3.4. Web Mining3.5. Líneas de Investigación Abiertas

Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia

2

Objetivos Parte III (1 de 2)
• Reconocer la problemática del análisis de grandes volúmenes de datos y de los beneficios de su uso sistemático para la obtención de modelos y patrones predictivos o descriptivos. • Conocer las fases del Descubrimiento de Conocimientode Bases de Datos y la importancia de las mismas en el éxito del proceso (en especial las de limpieza y selección de datos). • Conocer las distintas técnicas de aprendizaje automático y estadísticas utilizadas en minería de datos, su potencial, su coste computacional y sus limitaciones de representación y de inteligibilidad.
3

Objetivos Parte III (2 de 2)
• Elegir, para un problema concreto,qué técnicas de minería de datos son más apropiadas. • Generar los modelos y patrones elegidos utilizando una herramienta o paquete de minería de datos. • Evaluar la calidad de un modelo, utilizando técnicas sencillas de evaluación (validación cruzada). • Utilizar métodos de combinación de técnicas (p.ej. voting) y de reiteración (p.ej. boosting). • Conocer la problemática especial de la mineríasobre la web (documentos textuales e hipertextuales) y las técnicas más usuales. 4

Motivación
Nuevas Necesidades del Análisis de Grandes Volúmenes de Datos

3.1. Introducción a la Minería de Datos

• El aumento del volumen y variedad de información que se encuentra informatizada en bases de datos digitales ha crecido espectacularmente en la última década. • Gran parte de esta informaciónes histórica, es decir, representa transacciones o situaciones que se han producido. • Aparte de su función de “memoria de la organización”, la información histórica es útil para predecir la información futura.

5

6

1

Motivación
• La mayoría de decisiones de empresas, organizaciones e instituciones se basan también en información de experiencias pasadas extraídas de fuentes muydiversas. • las decisiones colectivas suelen tener consecuencias mucho más graves, especialmente económicas, y, recientemente, se deben basar en volúmenes de datos que desbordan la capacidad humana. El área de la extracción (semi-)automática de conocimiento de bases de datos ha adquirido recientemente una importancia científica y económica inusual
7

Motivación
• Tamaño de datos poco habitual paraalgoritmos clásicos: • número de registros (ejemplos) muy largo (108-1012 bytes). • datos altamente dimensionales (nº de columnas/atributos): 102-104. • El usuario final no es un experto en aprendizaje automático ni en estadística. • El usuario no puede perder más tiempo analizando los datos: • industria: ventajas competitivas, decisiones más efectivas. • ciencia: datos nunca analizados, bancos nocruzados, etc. • personal: “information overload”... Los sistemas clásicos de estadística son difíciles de usar y no escalan al número de datos típicos en bases de datos.
8

Relación de DM con Otras Disciplinas
Aparece... • “Descubrimiento de Conocimiento a partir de Bases de Datos” (KDD, del inglés Knowledge Discovery from Databases). “proceso no trivial de identificar patrones válidos,...
tracking img