Data minig warehouse
José A. Royo http://www.cps.unizar.es/~jaroyo email: joalroyo@unizar.es Departamento de Informática e Ingeniería de Sistemas
¿Por qué DW y DM?
• Mayor poder de procesamiento y sofisticación de herramientas • Demanda de mejora del acceso a datos • Necesidad de información para la toma de decisiones • Recopilación de información ⇒ Alto Coste
Sistemas deInformación-2003
José Alberto Royo
2
Información en las empresas
• La Información proviene de fuentes internas (sistemas de producción) y externas (hasta un 20%) • Problemas
– Saturación de información – Difícil de acceder – No selectiva
Data Warehouse
• La información se necesita para:
– Competir (comparación con otros productos) – Personalizar (simular que cada cliente es único)Sistemas de Información-2003 José Alberto Royo 3 Sistemas de Información-2003 José Alberto Royo 4
Data Warehouse
• Definición: colección de datos orientados al tema, integrados, no volátiles e historiados, organizados para el apoyo de un proceso de ayuda a la decisión • Se guarda toda la información útil (proveniente de varia fuentes) en un único lugar
Sistemas de Información-2003 José AlbertoRoyo 5
Data Warehouse
• Orientación al tema
– Disponer de toda la información sobre un tema
• No organizar los datos según los procesos funcionales
– La información común a varios temas no debe duplicarse – Los Data Mart apoyan la orientación al tema
• BD orientada al tema puesta a disposición de los usuarios en un contexto de decisión descentralizado
Sistemas de Información-2003 JoséAlberto Royo 6
Data Warehouse
• Datos integrados:
– Los datos deben formatearse y unificarse para llegar a un estado coherente
• Ej.: consolidar todas las informaciones respecto a un cliente
Data Warehouse
• Datos no volátiles:
– Consecuencia de la historilización – = consulta en = periodo ⇒ = resultado – Sistemas de producción no volátiles
• Datos historiados
– Los datos no seactualizan nunca
• representan un valor en un momento concreto
• Infocentro:
– similar al Data Warehouse pero centrado en el sistema de producción
– Los datos se referencian temporalmente
Sistemas de Información-2003 José Alberto Royo 7 Sistemas de Información-2003 José Alberto Royo 8
Data Warehouse: Estructura
• Varia clases de datos
Datos fuertemente agregados Nivel de síntesis
TR2Datos
• Matrices Multidimensionales o hipercubos
– Ej.: periodo impositivo, producto y región – Pivotación: cambio de orientación de los ejes
REG5 REG1 REG2 REG3 REG4 REG5 TR2
Nivel de historial
Producto Tr im est re
Datos detallados historiados
Región
P2
P1
Datos: Representaciones Jerárquicas
• Exploración ascendente (roll-up)
– Agrupación de datos – Ej.: Agrupar datosmensuales en trimestrales
Datos: Representación física
• 2 Tablas
– Tabla de dimensiones – Tabla de hechos
• Exploración Descendente (drill-down)
– División de datos – Ej.: Ventas nacionales ⇒ provinciales
• Tipos de esquema
– Esquema de estrella:
• Tabla de hechos con una única tabla para cada dimensión
– Esquema de copos
• Tablas dimensiónales organizadas jerárquicamenteSistemas de Información-2003 José Alberto Royo 11 Sistemas de Información-2003 José Alberto Royo 12
P2
Sistemas de Información-2003
José Alberto Royo
9
Sistemas de Información-2003
José Alberto Royo
TR1
REG1
• Estructura multidimensional
REG2 REG3
Metadatos
Datos agregados Datos detallados
TR1 P1
REG4
10
Construcción de un Data Warehouse
• Adquisición:Recopilar información de varias fuentes y unificarla
– Extracción – Preparación (formateo y limpieza) – Carga
DW: Características
Salvado de datos limpios OLAP
DATOS
Limpieza Bases de Datos
Reformateo
DSS
METADATOS
• Almacenamiento: basado en un SGBD
– El historial influirá en la estructura física
Otras entradas de datos Actualizaciones/Nuevos Datos
MINERIA DE DATOS
•...
Regístrate para leer el documento completo.