Datamining
EJEMPLO
Organización: Cadena de Supermercados. Actividad objeto de análisis: Ventas de Productos. Información registrada sobre una venta: del producto “Pen Jing” se han vendido en el almacén “Almacén nro.1” el día 17/7/2007, 5 unidades por un valor de $72.100” Para hacer el análisis no interesa la venta individual realizada a un cliente sino las ventas diarias de productos enlos distintos almacenes de la cadena.
1
Minería de Datos
Marca Descripción Categoría Departamento Nro_producto Tipo Día Año Mes Trimestre Semana
Valor unidades
Almacén Ciudad Tipo Región
2
Minería de Datos
Dimensiones (puntos de vista) desde los que se puede analizar la actividad.
Marca Descripción Categoría Departamento Nro_producto Tipo Día Año Mes Trimestre Semana
Valorunidades
Almacén
Actividad que es objeto de análisis con los indicadores que interesa analizar
Ciudad
Tipo
Región
3
Minería de Datos
Modelo multidimensional:
En un esquema multidimensional se representa una actividad que es objeto de análisis (hecho) y las dimensiones que caracterizan la actividad (dimensiones). La información relevante sobre el hecho (actividad) serepresenta por un conjunto de indicadores (medidas o atributos de hecho). La información descriptiva de cada dimensión se representa por un conjunto de atributos (atributos de dimensión).
4
Minería de Datos
Marca Descripción Categoría
hecho
Semana
Departamento Nro_producto
Tipo Día
Mes Año Trimestr e
Valor unidades
medidas
Almacén Ciudad Tipo
dimensión
atributosRegión
5
Minería de Datos
Entre los atributos de una dimensión se definen jerarquías
Producto nro. producto categoría departamento
Almacén ciudad almacén tipo región
Tiempo día mes trimestre año
semana
6
Minería de Datos
Este esquema multidimensional recibe varios nombres:
• estrella: si la jerarquía de dimensiones es lineal
tiempo
proyecto
PERSONAL
equipo
•estrella jerárquica o copo de nieve: si la jerarquía no es lineal.
tiempo producto lugar
VENTAS
7
Minería de Datos
• Se pueden obtener hechos a diferentes niveles de agregación:
• obtención de medidas sobre los hechos parametrizadas por atributos de las dimensiones y restringidas por condiciones impuestas sobre las dimensiones
“El primer trimestre de 2007 la empresa vendió en Valenciapor un Valor de $15.400.000 del producto Pen Jing.”
HECHO:
Ventas en millones de Pesos
LUGAR: Alicante ciudad ZaragozaMurcia
Madrid Barcelona Valencia
Jerarquía de dimensiones: PRODUCTO
Categoría Gama \ Prov. /
LUGAR
País Ciudad Supermercado
TIEMPO
Año / / \ Día | Hora \ \ / Trimestre \ Mes Semana
PRODUCTO: artículo
Zumo Piña 1l. 17 Cola 33cl. 57 Jabón Salitre 93Pen jing 15,4
Cerveza Kiel 20 cl 5 Leche Entera Cabra 1l 12
1 2 3 4 1 2 2008 2007
Artículo
TIEMPO: trimestre
Un nivel de agregación para un conjunto de dimensiones se denomina cubo.
8
Minería de Datos
¿Se puede recopilar toda la información necesaria en un único esquema estrella o copo de nieve? NO : necesidad de varios esquemas. Cada uno de estos esquemas se denominaDatamart.
tiempo
product o
proveedor
producto
VENTAS
lugar tiempo
lugar
PRODUCCIÓN
tiempo
equipo
PERSONAL
proyect o
producto
lugar tiempo
Almacén formado por 4 Datamarts.
CAMPAÑA
9
Arquitectura de un Almacén de Datos
El almacén de datos puede estar formado por varios datamarts y, opcionalmente, por tablas adicionales.
Data martSubconjunto de un almacén de datos, generalmente en forma de estrella o copo de nieve.
Se definen para satisfacer las necesidades de un departamento o sección de la organización.
Contiene menos información de detalle y más información agregada.
10
Herramientas OLAP
Las herramientas de OLAP presentan al usuario una visión multidimensional de los datos (esquema multidimensional) para cada...
Regístrate para leer el documento completo.