ingeniero de compus
Warehousing: Pasado, Presente y Futuro
Alejandro Vaisman
Universidad de Buenos Aires / Universidad de
Chile
avaisman@dc.uba.ar
Jornadas de Data Mining
Facultad de Ciencias Exactas y Naturales – UBA
29 de Setiembre de 2006
9/29/2006
1
Agenda
• Conceptos generales
• Tópicos de investigación
• Pasado y presente
• Futuro
9/29/2006
2Agenda
• Conceptos generales
• Tópicos de investigación
• Pasado y presente
• Futuro
9/29/2006
3
Definición
Data Warehousing: almacenamiento,
transformación y distribución de datos
útiles para los responsables de tomar
decisiones
9/29/2006
4
Definición (cont.)
“Un Data Warehouse es una colección de
datos orientada al negocio, integrada,
variante en el tiempo y novolátil para el
soporte del proceso de toma de decisiones
de la gerencia.”
W.H. Inmon
9/29/2006
5
Características
• Orientado al Negocio - organiza y presenta los datos
desde la perspectiva del usuario.
• Maneja gran volumen de datos - contiene datos
históricos.
• Almacena información sobre diversos medios - a
causa del gran volumen que debe manejar.
9/29/2006
6Características(cont.)
• Abarca múltiples versiones de un esquema de base
de datos - debido a la información histórica que
contiene.
• Sumariza y agrega información - para presentarla de
una manera comprensible para los usuarios.
• Integra y asocia información proveniente de
diversas fuentes - datos recolectados durante años por
diversas aplicaciones.
9/29/2006
7
Motivación
•
•
•
•
•Mercados altamente dinámicos y competitivos.
Necesidad de tomar decisiones rápidamente.
Aumento de la capacidad de almacenamiento.
Crecientes volúmenes de información disponible.
Baja de costos del Hardware.
9/29/2006
8
OLTP - On Line Transaction Processing
• Procesamiento de los datos operacionales.
• Gran nivel de detalle.
• Sistemas diseñados para soportar
actualizacionesconsistentes (normalización).
• Ineficiente para toma de decisiones.
• Consultas orientadas a obtener como respuesta
unos pocos registros.
9/29/2006
9
OLAP - On Line Analytical Processing
• Sistemas que permiten recolectar y organizar la información
analítica realmente necesaria y disponer inmediatamente de
ella en diversos formatos (tablas, gráficos, reportes, etc.).
• Analizan losdatos desde diferentes perspectivas
(dimensiones) del negocio.
• Soportan análisis complejos de grandes volúmenes de datos.
• En consecuencia:
– Distintas tecnicas de diseño requeridas (p.ej. desnormalización)
– Distintos mecanismos de procesamiento de consultas (orientados a
consultas de agregación)
9/29/2006
10
OLTP vs. OLAP
OLTP
Usuario Tipico
Uso del sistema
Interaccionusuarios
Unidad de trabajo
Caracteristicas
Registros accedidos
Cant. de usuarios
Focalizacion
9/29/2006
empleado
operacional
predeterminada
transaccion
lectura/escritura
decenas
miles
ABM de datos
OLAP
profesional
análisis
ad-hoc
consulta
lectura
millones
cientos
extraer información
11
Componentes
• Fuentes de datos. Sistemas operacionales,
información externa, etc.• Meta Datos. Estructura, definición y origen de los
Datos.
• Data Warehouse. Datos organizados y
herramientas para su análisis.
• Usuarios . Responsables de tomar decisiones.
9/29/2006
12
Tres Clases de Data Warehouse
• Enterprise Warehouse
– Representa la información de toda la organización
• Data Mart
– Un subconjunto de la información de la organización,
que es de valorpara grupos específicos de usuarios.
• Virtual Warehouse
– Un conjunto de vistas sobre los datos operacionales
– Solo unas pocas se materializan
9/29/2006
13
Arquitectura Típica
Otras
Fuentes
Metadata
Monitor
&
Integrador
OLAP Server
Extracción
BD
Transformación
Operacionales Carga
Actualización
Data
Warehouse
Server
Data Marts
Fuentes de datos...
Regístrate para leer el documento completo.