Analisis
José Manuel Gutiérrez, Universidad de Cantabria. (2001)
Extracción de Conocimiento en
Grandes Bases de Datos
http://etsiso2.macc.unican.es/~meteo
http://personales.unican.es/gutierjm
J o sé M. Gutiérrez
Dpto. de Matemática Aplicada,
Universidad de Cantabria, Santander
http://personales.unican.es/gutierjm
El Mundo de la Información y sus Problemas.
•
José ManuelGutiérrez, Universidad de Cantabria. (2001)
Cada vez se genera más información y se hace más fácil el acceso
masivo a la misma (existen gran cantidad de bases de datos on-line)
÷ Transacciones bancarias, Internet y la Web, observaciones científicas
(biología, altas energías, etc. ) "tranNASA’s EOS (Earth Observation System)".
•
La tecnología es barata y los sistemas de gestión de bases de datosson capaces de trabjar con cantidades masivas de datos (Terabytes).
Los datos contienen información útil "CONOCIMIENTO" !!!
http://personales.unican.es/gutierjm
•
Necesitamos extraer información (conocimiento) de estos datos:
÷Ραπιδεζ y confiabilidad.
÷Χαπαχιδαδ de modelización y escalabilidad.
÷Εξπλιχαχι⌠ν e Interpretación de los resultados (visualización, …).
WalMart captura transaccionesde 2900 tiendas en 6 países. Esta información e acumula en
una base de datos masiva de 7.5 terabyte. WalMart permite que más de 3500 proveedores
accedan a los datos relativos a sus productos para realizar distintos análisis. Así pueden
identificar clientes, patrones de compras, etc. En 1995, WalMart computers procesó más de
un millón de consultas complejas.
Datos, Información y Conocimiento.¿Qué diferencias hay entre información, datos y conocimiento?
José Manuel Gutiérrez, Universidad de Cantabria. (2001)
÷ Informalmente se utilizan indistintamente, con pequeños matices.
÷ información y datos se pueden referir a cualquier cosa, aunque
“Datos” suele referir a la “evidencia”.
÷ Conocimiento es subjetivo:
depende de las intenciones (objetivo del aprendizaje).
debe serinteligible para el que aprende o el que encarga el aprendizaje (usuario).
http://personales.unican.es/gutierjm
¿Qué es aprendizaje?
÷ (visión genérica, Mitchell 1997) es mejorar el comportamiento a partir de la
experiencia. Aprendizaje = Inteligencia.
÷ (visión más estática) es la identificación de patrones , de regularidades,
existentes en la evidencia.
÷ (visión externa) es la predicción deobservaciones futuras con plausibilidad.
÷ (visión teórico- informacional, Solomonoff 1966) es
eliminación de redundancia = compresión de información .
Acceso a los Datos. Evolución histórica.
José Manuel Gutiérrez, Universidad de Cantabria. (2001)
La necesidad de almacenar información ha motivado históricamente el desarrollo de
sistemas más eficientes, con mayor capacidad y másbaratos de almacenamiento.
http://personales.unican.es/gutierjm
•
•
Bases de datos relacionales.
DBMS (Data Base Management Systems) y repositorios de información:
– Bases de datos orientadas a objetos y objeto-relacionales.
– Bases de datos espaciales (geográficas).
– Bases de datos de texto y multimedia.
– WWW.
OLAP (On-Line Analytical Processing)
José Manuel Gutiérrez, Universidad deCantabria. (2001)
Sobre estas mismas bases de datos de trabajo ya se puede extraer conocimiento
(visión tradicional).
÷Σε mantiene el trabajo transaccional diario de los sistemas de información
originales (conocido como OLTP, On- Line Transactional Processing ).
÷Σε hace análisis de los datos en tiempo real sobre la misma base de
datos( conocido como OLAP, On- Line Analytical Processing ),Según la organización de la información copiada se distingue:
÷ΡΟΛ“Π (Relational OLAP): el almacén de datos es relacional.
http://personales.unican.es/gutierjm
÷ΜΟΛ“Π (Multidim OLAP): el almacén de datos es una matriz multidimensional.
Cada atributo relevante se establece en una dimensión, que se puede agregar o desagregar.
Data Warehouses. Génesis.
José Manuel Gutiérrez, Universidad de...
Regístrate para leer el documento completo.