Minería de Datos
La necesidad de analizar grandes
volúmenes de datos existentes en
distintas aplicaciones y áreas del
conocimiento.
Herramienta para hacer modelos de
pronósticos, predecir patrones o
comportamientos a futuro.
3
INTUICION
A
N
A
L
I
S
I
S
4
Desde los años 60 los estadísticos
manejaban términos como data
fishing, data mining o data
archeology con la idea deencontrar
correlaciones sin una hipótesis
previa en bases de datos con ruido.
A principios de los años ochenta,
Agrawal, Wiederhold, Blum y
Piatetsky-Shapiro, entre otros,
empezaron a consolidar los términos
de Data Mining y KDD (Knowledge
Discovery in Data).
5
A finales de los años ochenta sólo
existían un par de empresas
dedicadas a esta tecnología; en
2002 existen más de 100empresas
en el mundo que ofrecen alrededor
de 300 soluciones.
Esta tecnología ha sido un buen
punto de encuentro entre personas
pertenecientes al ámbito académico
y al de los negocios.
• Piezas de información que representan los atributos cualitativos o
cuantitativos de una variable o un conjunto de variables. Son
frecuentemente vistos como el nivel mas bajo de abstracción de
donde sederivan la información y el conocimiento.
• Tipos de datos
– Continuos
– Binarios
– Discretos,
– Caracteres
– Simbólicos
6
La información se puede definir como un
conjunto de datos procesados y que tienen
un significado (relevancia, propósito y
contexto), y que por lo tanto son de utilidad
para quién debe tomar decisiones, al
disminuir su incertidumbre. [7]
Los datos se puedentransforman en
información añadiéndoles valor:
7
El conocimiento es una mezcla de
experiencia, valores, información y knowhow que sirve como marco para la
incorporación de nuevas experiencias e
información, y es útil para la acción. Se
origina y aplica en la mente de los
conocedores.
En las organizaciones con frecuencia no sólo
se encuentra dentro de documentos o
almacenes de datos, sinoque también está
en rutinas organizativas, procesos, prácticas,
y normas. [7]
8
Es uno de los subprocesos de KDD
(Knowledge Discovery in Databases)
que aplica algoritmos para la
extracción automática de patrones
previamente
desconocidos
en,
usualmente,
datos
masivos,
incompletos y ruidosos.
9
10
Representar el
comportamiento
Hipótesis
BD
BASES DE
DATOSDatos
Operacionales
Encontrar
correlaciones
sin Hipótesis
previa
DW
DM
BODEGAS Y
MERCADOS DE
DATOS
BDM
Datos
Informativos
MINERIA
DATOS
KDD
OLAP
OLTP
11
Encontrar modelos inteligentes a
partir de los datos.
Explorar los datos que se
encuentren en las profundidades
de las bases de datos.
Representar datos e información
oculta de una formamas clara y
precisa.
13
El entorno de la minería de datos
suele tener una arquitectura
cliente servidor
Las herramientas de la minería de
datos se combina fácilmente y
pueden analizarse y procesarse
rápidamente.
La mayoría de la minería de datos
utiliza procesamiento en paralelo
cuando
se
procesan
gran
cantidad de datos.
+ Modelos de conocimiento fáciles deentender. [8]
+ Velocidad y automatización del
proceso de análisis y modelado.
+ Análisis de grandes cantidades de
datos
en
Bases
de
Datos,
principalmente, y otras fuentes.
+ Competencia y selección del mejor
algoritmo.
- Los modelos no son 100% exactos.
+ Potencial descubrimiento de
información subyacente, es decir
emergencia de modelos en sistemas
parcialmentedesconocidos.
- Riesgo de privacidad personal, para
consumidores y usuarios.
-
- Riesgo de seguridad
información registrada en
extraída con MD.
-
+ Prueba de validez estadística de la
información, para incrementar su
confiabilidad.
14
de la
BD o
Es el proceso de encontrar, a partir de grandes
cantidades de datos, conocimiento útil para de esta
manera permitir el uso de esta...
Regístrate para leer el documento completo.