Cursodm
Páginas: 10 (2441 palabras)
Publicado: 3 de mayo de 2015
Luis Pelayo Guerra Velasco
José María Peña Sánchez
Víctor Robles Forcada
Facultad de Informática, UPM
Mayo de 2008
Índice
Introducción
Preprocesado
Modelos descriptivos
Modelos predictivos
Validación
Índice
Introducción
Preprocesado
Modelos descriptivos
Modelos predictivos
Validación
Aproximación
Una visión simplificada dela minería de datos
Datos
Minería de datos
Modelos
Los “modelos” son el producto de la minería de datos...
...y dan soporte a las estrategias de decisión que se tomen
Datos y Modelos =>
Conocimiento
Los datos se obtienen de:
Bases de datos (relacionales,
espaciales, temporales,
documentales, multimedia,
etc)
World Wide Web
Modelos descriptivos: identifican
patrones queexplican o resumen los datos
Reglas de asociación: expresan patrones de
comportamiento en los datos
Clustering: agrupación de casos homogéneos
Modelos predictivos: estiman valores de
variables de interés (a predecir) a partir de
valores de otras variables (predictoras)
Regresión: Variable a predecir continua
Clasificación supervisada: Variable a
predecir discreta
Definiciones
Data Mining (Minería de datos)
Proceso de extraer conocimiento util y comprensible, previamente
desconocido, desde grandes cantidades de datos almacenados en
distintos formatos (Witten and Frank, 2000)
Knowledge Discovery in Databases - KDD (Descubrimiento
de Conocimiento en Bases de Datos)
Proceso no trivial de identificar patrones válidos, novedosos,
potencialmente útiles y, en últimainstancia, comprensibles, a partir de
los datos (Fayyad y col. 1996)
Estadística vs Minería de
datos
Es tadis tica
Mine ria de dato s
Con s t r u cción d e
m od elos
Ceñ id o a p r em is a s y t e or e m a s
Ma yor lib er t a d e n la con s t r u cción ,
in t er p r et a b le
Scor e
Ver os im ilit u d d e los d a t os d a d o el m od elo
Má s d ir ect o, PBC p or eje m p loBú s q u ed a
Tes t d e la r a z ón d e la ver os im ilit u d
Met a h eu r ís ticos
Tr an s p ar en cia
Má s co m p lica d os d e in t er p r et a r
Má s cla r os y s en cillos
Valid ación
No
Sí
Selección d e
var iab les
Filter
Wr a p p er
OLAP vs Minería de datos
OLAP (On Line Analytical Processing) o FASMI (Fast Analysis of
Shared Multidimensional Information)
OLAP
Minería d e dato s
¿Cu ál e s la p r op or ció n m ed ia d e accid en t es en t r e
fu m ad or es y n o fu m ad or e s ?
¿Cu ál es la m ejo r p r ed icció n p ar a a ccid en t es ?
¿Cu ál es la fact u r a t elefó n ica m ed ia d e m is clien t es y
d e los q u e h an d ejad o la co m p a ñ ia?
¿Dejar a X la co m p a ñ ia ? ¿Qu é fact or es afect an a los
ab an d on ad os ?
¿Cuán t o es la com p r a m ed ia d iar ia d e t ar jet as
r ob ad as y legít im as ?
¿Cu áles s o n lo s p at r o n es d e com p r a as ociad os con el
fr au d e d e t ar jet a s ?
Aplicaciones
Financieras
Comercio
Seguros
Educación
Medicina
Bioinformática
Otras áreas
Ejemplo (I)
Agente comercial: ¿Debo conceder una hipoteca a un cliente?
Datos:
Minería dedatos
Modelo generado:
If Defaulter-accounts > 0 then Returns-credit = no
If Defaulter-accounts = 0 and [(Salary > 2500) or (Credit-p > 10)] then Returns-credit = yes
Ejemplo (II)
Supermercado: ¿Cuándo los clientes compran huevos, también compran
aceite?
Datos:
Minería de datos
Modelo generado:
Eggs -> Oil: Confianza = 75%, Soporte = 37%
Ejemplo (III)
Gestión de personal de una empresa:¿Qué clases de empleados hay
contratados?
Datos:
Minería de datos
Modelo generado:
Grupo 1: Sin niños y en una casa alquilada. Bajo número de uniones. Muchos días enfermos
Grupo 2: Sin niños y con coche. Alto número de uniones. Pocos días enfermos. Más mujeres y en una casa alquilada
Grupo 3: Con niños, casados y con coche. Más hombres y normalmente propietarios de casa. Bajo número de uniones...
Leer documento completo
Regístrate para leer el documento completo.