Data Mining

Páginas: 26 (6362 palabras) Publicado: 2 de junio de 2012
UNIVERSIDAD DE TALCA
FACULTAD DE INGENIERÍA
MAGISTER EN GESTIÓN DE OPERACIONES

TALLER DE MINERÍA DE DATOS

TAREA 5
MODELOS DE CLASIFICACIÓN

AUTORES

WALESKA LAGOS GUZMÁN
FRANCISCO PÉREZ GALARCE

PROFESORES
CRISTIÁN BRAVO
SEBASTIAN MALDONADO

CURICÓ – CHILE
DICIEMBRE DE 2011

Índice

RESUMEN EJECUTIVO
El trabajo presentado a continuación está enfocado en la aplicación demetodologías
de clasificación, específicamente se trabaja con una base de datos perteneciente a un
concurso de la página web www.kaggle.com, la temática de clasificación está relacionada
con la detección de compras malas de vehículos, esta es una aplicación bastante
interesante pues si bien no está relacionada con un interés empresarial sirve a sustento para
una decisión muy frecuente comolo es la compra de un nuevo vehículo.
Parte importante de este trabajo se relaciona con en el pre procesamiento de la base
de datos, dicha etapa se caracteriza por la gran cantidad de decisiones que se deben tomar
que van desde el análisis de datos atípicos, pasando por la elección del método imputación
idóneo, el tipo de trasformación a utilizar, hasta el criterio para selección de atributos,todas
estas decisiones pueden afectar de manera importante en el rendimiento de un modelo de
minería de datos.
La base de datos de entrenamiento cuenta con aproximadamente 72.983
observaciones para 34 variables, considerando como función objetivo si la compra fue mala
o no. Como la mayor parte de las bases de datos reales, esta tenía problemas de diferente
índole en tanto para trabajarla enprimer lugar se busco información faltante, datos
incongruentes, variables con problemas, etc. para aplicar ya sea imputación de datos o
simple eliminación de casos o variables, según corresponda, en este proceso se eliminaron
tanto casos como variables.
Luego se procedió al proceso de transformación de variables donde principalmente
se utilizaron técnicas de discretización, agregación,generación de nuevos atributos, mapeo,
etc, según las características del atributo como largo de las colas en caso de variables
continuas, número de categorías para el caso de las variables categóricas, etc.
Otro proceso importante dentro del pre procesamiento es la selección de atributos,
en este trabajo se realizó en dos etapas, en primero lugar se realizó una selección por
correlación (mayor a0.95) antes de pre procesar todas las variables, en esta etapa también
se eliminaron aquellas variables que tenía grandes porcentajes de valores perdidos (más de
un 50%), la segunda etapa consistió en analizar las variable ya transformadas y las
eliminaciones se realizaron bajo los siguientes criterio: correlación, variabilidad y
dependencia con la variable objetivo. La base de datos de testeofinal que será donde se
aplicarán los modelos tiene 13 variables y 70936 casos.
Finalmente se aplicaron modelos de Arboles de decisión, Redes neuronales y SVM ,
además se aplicaron dos técnicas que reunían información de distintos modelos
individuales, estas son un multiclasificador stacking y un promedio de confidence a SVM y
red neuronal. Hasta la fecha de entrega del informe los mejoresresultados fueron los
obtenidos por el multiclasificador donde se alcanzo la ubicación 241 con un índice Gini de
0.205 (29/12 a las 23:00), estos modelos fueron aplicados principalmente en el software R
statistical salvo el multiclasificador stacking que fue implementado en Rapid Miner previo
muestreo.

Índice

ÍNDICE
1

INTRODUCCIÓN................................................................................................. 6

2

LIMPIEZA Y TRANSFORMACIÓN ....................................................................... 7
2.1

Variable objetivo (Isbadbuy) ............................................................................. 8

2.2

Fecha de la compra (purchdate) ....................................................................... 8

2.3...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • Data Mining
  • Data Mining
  • data mining
  • Data mining
  • Data Mining
  • DATA MINING
  • Data Mining
  • Data Mining

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS