data mining

Páginas: 7 (1720 palabras) Publicado: 2 de septiembre de 2013






INFORME FINAL
Taller Inteligencias De Negocios




Profesora: Lidia Martínez
Fecha: 03/12/2012
Alumnos:
Cerna M., Critobal
Guajardo C., Felipe
Lante S., Federico
Schalchli C., Martin
Schalchli N., Allan

Resumen Ejecutivo
Se utilizó la base dedatos llamada “1985 Auto ImportsDatabase” con el fin de realizar una minería de datos, para así llegar a un modelo predictivo preciso.
En esta base de datos se realizó una limpieza de los datos eliminando algunas variables. La variable normalized-losses fue eliminada por la falta de datos (41 datos lo que es el 20% de la base de datos) y las variables lenght, width y highway-mpg fueron eliminadas portener una alta correlación con otras variables.
Para la preparación de los datos se procedió con el llenado de los datos faltantes de algunas variables, para esto se observó si las variables que les faltaban datos eran numéricas o categóricas, si eran numéricas se rellenaban los datos con el promedio de los datos y si eran categóricas se rellenan con la moda de los datos.
La partición fuerealizada con un 60% de datos de entrenamiento y un 40% de datos de validación, no fue necesario particional en datos de prueba ya que la base de datos no es de gran tamaño.
Con el objetivo de visualizar los datos de mejor manera, se realizaron tablas dinámicas para comparar el precio de los autos contra el tipo de tracción, tipo de combustible y si el motor cuenta con turbo, con el fin de ver lastendencias de los precios con respecto de estos parámetros.
Los modelos utilizados para predecir los valores monetarios de los automóviles de la base de datos son los siguientes: Regresión lineal múltiple, KNN, Árboles de regresión y redes neuronales. Se concluyó que cada uno de ellos se ajusta a las necesidades requeridas, es decir, los modelos sirven para predecir y se pueden utilizar con labase de datos que se tiene.
El modelo más eficiente resultó ser redes neuronales ya que arrojó un RMS más bajo que el resto de los modelos.










Contenido













Introducción

En el siguiente informe se realizará una minería de datos a una base de datos previamente seleccionada.
Esta base de datos consta de 26 variables, de las cuales 15 son variablescontinuas, una es variable entera y 10 son categóricas. Los datos obtenidos son de 205 automóviles.
El análisis de los datos consistirá en una exploración de estos, que conllevara una visualización, preparación y limpieza de algunas variables, para así observar como se comportan estas variables respecto de otras.
Al terminar este análisis se realizara una predicción del precio de los automóviles,esta predicción se ejecutará implementando modelos predictivos que se detallarán a continuación.
















Objetivo

El objetivo de este proyecto es realizar una minería de datos, para así llegar a un modelo predictivo preciso. Este análisis se realiza en la base de datos llamada 1985 Auto ImportsDatabase, con el fin de encontrar el mejor modelo predictivo y a la vez mássencillo, para así lograr predecir la variable precio, con el menor error posible.



















Exploración de datos

Limpieza de datos.

Esta limpieza se realizó al eliminar algunas variables, la primera variable borrada fue normalized-losses, ya que faltaban 41 de 205 datos, los que corresponden a un total del 20% de la base de datos, por lo que era muy arriesgadorellenar con algún parámetro estadístico.

Las siguientes variables borradas, fueron dadas por la alta correlación entre ella. Esta relación la entregó la matriz de correlación que se muestra a continuación.



Las variables borradas, que mostraron las más altas correlaciones fueron lenght, width y
highway-mpg, estas correlaciones fueron superiores al 0,75







Preparaciónde...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • Data Mining
  • Data Mining
  • data mining
  • Data mining
  • Data Mining
  • DATA MINING
  • Data Mining
  • Data Mining

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS