Análisis Para La Exploración De Datos
ANÁLISIS PARA LA EXPLORACIÓN DE DATOS (EXPLORATORY DATA ANALYSIS)
USO Y EJEMPLOS DE LA HERRAMIENTA
RAPIDMINER
21 de junio de 2012
CONTENIDO
DESCRIPCIÓN DEL PROBLEMA ................................................................................................................ 3 CONJUNTOS DE DATOS.............................................................................................................................. 4 CONJUNTO DE DATOS DE IRIS ......................................................................................................... 4 CONJUNTO DE DATOS DE ABALONE ............................................................................................. 5 TÉCNICAS “EDA”.......................................................................................................................................... 6 RESUMEN DE ESTADÍSTICAS ................................................................................................................ 6 PROMEDIO (AVERAGE) ....................................................................................................................... 6 FRECUENCIA Y MODA (FREQUENCY AND MODE).................................................................... 7 MEDIA Y MEDIANA (MEAN AND MEDIAN) ................................................................................. 8 RANGO Y VARIANZA (RANGE AND VARIANCE) ....................................................................... 9 VISUALIZACIÓN..................................................................................................................................... 10 HISTOGRAMA (HISTOGRAM).......................................................................................................... 10 GRÁFICAS DE CAJAS (BOX PLOTS) ................................................................................................ 12 GRÁFICAS DE DISPERSIÓN (SCATTER PLOTS)........................................................................... 14 GRÁFICAS DE CONTORNO (CONTOUR PLOTS) ......................................................................... 15 COORDENADAS PARALELAS (PARALLEL COORDINATES) .................................................. 16 OTRAS TÉCNICAS DE VISUALIZACIÓN ....................................................................................... 17 CONCLUSIONES.......................................................................................................................................... 18 BIBLIOGRAFÍA ............................................................................................................................................. 18
2
DESCRIPCIÓN DEL PROBLEMA
Entenderemos mejor lo que es la “Exploración de Datos”, sus características y eluso que se le da. Entre sus principales características tenemos la de ayudar a seleccionar la herramienta adecuada para realizar el pre-procesamiento o el análisis de los datos, en este trabajo utilizaremos el Rapid Miner 5, haciendo uso de las capacidades de los seres humanos para el reconocimiento de patrones (las personas pueden reconocer los patrones que a veces una herramienta de análisisde datos no puede reconocer).
Relacionado con esta área y para su resolución surgieron las técnicas de Análisis de Exploración de Datos o Exploratory Data Analysis (EDA). Creadas por el estadístico John Tukey.
Aprenderemos como se pueden realizar todas estas técnicas de EDA sobre varios conjuntos de datos ya existentes, veremos su comportamiento en un formato visual, veremos como los datoslos objetos, sus atributos, y las relaciones entre los objetos de datos se traducen en elementos gráficos tales como puntos, líneas, formas y colores. Apreciaremos como se puede obtener un promedio, una media, una moda, etc., también de una manera gráfica. Todo a través de una herramienta de fácil manejo como lo es Rapid Miner 5.
Debemos empezar con el análisis de los conjuntos de datos que...
Regístrate para leer el documento completo.