Análisis exploratorio de datos

Páginas: 15 (3527 palabras) Publicado: 22 de octubre de 2014
IX Encuentro de Matemática
y sus Aplicaciones
Análisis Exploratorio
de Datos
Escuela Politécnica Nacional
Departamento de Matemática
Julio 2004
Introducción
Exploratory data analysis is detective work − numerical detective work− or counting detective work − or
graphical detective work
Tukey, 1977 (pág 1)
El análisis exploratorio de datos (EDA), según unos, nueva rama de la estadística,según otros, una extensión
de la estadística descriptiva, propugna un cambio de actitud y de enfoque metodológico ante el análisis de
datos.
El EDA propugna que previo a cualquier análisis estadístico, es necesario un examen cualitativo de los datos,
hay que comprender y reflexionar sobre la información que ellos contienen.
La estadística descriptiva clásica se ocupa de describir los datos através de gráficos y de algunas medidas de
tendencia central y de dispersión. El EDA tiene los mismos objetivos pero además pretende detectar
anomalías o errores en las distribuciones univariantes de los datos. También intenta descubrir patrones o
modelos. Para ello incorpora nuevas técnicas gráficas y busca estadísticos resistentes y robustos basados en
las estadísticas de orden y centradosen la mediana.
El EDA potencializa los índices de forma, y la utilización de gráficos, prácticamente, como un índice más,
una gráfica bien realizada puede ser mas informativa que un conjunto de números.
Estadística descriptiva
Frecuencias e histogramas
Supongamos que se tiene un conjunto de n observaciones , denominado muestra, de una variable aleatoria X o
de una población !. Uno de losproblemas es conocer la distribución de la muestra. Con este fin se divide a la
muestra en rangos o clases continuas de igual longitud, sean los rangos.
Frecuencia relativa
La frecuencia relativa de la clase rj es:
Si la muestra es aleatoria y n es suficientemente grande, se puede hacer la siguiente aproximación
1

es la probabilidad empírica (suma de frecuencias), mientras que P es laprobabilidad teórica.
Histograma
El gráfico de las frecuencias relativas; en ordenadas los valores fj y en abscisas las clases rj, se denomina
histograma. Es claro que la forma del histograma depende del número de clases, no deben ser muchas ni muy
pocas. No existe una regla que determine el número de clases, en general deben ser alrededor de y no menos
de 5.
Función de distribución (empírica)También se define la función de distribución acumulada
donde
Uno de los pilares de la estadística clásica es la convergencia de la distribución empírica hacia la distribución
teórica.
Teorema de Glivenko − Cantelli
Ejemplo
Suponga que se ha seleccionado una muestra aleatoria simple de 15 personas y se les ha preguntado su salario
mensual en dólares. Los salarios, previamente ordenados, son:53, 86, 163, 183, 206, 224, 259, 652, 842,
1139, 1433, 2198, 2215, 2410, 4592
Como dividiremos la muestra en 5 clases.
Clase
Menos de 620
De 620 a 1755
De 1755 a 2889
De 2889 a 4024
Más de 4024

ni
7
4
3
0
1

fj
0.47
0.27
0.20
0
0.07

0.47
0.73
0.93
0.93
1.00

Histograma
/tr>
>

table>
El histograma pone en evidencia una
distribución completa−mente asimétrica.El
47% tienen salarios inferiores a $620,
mientras que el 7% tienen salarios
superiores a 4024.
Medidas de tendencia central y de
dispersión
Media
Es el índice clásico de tendencia central. Se
define por:
2

Moda
Es el valor o los valores mas frecuentes.
Su uso es restringido porque pueden existir
varias modas o su frecuencia puede ser
irrelevante con respecto a la frecuencia delos otros datos, en especial cuando los
datos son de tipo continuo. Si en el ejemplo
anterior, calculamos la frecuencia de cada
uno de los salarios, vemos que todos tiene
la misma frecuencia, no existe una moda,
pero si consideramos los 5 rangos de
salarios, existe uno que es claramente
modal, el primero.
Varianza
Es una medida de dispersión, en promedio,
mide como se alejan los datos de...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • Analisis exploratorio de datos
  • Análisis exploratorio de datos
  • ANÁLISIS EXPLORATORIO DE DATOS
  • Analisis descriptivo y exploratorio de datos
  • Analisis Exploratorio De Datos
  • Analisis exploratorios de datos espaciales
  • TAREA ANALISIS EXPLORATORIO DE DATOS
  • Análisis exploratorio de datos "la nueva aurora"

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS