Estadistica01
An´
alisis descriptivo de datos
”No nos atrevemos a muchas cosas porque son dif´ıciles,
pero son dif´ıciles porque no nos atrevemos a hacerlas”.
1. Univariante.
Distribuciones de frecuencias. Representaciones gr´aficas.
Medidas de centralizaci´on, de posici´on, de dispersi´on.
Momentos muestrales. Medidas de forma.
Casos at´ıpicos.
2. Bivariante.
Distribuciones conjunta, marginales ycondicionadas.
An´alisis de la correlaci´on
Regresi´on lineal.
Coeficiente de determinaci´on.
Tratamiento de la falta de linealidad. Relaciones linealizables.
3. Procedimientos con Statgraphics ”Centuriun”.
4. Ejercicios.
1
1. An´
alisis descriptivo de datos
2
La Estad´ıstica es la ciencia de los datos. Cualquier conjunto de datos contiene
informaci´on sobre un grupo de individuos. Lainformaci´on se organiza con variables.
Los individuos, que son los elementos observados y sometidos a investigaci´on,
pueden ser personas, animales o cosas.
Una variable es cualquier caracter´ıstica X de un individuo que queramos analizar. Las variables pueden ser:
• cualitativas o atributo: sus valores son un conjunto de cualidades no num´ericas
llamadas categor´ıas o modalidades
• ordinales: suscategor´ıas pueden ordenarse.
• cuantitativas: toman valores num´ericos, para los que tiene sentido hacer c´alculos
aritm´eticos. Las variables num´ericas pueden ser:
Discreta: cuando el paso de un valor a otro representa un salto, es decir, existe
una distancia, no nula, entre valores contiguos de la variable. Por ejemplo:
nacimientos diarios en cierta comunidad, n´
umero de electrodom´esticos en el
hogar,n´
umero de ordenadores personales en la universidad ...
Continua: cuando dados dos valores cualesquiera que ha tomado la variable,
existe siempre entre ellos una infinidad de posibles valores que pudiera tomar.
As´ı por ejemplo magnitudes como el peso, la longitud, el volumen, ... son
variables continuas.
1.1.
An´
alisis descriptivo univariante.
Si la variable X ha tomado los valores x1 , x2 ,. . . , xn en un conjunto de individuos,
nuestro objetivo ser´a, en primer lugar, organizar la informaci´on.
La distribuci´
on de frecuencias nos dice qu´e valores toma la variable y con
qu´e frecuencia.
ni :
frecuencia absoluta
fi :
frecuencia relativa
Ni :
frecuencia absoluta acumulada
Fi :
frecuencia relativa acumulada
Alicia M. Juan Gonz´
alez
Ing. Industrial, Grupo E, Curso 2014/151.1. An´
alisis descriptivo univariante
3
ni
fi =
ni
n
N i = n1 + · · · + n i
Fi =
Ni
n
xi
• Distribuci´
on de frecuencias para datos no agrupados:
X
ni
Ni
fi
Fi
x1
n1
N1
f1
F1
x2
..
.
n2
..
.
N2
..
.
f2
..
.
F2
..
.
xi
..
.
ni
..
.
Ni
..
.
fi
..
.
Fi
..
.
xm
nm
n
fm
1
n
1
• Distribuci´
on de frecuencias para datos agrupados: Cuando la variable
es continua o,en cambio, es discreta pero el n´
umero de valores distintos que toma
es grande, conviene agrupar los datos en clases o intervalos, en cuyo caso, se llama
marca de clase al valor central del intervalo que identifica la clase.
Ii
ci
ni
Ni
fi
Fi
[L0 , L1 )
c1
n1
N1
f1
F1
[L1 , L2 )
..
.
c2
..
.
n2
..
.
N2
..
.
f2
..
.
F2
..
.
[Li−1 , Li )
..
.
ci
..
.
ni
..
.
Ni
..
.
fi
..
.
Fi..
.
[Lm−1 , Lm ]
cm
nm
n
fm
1
n
siendo ci la marca de clase del intervalo [Li−1 , Li ),
ci =
Li−1 + Li
2
Alicia M. Juan Gonz´
alez
Ing. Industrial, Grupo E, Curso 2014/15
1
1. An´
alisis descriptivo de datos
4
No existe un u
´nico criterio para determinar el n´
umero k de intervalos. Por lo general,
depende del tama˜
no de la muestra, n.
Un criterio cl´asico establece que, si n espeque˜
no (n ≤ 50), entonces k ≈
√
n y,
en caso contrario, k ≈ 1 + 3, 22 ln n. Otro criterio recomienda que 4 ≤ k ≤ 15 con
k ≈ 10 % n.
Una vez obtenido k, calculamos el rango o recorrido R de la variable,
R = m´ax xi − m´ın xi
i
i
y la raz´on R/k ≈ a (de tal manera que ak ≥ R) es la amplitud de cada clase. A
partir de aqu´ı, conviene tener en cuenta las observaciones siguientes:
El dato...
Regístrate para leer el documento completo.