Clase 3
Descriptiva para
variables
continuas
Tópicos a tratar…
•
•
•
•
•
Repaso clase anterior
Identificación de variables continuas
Medidas de tendencia central y dispersión
Presentaciones gráficas
Estimación puntual e intervalos de
confianza
• Manejo de valores fuera de rango
Que buscamos?
Obtener un ‘sabor’ de los datos
continuos…
•Estimar algunos parametros de la
poblacion, en formapuntual y por intervalos
•‘Aprender’ de los datos continuos a través
de una visualización gráfica
•Examinar la calidad de los datos
Clasificación general:
Categórica
Nominal
Ordinal
Cuantitativ
ao
numérica
Discreta
Continua
Ejemplos:
• Nominales: Sexo, estado civil, presencia de
morbilidad, resultado del tratamiento
• Ordinales: Severidad de morbilidad, riesgo
quirúrgico, resistencia aantibioticos
• Discretas: Cociente intelectual, tiempo de
tratamiento u hospitalización
• Contínuas: concentración de alcohol en la
sangre
Comandos usados en STATA
para identificar el tipo de
variable:
• codebook
• tabulate
ATENCION !
• STATA puede identificar un tipo de
variable de manera erronea !
• Debemos apoyarnos en la ciencia, en
nuestro conocimiento previo de la variable
con queestamos trabajando.
Recordemos las características de una variable
continua con distribución normal…
Figure 10.10
6
Distribución de frecuencias
Una lista exhaustiva y mutuamente
excluyente de categorias (cualitativas o
cuantitativas) con una tabulación (en
valores absolutos o porcentajes) de
cuántas observaciones en los datos se
encuentran en cada categoría.
De ‘variables continuas’ a‘variables categóricas’
Raw Score
MIRKO,
usaFrequency
tabulate con generate aqui
64
2
para
Raw esto
Scores
63
1 representar
61
59
56
52
51
38
36
34
31
29
27
25
24
21
17
15
6
3
2
2
2
1
2
4
3
5
5
5
5
1
2
2
2
1
2
1
n= 50
(Intervalsof Five)
60–64
55–59
50–54
45–49
40–44
35–39
30–34
25–29
20–24
15–19
10–14
5–9
Ojo que
0–4 se les
Frequency
5
4
3
0
0
7
10
11
4
3
0
ha 21
n = 50usa
esto se
indicado que
maspara covariables que
para sus outcomes
Representación gráfica de una
tabulación bivariada
Comando “histogram”
Estadísticas de resumen:
El conjunto de agregados numéricos de una
distribución de frecuencias las que
resumen una característica específica de
un conjunto de datos.
Medidas de tendencia
central:
• Promedio o media aritmética. Mas
sensible a valores extremos
• Mediana o percentil50: Valor que divide
una distribución ordenada por la mitad
• Moda: Valor mas frecuente. Es mas
usada para variables categóricas
Medidas de dispersión:
• Rango
• Intervalo intercuartil (diferencia entre los
percentiles 25 y 75)
• Desviación estándar: en que monto promedio
se desvían los valores observados de la
media
• Varianza: media de las desviaciones (DE)
elevada al cuadrado (?)
Comandosusados en STATA para
obtener estadísticas de resumen
• codebook (variables numéricas)
• tabulate
Estimación puntual e intervalos
de confianza
• Los parámetros de una población tienen
un valor fijo, (es un número exacto)
• Usualmente estos parámetros no se
conocen, por que es complicado medir a
‘toda la población’
• Ante esto, los parámetros se ‘estiman’ a
partir de una ‘muestra’ de lapoblación.
• La estimación puede ser ‘puntual’ o en un
‘intervalo de confianza’
Efectos del ‘muestreo’ en la
estimación de un parámetro
Es mejor estimar el intervalo de
confianza de un parámetro antes
que su estimación puntual…
• El intervalo de confianza es una ‘variable
aleatoria’
• El 95% Intervalo de Confianza, es un
intervalo que tiene un 95% de
probabilidad de cubrir el verdadero valor
delparámetro estimado
Intervalos de confianza de
variables normales
Std.Err. = Std.Dev / sqrt(N)
Ci varlist, level( )
Exploración gráfica
• Una manera ‘visual’ y muy intuitiva de
tener una imagen clara de los datos.
• Método muy usado para presentar
resultados.
• Un solo gráfico puede contener una
densidad muy alta de información
• Sujeta a interpretaciones subjetivas y
problemas de ilusión...
Regístrate para leer el documento completo.