Dreea
Víctor Moreno
2002
Programa del curso
• Relación entre variables cuantitativas
– Regresión lineal simple
– Regresión lineal múltiple
• Comparación de medias
– Modelos de regresión con variable categórica
– Análisis de la varianza (ANOVA)
• Correlación
Regresión
• Análisis de la relación entre variables
cuantitativas
• Se pretende estudiar en qué medida unade
las variables puede ser explicada por otra
• Cómo cambia una variable cuando otra
cambia
• Se plantea un modelo estadístico:
Y = f(X,θ) + e
Regresión lineal
• El modelo de regresión lineal supone que la
relación puede explicarse por una recta:
Y = α + βX + e
Y: respuesta o variable dependiente
X: covariable o variable independiente
α, β: parámetros del modelo que cuantifican
larelación entre las dos variables
Correlación
• Sólo evalúa si existe relación (lineal) entre
dos variables cuantitativas
• No supone dirección en la relación (las dos
variables son aleatorias)
• No existe un modelo
• Se cuantifica mediante un coeficiente,
pero no hay parámetros
15
10
5
hemoglobina
20
Hemoglobina - Hematocrito
20
30
40
hematocrito
50
6020
hemoglobina
15
10
5
lowess
20
30
40
hematocrito
50
60
15
10
lowess
5
hemoglobina
20
hb = 0.50 + 0.33*hto
20
30
40
hematocrito
50
60
Ejercicio
• Leer los datos del fichero riscar.sav
• Estudiaremos las variables tensión arterial
sistólica y diastólica (sisto y diasto).
Queremos saber si se puede predecir la
sistólica apartir de la diastólica
• Hacer la gráfica de dispersión de las
variables
• Pedir que dibuje la línea del modelo lineal
• ¿Es razonable el modelo lineal?
Modelo lineal
• La media (valor esperado) de la respuesta
sigue una línea recta en función de la
covariable:
E(Y) = α + βX
• Para cada valor de X la Y tendrá una
dispersión (variabilidad o error de medida)
1.0
0.8
0.6
0.0
0.20.4
Y
0 .0
0.2
0.4
0.6
X
0.8
1.0
0
20
40
peso
60
80
No siempre sirve la recta
0
20
40
edad
60
80
80
60
0
20
40
peso
0
20
40
edad
60
80
Interpretación del modelo
Parámetros del modelo
E(Y) = α + βX
α:
Ordenada en el origen. Altura en el eje
de ordenadas donde corta la recta
β:
Pendiente.Cuánto varía E(Y) cuando X
varía en 1 unidad.
5
10
hb
15
20
25
Parámetros
0
hb = 0.50 + 0.33*hto
0
10
20
30
40
hto
50
60
70
Utilidad de un modelo
• Explicar relaciones entre variables
– Interpretando los coeficientes:
• Fuerza y dirección de la asociación
• Hacer predicciones
– Calcular el valor de Y para un valor de X
•Interpolaciones
• Extrapolaciones
Ejercicio
• Supongamos el modelo:
peso = α + β*edad
para los datos del estudio riscar. Dibujar la
nube de puntos, añadir la recta de
regresion y predecir visualmente el valor
medio para una edad de 80 años
• ¿Sirve este modelo para hacer
predicciones individuales?
Predicción
• Cuando se conoce el modelo se puede
calcular el valor esperado de Y para un
valorde X sustituyendo en la fórmula
• Supongamos correcto el modelo
E(talla) = 100 + 0.9*peso
• Los individuos que pesan 100 kg en
promedio miden 190 cm
Asumciones estadísticas
• Los valores individuales de las predicciones
difieren de su media en el error e
Y = α + βX + e
e = Y-E(Y)
• Los errores deben
– Seguir una distribución normal con
• Media 0
• Varianza σe2
– Serindependientes
E(ei) = 0
Var(ei) = σe2
Cov(ei,ej) = 0
• Las medidas repetidas generan datos dependientes
(correlacionados)
0.6
0.8
1.0
Errores en la predicción
0.0
0.2
0.4
Y
e
0.0
0.2
0.4
0.6
X
0.8
1.0
Estimación de los parámetros
• Metodo de mínimos cuadrados
Parametros que hacen minima la suma del
cuadrado de los errores (la distancia entre...
Regístrate para leer el documento completo.