Dreea

Páginas: 7 (1630 palabras) Publicado: 19 de junio de 2012
Regresión lineal
Víctor Moreno
2002

Programa del curso
• Relación entre variables cuantitativas
– Regresión lineal simple
– Regresión lineal múltiple

• Comparación de medias
– Modelos de regresión con variable categórica
– Análisis de la varianza (ANOVA)

• Correlación

Regresión
• Análisis de la relación entre variables
cuantitativas
• Se pretende estudiar en qué medida unade
las variables puede ser explicada por otra
• Cómo cambia una variable cuando otra
cambia
• Se plantea un modelo estadístico:
Y = f(X,θ) + e

Regresión lineal
• El modelo de regresión lineal supone que la
relación puede explicarse por una recta:
Y = α + βX + e
Y: respuesta o variable dependiente
X: covariable o variable independiente
α, β: parámetros del modelo que cuantifican
larelación entre las dos variables

Correlación
• Sólo evalúa si existe relación (lineal) entre
dos variables cuantitativas
• No supone dirección en la relación (las dos
variables son aleatorias)
• No existe un modelo
• Se cuantifica mediante un coeficiente,
pero no hay parámetros

15
10
5

hemoglobina

20

Hemoglobina - Hematocrito

20

30

40
hematocrito

50

60 20
hemoglobina

15
10
5

lowess

20

30

40
hematocrito

50

60

15
10

lowess

5

hemoglobina

20

hb = 0.50 + 0.33*hto

20

30

40
hematocrito

50

60

Ejercicio
• Leer los datos del fichero riscar.sav
• Estudiaremos las variables tensión arterial
sistólica y diastólica (sisto y diasto).
Queremos saber si se puede predecir la
sistólica apartir de la diastólica
• Hacer la gráfica de dispersión de las
variables
• Pedir que dibuje la línea del modelo lineal
• ¿Es razonable el modelo lineal?

Modelo lineal
• La media (valor esperado) de la respuesta
sigue una línea recta en función de la
covariable:
E(Y) = α + βX
• Para cada valor de X la Y tendrá una
dispersión (variabilidad o error de medida)

1.0
0.8
0.6
0.0

0.20.4

Y

0 .0

0.2

0.4

0.6
X

0.8

1.0

0

20

40

peso

60

80

No siempre sirve la recta

0

20

40
edad

60

80

80
60
0

20

40

peso

0

20

40
edad

60

80

Interpretación del modelo
Parámetros del modelo
E(Y) = α + βX
α:

Ordenada en el origen. Altura en el eje
de ordenadas donde corta la recta

β:

Pendiente.Cuánto varía E(Y) cuando X
varía en 1 unidad.

5

10

hb

15

20

25

Parámetros

0

hb = 0.50 + 0.33*hto

0

10

20

30

40
hto

50

60

70

Utilidad de un modelo
• Explicar relaciones entre variables
– Interpretando los coeficientes:
• Fuerza y dirección de la asociación

• Hacer predicciones
– Calcular el valor de Y para un valor de X
•Interpolaciones
• Extrapolaciones

Ejercicio
• Supongamos el modelo:
peso = α + β*edad
para los datos del estudio riscar. Dibujar la
nube de puntos, añadir la recta de
regresion y predecir visualmente el valor
medio para una edad de 80 años
• ¿Sirve este modelo para hacer
predicciones individuales?

Predicción
• Cuando se conoce el modelo se puede
calcular el valor esperado de Y para un
valorde X sustituyendo en la fórmula
• Supongamos correcto el modelo
E(talla) = 100 + 0.9*peso
• Los individuos que pesan 100 kg en
promedio miden 190 cm

Asumciones estadísticas
• Los valores individuales de las predicciones
difieren de su media en el error e
Y = α + βX + e
e = Y-E(Y)
• Los errores deben
– Seguir una distribución normal con
• Media 0
• Varianza σe2

– Serindependientes

E(ei) = 0
Var(ei) = σe2

Cov(ei,ej) = 0
• Las medidas repetidas generan datos dependientes
(correlacionados)

0.6

0.8

1.0

Errores en la predicción

0.0

0.2

0.4

Y

e

0.0

0.2

0.4

0.6
X

0.8

1.0

Estimación de los parámetros
• Metodo de mínimos cuadrados
Parametros que hacen minima la suma del
cuadrado de los errores (la distancia entre...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • Dreee

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS