regresion lineal
La forma de la función f en principio podría ser arbitraria, y tal vez se tenga que la relación más exacta entre las variables peso y altura definida anteriormente sea algo de la forma
Por el momento no pretendemos encontrar relaciones tan complicadas entre variables, pues nos vamos a limitar al caso de la regresión lineal. Con este tipo de regresiones nosconformamos con encontrar relaciones funcionales de tipo lineal, es decir, buscamos cantidades a y b tales que se pueda escribir
con el menor error posible entre e Y, o bien
de forma que sea una variable que toma valores próximos a cero.
Observación
Obsérvese que la relación explica cosas como que si X varía en 1 unidad, varía la cantidad b. Por tanto:
Si b>0, las dos variablesaumentan o disminuyen a la vez;
Si b0.
El problema que se plantea es entonces el de cómo calcular las cantidades a y b a partir de un conjunto de n observaciones
de forma que se minimice el error. Las etapas en que se divide el proceso que vamos a desarrollar son de forma esquemática, las que siguen:
1. Dadas dos variables X, Y, sobre las que definimos
medimos el error que secomete al aproximar Y mediante calculando la suma de las diferencias entre los valores reales y los aproximados al cuadrado (para que sean positivas y no se compensen los errores):
2.
Una aproximación de Y, se define a partir de dos cantidades a y b. Vamos a calcular aquellas que minimizan la función
3. Posteriormente encontraremos fórmulas para el cálculo directo de a y b quesirvan para cualquier problema.
Regresión de Y sobre X
Para calcular la recta de regresión de Y sobre X nos basamos en la figura
Figura: Los errores a minimizar son las cantidades
Una vez que tenemos definido el error de aproximación mediante la relación las cantidades que lo minimizan se calculan derivando con respecto a ambas e igualando a cero (procedimiento de los mínimoscuadrados):
La relación, no es más que otra manera de escribir la relación que se denomina ecuaciones normales. La primera de se escribe como
Sustituyendo se tiene que
Lo que nos da las relaciones buscadas:
La cantidad b se denomina coeficiente de regresión de Ysobre X.
Regresión de X sobre Y
Las mismas conclusiones se sacan cuandointentamos hacer la regresión de X sobre Y, pero ¡atención!: Para calcular la recta de regresión de X sobre Y es totalmente incorrecto despejar de
Pues esto nos da la regresión de X sobre , que no es lo que buscamos. La regresión de X sobre Y se hace aproximando X por , del modo
donde
pues de este modo se minimiza, en el sentido de los mínimos cuadrados, los erroresentre las cantidades xi y las
Figura: Los errores a minimizar son las cantidades
Ejemplo
En una muestra de 1.500 individuos se recogen datos sobre dos medidas antropométricas X e Y. Los resultados se muestran resumidos en los siguientes estadísticos:
Obtener el modelo de regresión lineal que mejor aproxima Y en función de X. Utilizando este modelo, calcular de modoaproximado la cantidad Y esperada cuando X=15.
Solución:
Lo que se busca es la recta, , que mejor aproxima los valores de Y (según el criterio de los mínimos cuadrados) en la nube de puntos que resulta de representar en un plano (X,Y) las 1.500 observaciones. Los coeficientes de esta recta son:
Así, el modelo lineal consiste en:
Por tanto, si x=15, el modelo lineal predice unvalor de Y de:
En este punto hay que preguntarse si realmente esta predicción puede considerarse fiable. Para dar una respuesta, es necesario estudiar propiedades de la regresión lineal que están a continuación.
Propiedades de la regresión lineal
Una vez que ya tenemos perfectamente definida , (o bien ) nos preguntamos las relaciones que hay entre la media y la varianza de esta...
Regístrate para leer el documento completo.