Algebra lineal
13
En estadística a menudo aparecen sistemas de ecuaciones Ax=b donde la matriz A es definida positiva. Por ejemplo, el sistema de ecuaciones normales de un modelo de regresión lineal que tiene la forma X’ Xb=y, aquí A=X’ es definida positiva y X simétrica. Se podría usar Eliminación Gaussiana para resolver el sistema deecuaciones, pero no se explotaría la propiedad de definida positiva. Si la matriz A es simétrica y definida positiva en lugar de factorizarse como LU, puede ser factorizada como A=HH’ donde H es una matriz triangular inferior, esta es llamada , la Facorización Cholesky. La existencia de la factorización Cholesky puede ser mostrada a traves de la factorización LU. Es decir, A=LU. La matriz triangularsuperior U puede ser escrita como U=DU1 donde D=diag(u11,u22,… … ,unn) y U1 es una matriz triangular superior con unos en su diagonal. Luego, A=LDU1 y como A=A’se tiene que LDU1=U’ DL’de donde 1 D=(U’ )-1LDU1(L’ -1 ) 1 La matriz (U’ )-1L es una matriz triangular inferior unitaria y la matriz U1(L’ -1 ) 1 es una matriz triangular superior unitaria. Por lo tanto, (U’ )-1L= U1(L’ -1 =I ) 1 Enconsecuencia, U1=L’ y A puede ser escrita como A=LDL’donde L es una matriz triangular inferior unitaria. Cuando A es definida positiva los elementos de la diagonal de D son positivas y se puede escribir D=D1/2D1/2, donde D1/2=diag( ( u11 , u22 ,.... unn ) Así que. A=LDL’ =LD1/2D1/2L’ =HH’ con H=LD1/2. , Es decir,
a11 a 21 ..... an1 a1n h11 0 .... 0 h11 h21 .... hn1 h a22 ..... a2n h22..... 0 0 h22 ..... hn 2 = 21 ..... ...... ..... ..... ..... ...... ..... ..... ..... ...... ..... an 2 ..... ann hn1 hn 2 ..... hnn 0 0 ..... hnn a12 ....
De donde
h11 = a11
hi1 =
a i1 h11
j
i=1,2… n
∑
i
k =1
2 hik = aii ,
aij = ∑ hik h jk
k =1
j0 X’ para todo w≠0, así que X’ también es definida positiva y la FactorizaciónCholesky X puede ser aplicada. Hay que notar que si X no es de rango completo entonces la propiedad de dedinida positiva no se cumple. ˆ La existencia y unicidad de la solución B de las ecuaciones normales está condicionada a que X sea de rango completo. La forma explicita de la solución es
ˆ B = ( X ' X ) − 1 X 'Y
Otras cantidades de interes son: El vector de valores ajustados o predichos:
ˆ ˆ Y= XB = X ( X ' X ) − 1 X ' Y
El vector de residuales:
ˆ ˆ e =Y − Y
La suma de cuadrados del error o residual
ˆ ˆ SSE= e' e = (Y − XB)' (Y − XB) = Y '[ I − X ( X ' X ) − 1 X ' ]Y
ˆ La matriz de Covarianza del vector de parametros estimados B
(X’ -1σ2 X) donde σ2 es la varianza poblacional de las yi ( o equivalente de los errores ei). Esta SSE donde p es el número de variablespredictoras. varianza es estimada por MSE= n− p− 1 A (X’ -1 también le dicen la matriz no escalada de covaianza. X)
Algoritmo para regresión usando Factorización Cholesky El siguiente algoritmo resuelve las ecuaciones normales del modelo de regresión y calcula ciertas cantidades importantes a) Calcular w=X’ Y b) Calcular la factorizacion Cholesky HH’de X’ X.
Edgar Acuña/ ESMA 6665 Lecc3 c) d) e)f) g) h) Resolver el sistema triangular Hz=w para z Calcular la suma de cuadrados residual por SSE=Y’ Y-z’ z ˆ = z para B ˆ Resolver el sistema triangular H ' B ˆ ˆ Calcular el vector de predicciones Y = XB Invertir H Calcular la matriz de covarianza no esca;ada, usando (X’ -1=H-1’ -1 X) H
19
Ejemplo 5. Ajustar un modelo de regresión lineal multiple para el siguiente conjunto de datos Y 1223 41 89 18 39 56 9 x1 x2 4 5 8 9 12 3 11 17 8 19 19 21 9 22 13 9 x3 6 12 23 21 39 45 42 18
Usando MATLAB. Solución: Haremos uso de las funciones forelem y backsub que están disponibles en el folder c:\matlab\acuna » X=[1 4 5 6; 1 8 9 12; 1 12 3 23; 1 11 17 21; 1 8 19 39; 1 19 21 45;1 9 22 42; 1 13 9 18] »X X= 1 4 5 1 8 9 1 12 3 1 11 17 1 8 19 1 19 21 1 9 22 1 13 9 6 12 23 21 39 45 42 18
»...
Regístrate para leer el documento completo.