11111111
Las variables biológicas suelen presentar multicorrelaciones. P.e. para estudiar el efecto del consumo de grasas saturadas en el nivel del colesterol en sangre, se puede plantear un modelo de RLS, sin embargo el nivel de colesterol puede depender también de otras variables: consumo de otras substancias, ejercicio realizado, edad, factores metabólicosgenéticos, etc.
Si, para cada valor del consumo de grasas, las demás variables se distribuyen aleatoriamente, la estimación por RLS es adecuada y la variación "debida" a las otras variables estaría incluida en la variación aleatoria alrededor de la regresión, pero en caso contrario la estimación sería incorrecta, si p.e., las costumbres dietéticas variaran con la edad y ésta influyera en el colesterol,una parte no cuantificada de la variación del colesterol que el modelo atribuye al consumo de grasas sería "debida" a la edad.
La regresión lineal múltiple (RLM) es un modelo que permite estudiar estos efectos. El modelo es
[pic]
α0: media de Y cuando todas las Xi son cero (cuando no tiene sentido Xi=0, p.e. edad, se interpreta como la media de Y que no depende de las Xi).
αi: cambio en lamedia de Y cuando Xi aumenta una unidad permaneciendo constantes las demás.
Las asunciones del modelo son una generalización de las de RLS y dado el resultado de RLS no vamos a distinguir entre modelo I y II.
La estimación de los coeficientes también se hace por mínimos cuadrados o máxima verosimilitud y se obtienen los mismos resultados. Estos resultados, usando notación matricial, son (incluyencomo caso particular la RLS):
[pic]
siendo [pic]la matriz columna de coeficientes estimados, Y la matriz columna de observaciones de la variable dependiente y X la denominada matriz de diseño
[pic]
es decir la matriz de datos con una primera columna de 1's. Estos coeficientes se distribuyen como una normal multivariante cuya matriz de medias son los verdaderos coeficientes y matriz devarianzas-covarianzas
[pic]
un buen estimador de σ2 es
[pic]
que se distribuye como una χ2 con n - (k+1) grados de libertad.
Estas fórmulas ponen de manifiesto unas limitaciones al resolver estos modelos. Para ello hay que invertir una matriz y no todas las matrices pueden invertirse (singulares). En dos situaciones no se puede:
1. El número de observaciones (n), es menor o igual que el númerode variables independientes (k).
2. Una variable independiente es combinación lineal de otra(s) o constante (colinealidad ).
Estimación y contrastes de hipótesis:
Usando la teoría resumida en el apartado anterior, los intervalos de confianza para los coeficientes se construyen igual que en RLS.
[pic]
y los contrastes de hipótesis
H0: αI = 0
H1: αi ≠ 0
se realizan con el estadístico[pic]
Ejemplo 5
Dada una muestra hipotética de 20 pacientes en los que se ha recogido los siguientes datos: nivel de colesterol en plasma sanguíneo (en mg/100 ml), edad (en años), consumo de grasas saturadas (en gr/semana) y nivel de ejercicio (cuantificado como 0: ningún ejercicio, 1: ejercicio moderado y 2: ejercicio intenso), realizar el ajuste a un modelo lineal entre el nivel de colesteroly las demás variables.
Tabla de datos
|Paciente |Colesterol |Edad |Grasas |Ejerci. |
|1 |350 |80 |35 |0 |
|2 |190 |30 |40 |2 |
|3 |263 |42 |15|1 |
|4 |320 |50 |20 |0 |
|5 |280 |45 |35 |0 |
|6 |198 |35 |50 |1 |
|7 |232 |18 |70 |1...
Regístrate para leer el documento completo.