El hombre de la tierra
Los objetivos de un modelo de regresión puede ser dos:
Obtener una ecuación que nos permita "predecir" el valor de Y una vez conocidos los valores de X1, X2 .. Xk. Se conocen como modelos predictivos.
Cuantificar la relación entre X1, X2 .. Xk y la variable Y con el fin de conocer o explicar mejor los mecanismos de esa relación. Se trata de modelos explicativos, muyutilizados cuando se busca encontrar qué variables afectan a los valores de un parámetro fisiológico, o cuáles son los posibles factores de riesgo que pueden influir en la probabilidad de que se desarrolle una patología.
La disponibilidad y facilidad de uso del software que permite la construcción de modelos de regresión nos ha hecho olvidar que se trata de técnicas complejas, que requieren un ciertoconocimiento de la metodología estadística subyacente, por lo que nos encontramos con excesiva frecuencia una pobre utilización de las técnicas de regresión y una peor descripción de cómo se emplearon en cada caso concreto, e incluso una ausencia total de esa explicación, y se comunica los resultados como si la propia ecuación de regresión fuera sin más un "artículo de fe" que no necesitara de unacuidadosa validación.
Un problema fundamental que se plantea a la hora de construir un modelo multivariante es qué factores X1, X2 .. Xk incluir en la ecuación, de tal manera que estimemos el mejor modelo posible a partir de los datos de nuestro estudio. Para ello lo primero que habría que definir es qué entendemos por "mejor modelo". Si buscamos un modelo predictivo será aquél que nosproporcione predicciones más fiables, más acertadas; mientras que si nuestro objetivo es construir un modelo explicativo, buscaremos que las estimaciones de los coeficientes de la ecuación sean precisas, ya que a partir de ellas vamos a efectuar nuestras deducciones. Cumplidos esos objetivos es claro que otra característica deseable de nuestro modelo es que sea lo más sencillo posible.
Variable deconfusión
En el área de los modelos explicativos aparece un concepto de gran importancia, el de variable de confusión. Se dice que existe "confusión" cuando la relación entre dos variables difiere de forma importante si se considera el efecto de una tercera, alterando por tanto de alguna manera la interpretación de esa relación.
Veamos un ejemplo. Si estamos estudiando mediante una muestraaleatoria una población de diabéticos y analizamos la posible relación entre la PAS y la edad y sexo de los pacientes, obtenemos mediante un modelo de regresión lineal la siguiente ecuación
Término Coef. Err.est. t p
Constante 116,285 2,8410 40,931 0,0000
EDAD 0,328 0,0432 7,592 0,0000
SEXO 2,042 1,0486 1,947 0,0515
donde la variable SEXO se ha codificado como 0 para los hombres y 1 paralas mujeres, de tal manera que el cambio medio de la PAS, estimado por esta ecuación, cuando comparamos a los hombres y a las mujeres manteniendo fija la edad, es de aproximadamente de 2 mmHg (p = 0.052).
Sin embargo si controlamos también el índice de masa corporal (IMC) introduciéndolo en la ecuación, obtenemos:
Término Coef. Err.est. t p
Constante 101,834 4,0727 25,004 0,0000
EDAD 0,3210,0426 7,531 0,0000
SEXO 1,387 1,0428 1,330 0,1835
IMC 0,514 0,1051 4,889 0,000001
donde comprobamos que al incluir el índice de masa corporal IMC, el coeficiente de regresión de la variable SEXO se ha modificado drásticamente (ha disminuido en más del 30 %), lo que quizás modifica nuestra interpretación de la relación, ya que si se tiene en cuenta el IMC la influencia del sexo no es...
Regístrate para leer el documento completo.