Variable dummy

Solo disponible en BuenasTareas
  • Páginas : 5 (1110 palabras )
  • Descarga(s) : 4
  • Publicado : 6 de junio de 2010
Leer documento completo
Vista previa del texto
Variables indicadoras ("dummy")

En los modelos de RLM la linealidad se asume. Esto, p.e. para la variable EJERC del ejemplo anterior, quiere decir que el efecto sobre el colesterol de hacer ejercicio intenso (EJERC=2) con respecto a no hacerlo (EJERC=0) es el doble que el del ejercicio moderado (EJERC=1).

¿Es razonable esta asunción? y ¿para la variable FUMA codificada como 0: no fuma,1:fumador y 2:ex-fumador?

Una solución podría ser crear tantas variables como categorías. No sirve porque serían combinación lineal y el modelo es irresoluble.

La solución es crear tantas variables como categorías menos 1 (en los ejemplos anteriores 2) denominadas variables indicadoras con el siguiente esquema

X1 X2
No-fumador 0 0
Fumador 1 0
Ex-fumador 0 1
Las variables X1 y X2 ya noson combinación lineal y, por tanto, el modelo es resoluble. El modelo quedaría

a0 es mY cuando X1 y X2 son ambas cero, es decir, para los no-fumadores; a0 + a1 es mY cuando X1 es 1 y X2 es 0, es decir fumadores, por lo tanto
a1 es lo que cambia mY entre fumadores y no-fumadores y del mismo modo
a2 es lo que cambia mY entre ex-fumadores y no-fumadores.

Con este esquema de codificación loscoeficientes tienen una clara interpretación cuando, como en este caso, una de las categorías (no-fumador) se quiere usar como referencia para las demás.

A dicha categoría se le asigna el valor cero para todas las variables indicadoras. Sin embargo, para variables en las que no haya una categoría que sea natural usarla como referencia, por ejemplo genotipos, lugar de residencia, etc., es másútil otro esquema de codificación. Para discutirlo supóngase la variable lugar de residencia con cuatro lugares: A, B, C y D. Se crearán tres variables indicadoras (siempre una menos que categorías) con el siguiente esquema



X1

X2

X3

A

-1

-1

-1

B

1

0

0

C

0

1

0

D

0

0

1

El modelo quedará

y por lo tanto

mY = a0 - a1 - a2 - a3 = m Y|Apara los residentes en A
mY = a0 + a1 = mY|B para los residentes en B
mY = a0 + a2 = mY|C para los residentes en C
mY = a0 + a3 = mY|D para los residentes en D

si se suman las 4 ecuaciones:

a0 = ( mY|A + mY|B + mY|C + mY|D)/4 por lo tanto

a0 es la media de Y en los cuatro lugares de residencia
a1 la diferencia de los residentes en B con respecto a la media
a2 la diferencia de losresidentes en C con respecto a la media y
a3 la diferencia de los residentes en D con respecto a la media y, evidentemente, - a1 - a2 - a3 la diferencia de los residentes en A con respecto a la media. De modo que a diferencia del esquema anterior, se usa como nivel de referencia la media en todas las categorías en lugar de una de ellas.

Otro posible esquema de codificación que a veces se usa en laliteratura es

X1

X2

X3

A

1

1

1

B

0

1

1

C

0

0

1

D

0

0

0

y queda para el lector, a modo de ejercicio, la interpretación de los coeficientes de regresión en este caso.

Conviene destacar que estas variables indicadoras no tienen ningún sentido por sí solas y por, lo tanto, deben figurar en los modelos y se debe contrastar su inclusiónsiempre en bloque, usando la F del modelo completo si sólo están dichas variables en el modelo, o la F parcial correspondiente a las mismas si hay más variables.

Ejercicio propuesto : Para los datos del Ejemplo 5, crear "dummys" para el ejercicio (¿con qué esquema?) y contrastar (con la F parcial) si estas variables mejoran el modelo que sólo contiene edad y grasas. Interpretar los coeficientes.Ejemplo 7: Considérense los siguientes datos, procedentes de una muestra hipotética, sobre presión arterial en cm de Hg y "status" de fumador, codificado como 0: no-fumador, 1: fumador y 2: ex-fumador. Discutir el modelo de regresión entre presión arterial y "status" de fumador y estimar por intervalos la presión arterial media según el "status" de fumador, a partir de los resultados del...
tracking img