Regresión logística

Solo disponible en BuenasTareas
  • Páginas : 7 (1580 palabras )
  • Descarga(s) : 0
  • Publicado : 7 de junio de 2011
Leer documento completo
Vista previa del texto
Regresión Logística
Introducción
El problema de clasificación en dos grupos puede abordarse introduciendo una variable ficticia binaria para representar la pertenencia de una observación a uno de los dos grupos. Por ejemplo, si se desea discriminar entre créditos que se devuelven o que presentan problemas para su cobro, puede añadirse a la base de datos una nueva variable y que tome el valor 0,cuando el crédito se devuelve sin problemas y valor 1 en otro caso. El problema de discriminación es equivalente a la previsión del valor de la variable ficticia y. Si el valor previsto está más próximo a 0 que a 1, clasificaremos al elemento en la primera población. En otro caso, lo haremos en la segunda. Se construye un modelo que permita prever el valor de la variable ficticia binaria de unelemento de una población, en función de ciertas características medibles x. Supongamos que se dispone de una muestra de n elementos del tipo (yi , xi ) , donde yi es igual a 0 cuando el elemento pertenece a la primera población P1 y 1 cuando pertenece a la segunda P2 . A su vez, xi es un vector de variables explicativas. El primer enfoque es formular el siguiente modelo de regresión:

y = β 0 + β01 x+ u

(1)

y estimar los parámetros por mínimos cuadrados de la forma habitual. Este método es equivalente a la función lineal discriminante de Fisher. Como ya se vio, este procedimiento es óptimo para clasificar si la distribución conjunta de las variables explicativas es normal multivariante, con la misma matriz de covarianzas. Sin embargo, la discriminación 1

lineal puede funcionar mal enotros contextos, cuando las covarianzas sean distintas o las distribuciones muy alejadas de la normal. Además, si un objetivo importante del estudio es identificar qué variables son mejores para clasificar entre las dos poblaciones, la función lineal se encuentra con problemas de interpretación, tanto del modelo como de sus coeficientes estimados. En concreto, tomando esperanzas en (1) para x = xi E[y|xi ] = β 0 + β01 xi Llamamos pi a la probabilidad de que y tome el valor 1 cuando x = xi pi = P (y = 1|xi ) y la esperanza de y es: E [y|xi ] = P (y = 1|xi ) · 1 + P (y = 0|xi ) · 0 = pi por tanto, pi = β 0 + β 01 xi que es una expresión equivalente del modelo. En consecuencia, la predicción yi estima la b población correspondiente a y = 1. El inconveniente principal de esta formulación es quepi debe estar entre cero y uno, y no hay ninguna garantía de que la predicción, β0 + β01 xi verifique esta restricción, ya que el modelo puede prever probabilidades mayores que la unidad. Esto no es un problema insalvable para clasificar, pero lo es si queremos interpretar el resultado de la regla de clasificación como una probabilidad de pertenencia a cada población. A pesar de estosinconvenientes, este modelo simple conduce a una buena regla de clasificación, ya que según la interpretación de Fisher, maximiza la separación entre los grupos, sea cual sea la distribución de los datos. Sin embargo, cuando los datos no son normales, o no tienen la misma matriz de covarianzas, la clasificación mediante una ecuación 2

probabilidad de que un individuo con características definidas por x = xipertenezca a la

de relación lineal no es necesariamente óptima, y el modelo logístico puede conducir a mejores resultados.

El modelo logístico (Logit)
Si queremos que el modelo proporcione directamente la probabilidad de pertenecer a cada uno de los grupos, debemos transformar la variable respuesta de algún modo para garantizar que la respuesta prevista esté entre cero y uno. Si tomamos, pi =F (β 0 + β01 xi ) , garantizaremos que pi esté entre cero y uno si exigimos que F tenga esa propiedad. La clase de funciones no decrecientes, acotadas entre cero y uno, es la clase de las funciones de distribución, por lo que el problema se resuelve tomando como F cualquier función de distribución. Habitualmente se toma como F la función de distribución logística, dada por: pi = 1 1+
0 e−(β 0...
tracking img