Regresión logística

Páginas: 7 (1580 palabras) Publicado: 7 de junio de 2011

Regresión Logística
Introducción
El problema de clasiﬁcación en dos grupos puede abordarse introduciendo una variable ﬁcticia binaria para representar la pertenencia de una observación a uno de los dos grupos. Por ejemplo, si se desea discriminar entre créditos que se devuelven o que presentan problemas para su cobro, puede añadirse a la base de datos una nueva variable y que tome el valor 0,cuando el crédito se devuelve sin problemas y valor 1 en otro caso. El problema de discriminación es equivalente a la previsión del valor de la variable ﬁcticia y. Si el valor previsto está más próximo a 0 que a 1, clasiﬁcaremos al elemento en la primera población. En otro caso, lo haremos en la segunda. Se construye un modelo que permita prever el valor de la variable ﬁcticia binaria de unelemento de una población, en función de ciertas características medibles x. Supongamos que se dispone de una muestra de n elementos del tipo (yi , xi ) , donde yi es igual a 0 cuando el elemento pertenece a la primera población P1 y 1 cuando pertenece a la segunda P2 . A su vez, xi es un vector de variables explicativas. El primer enfoque es formular el siguiente modelo de regresión:

y = β 0 + β01 x+ u

(1)

y estimar los parámetros por mínimos cuadrados de la forma habitual. Este método es equivalente a la función lineal discriminante de Fisher. Como ya se vio, este procedimiento es óptimo para clasiﬁcar si la distribución conjunta de las variables explicativas es normal multivariante, con la misma matriz de covarianzas. Sin embargo, la discriminación 1

lineal puede funcionar mal enotros contextos, cuando las covarianzas sean distintas o las distribuciones muy alejadas de la normal. Además, si un objetivo importante del estudio es identiﬁcar qué variables son mejores para clasiﬁcar entre las dos poblaciones, la función lineal se encuentra con problemas de interpretación, tanto del modelo como de sus coeﬁcientes estimados. En concreto, tomando esperanzas en (1) para x = xi E[y|xi ] = β 0 + β01 xi Llamamos pi a la probabilidad de que y tome el valor 1 cuando x = xi pi = P (y = 1|xi ) y la esperanza de y es: E [y|xi ] = P (y = 1|xi ) · 1 + P (y = 0|xi ) · 0 = pi por tanto, pi = β 0 + β 01 xi que es una expresión equivalente del modelo. En consecuencia, la predicción yi estima la b población correspondiente a y = 1. El inconveniente principal de esta formulación es quepi debe estar entre cero y uno, y no hay ninguna garantía de que la predicción, β0 + β01 xi veriﬁque esta restricción, ya que el modelo puede prever probabilidades mayores que la unidad. Esto no es un problema insalvable para clasiﬁcar, pero lo es si queremos interpretar el resultado de la regla de clasiﬁcación como una probabilidad de pertenencia a cada población. A pesar de estosinconvenientes, este modelo simple conduce a una buena regla de clasiﬁcación, ya que según la interpretación de Fisher, maximiza la separación entre los grupos, sea cual sea la distribución de los datos. Sin embargo, cuando los datos no son normales, o no tienen la misma matriz de covarianzas, la clasiﬁcación mediante una ecuación 2

probabilidad de que un individuo con características deﬁnidas por x = xipertenezca a la

de relación lineal no es necesariamente óptima, y el modelo logístico puede conducir a mejores resultados.

El modelo logístico (Logit)
Si queremos que el modelo proporcione directamente la probabilidad de pertenecer a cada uno de los grupos, debemos transformar la variable respuesta de algún modo para garantizar que la respuesta prevista esté entre cero y uno. Si tomamos, pi =F (β 0 + β01 xi ) , garantizaremos que pi esté entre cero y uno si exigimos que F tenga esa propiedad. La clase de funciones no decrecientes, acotadas entre cero y uno, es la clase de las funciones de distribución, por lo que el problema se resuelve tomando como F cualquier función de distribución. Habitualmente se toma como F la función de distribución logística, dada por: pi = 1 1+
0 e−(β 0...

Leer documento completo

Regístrate para leer el documento completo.

Regresión logística

Estos documentos también te pueden resultar útiles

regresion logistica

Regresion logistica

Regresion Logistica

REGRESION LOGISTICA UdeA

Regresión logística (resumen)

Regresion Logistica Binaria

Regresion logistica

Regresion Logistica

OTRAS TAREAS POPULARES

Únete a millones de otros estudiantes y comienza tu investigación

Conviértase en miembro formal de Buenas Tareas