Information value
Facultad de Matemáticas
Departamento de Estadística
Segundo Semestre 2013
EYP 2095 Seminario de Estadística
Tarea 4
Nombre: Catalina Galleguillos Cid
Profesor: María José González
Ayudante: Gustavo Riquelme
Fecha: 14 de Octubre
1.
INFORMATION VALUE (IV)
Es necesario determinar el poder predictivo de cada variable, es decir, la capacidadpara separar los altos
riesgos de los bajos riesgos. Se dene:
n
ˆT
ˆT
PBi − PMi ∗ ln
IV =
M
i=1
donde:
ˆT
ρi = PBi =
ˆ1
ˆT
PB i
ˆ
P Ti
Cantidad buenas tramoi
Cantidad buenas en total
ˆT
ρi = PMi =
ˆ2
Cantidad malas tramoi
Cantidad malas en total
El valor del information value se clasica:
IV
≤ 0.02 No predictiva
0.02 <
IV
≤ 0.1 Débil
0.1<
IV
≤ 0.3 Media
0.3 <
IV
≤ 0.5 Fuerte
0.5 <
IV
Sospechosa
Para la variable edad en el primer nivel, es decir, para los clientes menores a 38 años, se tiene la relación
anterior explicada, los clientes que no han caído vencido con respecto al total de todos los clientes que
no han caído en vencido (buenos) y los que han caído en vencido con respecto al total de todoslos que
han caído en vencido (malos), respectivamente:
ρ1 =
ˆ1
10987
= 0.19
59303
ρ1 =
ˆ2
1289
= 0.30
4255
Para el segundo nivel, es decir, para los clientes mayores a 38 años, se realiza nuevamente:
ρ2 =
ˆ1
48316
= 0.81
59303
ρ2 =
ˆ2
2966
= 0.70
4255
Se obtiene el IV:
IV = [0.19 − 0.30] ∗ ln
0.19
0.30
+ [0.81 − 0.70] ∗ ln
0.81
0.70
= 0.066Por ende, edad clasica como una variable predictiva débil para el modelo, es decir, no aporta mayor
información al modelo para discriminar entre un cliente malo versus a un cliente bueno.
1
Para la variable familiares a cargo, el primer nivel donde se consideran los clientes que no tienen
familiares a cargo, se tiene tanto para clientes que no han caído en vencido (ρ1 ) y los que han caído(ρ2 ):
ρ1 =
ˆ1
35627
= 0.60
59303
ρ1 =
ˆ2
2188
= 0.51
4255
Para el segundo nivel, los clientes que tienen un familiar a cargo, nuevamente se obtiene:
ρ2 =
ˆ1
10676
= 0.18
59303
ρ2 =
ˆ2
824
= 0.19
4255
Tercer nivel, clientes que tienen 2 familiares a cargo, se tiene:
ρ3 =
ˆ1
7772
= 0.13
59303
ρ3 =
ˆ2
725
= 0.17
4255
Y por último, cuartonivel, clientes con más de 2 familiares a cargo:
ρ4 =
ˆ1
5228
= 0.09
59303
ρ4 =
ˆ2
518
= 0.12
4255
El IV para esta variable:
IV = [0.60 − 0.51]∗ln
0.60
+[0.18 − 0.19]∗ln
0.51
0.18
+[0.13 − 0.17]∗ln
0.19
0.13
+[0.09 − 0.12]∗ln
0.17
0.09
0.12
Al igual que para la variable edad, familiar a cargo clasica como una variable débil, entonces, no
aporta mayorinformación al modelo para discriminar entre un cliente malo versus a un cliente bueno.
Para la variable ingreso, el primer nivel, los clientes cuales tienen un ingreso mensual mayor a 100 y
menor a 10.000, se tiene tanto para clientes que no han caído en vencido (ρ1 ) y los que han caído (ρ2 ):
ρ1 =
ˆ1
39443
= 0.67
59303
ρ1 =
ˆ2
3224
= 0.76
4255
Segundo nivel, los clientes coningreso mensual mayor a 10.000, se obtiene:
ρ2 =
ˆ1
8335
= 0.14
59303
ρ2 =
ˆ2
369
= 0.09
4255
Para el último nivel, para clientes con ingresos mensuales no informados o menores a 100:
ρ3 =
ˆ1
11525
= 0.19
59303
ρ3 =
ˆ2
662
= 0.15
4255
El IV para la variable ingreso:
IV = [0.67 − 0.76] ∗ ln
0.67
0.76
+ [0.14 − 0.09] ∗ ln
0.14
0.09
+ [0.19 − 0.15] ∗ln
0.19
0.15
= 0.042
Nuevamente resulta la variable débil para el modelo, por ende, no aporta información al modelo, no
discriminaría bien.
Por último, la variable mora1, en su primer nivel donde considera a los clientes que nunca han caído
en mora 1 en los últimos dos años. Se tiene tanto para clientes que no han caído en vencido (ρ1 ) y los
que han caído (ρ2 ):
ρ1 =
ˆ1
51243...
Regístrate para leer el documento completo.