Introduction to data mining clasification solution
a) Gini Total: 1 - [ (10/20)^2 + (10/20)^2 ] = 0.5 b) Gini(Customer ID): Gini(1) = 1 - [ (1/1)^2 + 0] Gini(2) = 1 - [ (1/1)^2 + 0] = 0 Gini(i) = 1 - [ (1/1)^2 + 0] = 0 para todo i = [1;20], i ЄN Gini(Customer ID) = =0 Gini(M) = 1 - [ (6/10)^2
c) Gini(Gender): Gini(F) = 1 - [ (4/10)^2 + (6/10)^2 ] = 0.48 + (4/10)^2 ] = 0.48 Gini(Gender) = (10/20) * 0.48 + (10/20) * 0.48 = 0.48 d) Gini(CarType) using multiway split: Gini(Luxury) = 1 - [ (1/8)^2 + (7/8)^2 ] = 0.21875 Gini(Sports) = 1 - [ (8/8)^2 + (0/8)^2 ] = 0 Gini(Family) = 1 - [ (1/4)^2 + (3/4)^2 ] = 0.375
Gini(CarType) = 8/20 *0.21875 + 8/20 * 0 + 4/20 * 0.375 = 0.1625 e) Gini(Shirt Size) using multiway split: Gini(small) = 1 - [ (3/5)^2 + (2/5)^2 ] = 0.48 Gini(medium) = 1 - [ (3/7)^2 + (4/7)^2 ] = 0.4897959 Gini(large) = 1 - [ (2/4)^2 + (2/4)^2 ] = 0.5 Gini(extra large) = 1 - [ (2/4)^2 + (2/4)^2 ] = 0.5 Gini(Shirt Size) = 5/20 * 0.48 + 7/20 * 0.4897959 + 4/20 * 0.5 + 4/20 * 0.5 = 0.4914286 f) ¿Cúal atributo es el mejorpara hacer la división?: Gender, Car Type o Shirt Size: El atributo con menor Gini index entre los 3 es el Car Type, por eso es el mejor atributo para realizar la división. g) Explicar por qué el atributo Customer ID no debe seleccionarse como nodo pregunta siendo que tiene el menor Gini: El atributo Customer ID no debe selecionarse como nodo puesto que no se relaciona para nada con las clases yaque es simplemente un identificador que va incrementando por cada nuevo registro. Ejercicio 3: Instance 1 2 3 4 5 6 7 8 9 a1 T T T F F F F T F a2 T T F F T T F F T a3 1.0 6.0 5.0 4.0 7.0 3.0 8.0 7.0 5.0 Target Class + + + + -
a) ¿Cúal es la entropia de esta colección de ejemplos de entrenamiento con respecto a la clase positiva (+)? Hay 5 registros positivos y 4 registros negativos. P(+) = 4/9P(−)=5/9. EntropiaTotal = −4/9 log2 (4/9) − 5/9 log2 (5/9) = 0.991076 b) ¿Cuales son las ganancias de información de a1 y a2 relativo a estos ejemplos de entrenamiento? Entropia(a1) = (4/9)*[ - (3/4)*log2(3/4) - (1/4)*log2(1/4)] + (5/9)*[ - (1/5)*log2(1/5) (4/5)*log2(4/5) ] = 0.7616392 Ganancia de Infomración(a1) = EntropiaTotal - Entropia(a1) = 0.991076 - 0.7616392 = 0.2294368 Entropia(a2) =(5/9)*[ - (3/5)*log2(3/5) - (2/5)*log2(2/5)] + (4/9)*[ - (2/4)*log2(2/4) -
(2/4)*log2(2/4) ] = 0.9838614 Ganancia de Información(a2) = EntropiaTotal - Entropia(a2) = 0.991076 - 0.9838614 = 0.0072146 c) Para a3, el cual es un atributo continuo, compare la ganancia de información para todas las divisiones (split) posibles. Ordenamos los valores en orden ascendente: 1 - 3 - 4 - 5 - 6 - 7 - 8 Puntosmedios entre dos valores adyacentes: 2 - 3.5 - 4.5 - 5.5 - 6.5 - 7.5 Entropy(a3 split(2)) = (1/9)*[ - (1/1)*log2(1/1) ] + (8/9)*[ - (3/8)*log2(3/8) - (5/ 8)*log2(5/8) ] = 0.8483858 Ganancia de Información(a3 split(2)) = EntropiaTotal - Entropia(a3 split(2)) = 0.991076 0.8483858 = 0.1426902 Entropy(a3 split(3.5)) = (2/9)*[ - (1/2)*log2(1/2) - (1/2)*log2(1/2)] + (7/9)*[ - (3/ 7)*log2(3/7) -(4/7)*log2(4/7) ] = 0.9885108 Ganancia de Información(a3 split(3.5) = EntropiaTotal - Entropia(a3 split(3.5) = 0.991076 - 0.9885108 = 0.0025652 Entropy(a3 split(4.5)) = (3/9)*[ - (1/3)*log2(1/3) - (2/3)*log2(2/3)] + (6/9)*[ - (2/ 6)*log2(2/6) - (4/6)*log2(4/6) ] = 0.9182958 Ganancia de Información(a3 split(4.5)) = EntropiaTotal - Entropia(a3 split(4.5)) = 0.991076 - 0.9182958 = 0.0727802 Entropy(a3...
Regístrate para leer el documento completo.