Introduction to data mining clasification solution

Páginas: 13 (3109 palabras) Publicado: 18 de mayo de 2010
Introduction to Data Minning - Kumar et. al. Ejerrcicios Minería de Datos: Clasificación (Capítulo 4) Ejercicio 2: Customer ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Gender M M M M M M F F F F M M M M F F F F F F Car Type Family Sports Sports Sports Sports Sports Sports Sports Sports Luxury Family Family Family Luxury Luxury Luxury Luxury Luxury Luxury Luxury Shirt Size Small MediumMedium Large Extra Large Extra Large Small Small Medium Large Large Extra Large Medium Extra Large Small Small Medium Medium Medium Large Class C0 C0 C0 C0 C0 C0 C0 C0 C0 C0 C1 C1 C1 C1 C1 C1 C1 C1 C1 C1

a) Gini Total: 1 - [ (10/20)^2 + (10/20)^2 ] = 0.5 b) Gini(Customer ID): Gini(1) = 1 - [ (1/1)^2 + 0] Gini(2) = 1 - [ (1/1)^2 + 0] = 0 Gini(i) = 1 - [ (1/1)^2 + 0] = 0 para todo i = [1;20], i ЄN Gini(Customer ID) = =0 Gini(M) = 1 - [ (6/10)^2

c) Gini(Gender): Gini(F) = 1 - [ (4/10)^2 + (6/10)^2 ] = 0.48 + (4/10)^2 ] = 0.48 Gini(Gender) = (10/20) * 0.48 + (10/20) * 0.48 = 0.48 d) Gini(CarType) using multiway split: Gini(Luxury) = 1 - [ (1/8)^2 + (7/8)^2 ] = 0.21875 Gini(Sports) = 1 - [ (8/8)^2 + (0/8)^2 ] = 0 Gini(Family) = 1 - [ (1/4)^2 + (3/4)^2 ] = 0.375

Gini(CarType) = 8/20 *0.21875 + 8/20 * 0 + 4/20 * 0.375 = 0.1625 e) Gini(Shirt Size) using multiway split: Gini(small) = 1 - [ (3/5)^2 + (2/5)^2 ] = 0.48 Gini(medium) = 1 - [ (3/7)^2 + (4/7)^2 ] = 0.4897959 Gini(large) = 1 - [ (2/4)^2 + (2/4)^2 ] = 0.5 Gini(extra large) = 1 - [ (2/4)^2 + (2/4)^2 ] = 0.5 Gini(Shirt Size) = 5/20 * 0.48 + 7/20 * 0.4897959 + 4/20 * 0.5 + 4/20 * 0.5 = 0.4914286 f) ¿Cúal atributo es el mejorpara hacer la división?: Gender, Car Type o Shirt Size: El atributo con menor Gini index entre los 3 es el Car Type, por eso es el mejor atributo para realizar la división. g) Explicar por qué el atributo Customer ID no debe seleccionarse como nodo pregunta siendo que tiene el menor Gini: El atributo Customer ID no debe selecionarse como nodo puesto que no se relaciona para nada con las clases yaque es simplemente un identificador que va incrementando por cada nuevo registro. Ejercicio 3: Instance 1 2 3 4 5 6 7 8 9 a1 T T T F F F F T F a2 T T F F T T F F T a3 1.0 6.0 5.0 4.0 7.0 3.0 8.0 7.0 5.0 Target Class + + + + -

a) ¿Cúal es la entropia de esta colección de ejemplos de entrenamiento con respecto a la clase positiva (+)? Hay 5 registros positivos y 4 registros negativos. P(+) = 4/9P(−)=5/9. EntropiaTotal = −4/9 log2 (4/9) − 5/9 log2 (5/9) = 0.991076 b) ¿Cuales son las ganancias de información de a1 y a2 relativo a estos ejemplos de entrenamiento? Entropia(a1) = (4/9)*[ - (3/4)*log2(3/4) - (1/4)*log2(1/4)] + (5/9)*[ - (1/5)*log2(1/5) (4/5)*log2(4/5) ] = 0.7616392 Ganancia de Infomración(a1) = EntropiaTotal - Entropia(a1) = 0.991076 - 0.7616392 = 0.2294368 Entropia(a2) =(5/9)*[ - (3/5)*log2(3/5) - (2/5)*log2(2/5)] + (4/9)*[ - (2/4)*log2(2/4) -

(2/4)*log2(2/4) ] = 0.9838614 Ganancia de Información(a2) = EntropiaTotal - Entropia(a2) = 0.991076 - 0.9838614 = 0.0072146 c) Para a3, el cual es un atributo continuo, compare la ganancia de información para todas las divisiones (split) posibles. Ordenamos los valores en orden ascendente: 1 - 3 - 4 - 5 - 6 - 7 - 8 Puntosmedios entre dos valores adyacentes: 2 - 3.5 - 4.5 - 5.5 - 6.5 - 7.5 Entropy(a3 split(2)) = (1/9)*[ - (1/1)*log2(1/1) ] + (8/9)*[ - (3/8)*log2(3/8) - (5/ 8)*log2(5/8) ] = 0.8483858 Ganancia de Información(a3 split(2)) = EntropiaTotal - Entropia(a3 split(2)) = 0.991076 0.8483858 = 0.1426902 Entropy(a3 split(3.5)) = (2/9)*[ - (1/2)*log2(1/2) - (1/2)*log2(1/2)] + (7/9)*[ - (3/ 7)*log2(3/7) -(4/7)*log2(4/7) ] = 0.9885108 Ganancia de Información(a3 split(3.5) = EntropiaTotal - Entropia(a3 split(3.5) = 0.991076 - 0.9885108 = 0.0025652 Entropy(a3 split(4.5)) = (3/9)*[ - (1/3)*log2(1/3) - (2/3)*log2(2/3)] + (6/9)*[ - (2/ 6)*log2(2/6) - (4/6)*log2(4/6) ] = 0.9182958 Ganancia de Información(a3 split(4.5)) = EntropiaTotal - Entropia(a3 split(4.5)) = 0.991076 - 0.9182958 = 0.0727802 Entropy(a3...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • Data mining
  • Data Mining
  • Data Mining
  • data mining
  • Data mining
  • Data Mining
  • DATA MINING
  • Data Mining

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS