Clasificacion no supervisada usando Modelos Sustitutos
CLASIFICACIÓN NO SUPERVISADA
Maracaibo, Enero de 2009
1
Hacer una partición de un conjunto de
objetos en clases o categorías
Los elementos que pertenecen a una clase
determinada, poseen características afines y
son más similares entre si
que respecto a elementos
pertenecientes a otra clase
CLASIFICACIÓN NO SUPERVISADA
Maracaibo, Enero de 2009
2
103/02/2010
Cada objeto es observado mediante un
conjunto de variables cuantitativas que reflejan
sus cualidades fundamentales
Observación: conjunto de valores de p
variables asociado a cada objeto
Clasificar: agrupar un conjunto de n
observaciones, cuyas características están
dadas por p variables, basándose en las
semejanzas que existan entre sí
CLASIFICACIÓN NOSUPERVISADA
Maracaibo, Enero de 2009
3
Agrupar un conjunto de n objetos, definidos
por p variables, en c clases, donde en cada
clase los elementos posean características
afines y sean más similares entre sí que
respecto a elementos pertenecientes a otras
clases
CLASIFICACIÓN NO SUPERVISADA
Maracaibo, Enero de 2009
4
2
03/02/2010
Minimizar las desviacionesentre las
observaciones que pertenecen al mismo
grupo
Maximizar las distancias
entre los centros de los
grupos
CLASIFICACIÓN NO SUPERVISADA
Maracaibo, Enero de 2009
5
Se llamará SWj, dispersión en la clase j, a la
suma de las distancias al cuadrado de cada
observación xi al centro mj de la clase ( j ) que
la contiene
Nj
SWj
xi
mj
Clase j
2
i 1
mjCLASIFICACIÓN NO SUPERVISADA
Maracaibo, Enero de 2009
6
3
03/02/2010
Minimizar la suma de las dispersiones de las
clases
C
min Pw
SWj
j 1
CLASIFICACIÓN NO SUPERVISADA
Mide la bondad de la clasificación
R2
1
Maracaibo, Enero de 2009
7
0 R2 1
Pw
ST
Con
N
ST
xi
m
2
i 1
m
CLASIFICACIÓN NO SUPERVISADA
Maracaibo,Enero de 2009
8
4
03/02/2010
1
Idb
C
donde
C
k
max sc Qk sc Ql
k d ce Qk , Ql
1l
xi mk
sc
dce
i
Nk
mk ml
sc es el promedio de las
distancias de los puntos al
centro de la clase
es distancia entre los
centros mk y ml, de dos
clases, k y l, respectivamente
dce
CLASIFICACIÓN NO SUPERVISADA
Maracaibo, Enero de 2009
9
sc Qk sc Ql
d ce Qk , Ql
Esta razón, entre la suma de la media de las
distancias a cada clase y la distancia entre clases,
es pequeña si las clases son compactas y
alejadas entre sí. En consecuencia, la partición en
clases que minimice el indicador de Davies
Bouldin es una partición adecuada
CLASIFICACIÓN NO SUPERVISADA
Maracaibo, Enero de 2009
10
5
03/02/2010
Davies-Bouldin's index
1.41.2
1
0.8
óptimo
1
2
3
4
5
6
7
8
9
10
7
8
9
10
R-Square
1
0.8
0.6
0.4
0.2
0
1
2
3
4
5
6
Número de clases
CLASIFICACIÓN NO SUPERVISADA
Maracaibo, Enero de 2009
11
Los objetivos de una buena clasificación son
◦ Maximizar R2
◦ Minimizar el Idb
Ejemplo: 3 clases
CLASES
R2
Idb
ROJO
0.79
0.83AZUL
0.85
6
4
2
0.6456
2
4
6
CLASIFICACIÓN NO SUPERVISADA
8
10
Maracaibo, Enero de 2009
12
6
03/02/2010
El número de particiones de un conjunto de n
elementos en c clases está dado por los números
de Stirling de segunda clase
Por ejemplo:
n
c
PARTICIONES
8
966
4
611.501
15
4
42.355.950
20
3
12
5749.206.090.500
Es impráctico hallar el óptimo calculando
exhaustivamente las medidas de desempeño
para cada partición posible
CLASIFICACIÓN NO SUPERVISADA
Maracaibo, Enero de 2009
13
El número de Stirling de segunda clase está
dado por:
S (n, k )
1 k
k! j 0
1
k j
k
j
jn
Donde
n : cantidad de observaciones
k : número de particiones
n :...
Regístrate para leer el documento completo.