Analisis Cluster
Á
1. Introducción
2.
2 Medidas de similaridad
3. Análisis jerárquico
4. Análisis no jerárquico
5. Elección entre los distintos tipos de análisis
p
6. Caso práctico
clasificación
Análisis de interdependencias
Relación
entre
variables
Métricas
componentes
principales
Relación
entre
casos
Relación
entre
objetos
j
análisis
clusterescalamiento
multidimensional
No métricas
análisis
factorial
análisis
correspondencias
introducción
Técnica para clasificar observaciones en grupos:
-
Cada grupo sea homogéneo respecto a las variables
utilizadas para su formación
-
Que los grupos sean lo más distintos posible unos de
otros respectos a las variables consideradas
-
La composición de los gruposes desconocida a priori (en
el análisis discriminante o en la regresión logística se conocen
los grupos)
introducción
-
Por ejemplo:
-
Clasificar los animales de un rebaño según sus
características productivas y aptitudes para la explotación
ecológica (producción de leche, producción de carne,
edad, enfermedades, rusticidad, prolificidad, fertilidad,
aplomos, raza, etc.)
-Clasificar explotaciones ganaderas según su implicación
en funciones no productivas
introducción
Pasos d l análisis cluster:
P
del áli i l t
-
Se tiene información de n casos y k variables
-
Se establece un indicador que nos diga en qué medida cada
par de observaciones se parece entre sí (distancia o
similaridad)
-
Se crean los grupos de acuerdo a la medida desimilaridad o
distancia anterior Hay dos tipos de creación de grupos y
anterior.
varios métodos de agrupación
-
Se describen los grupos obtenidos y se comparan unos con
otros
-
Validación del análisis
medidas de similaridad
Medidas de similaridad
Ejemplo
Se tiene información de la producción de leche y del rendimiento
quesero d 8 cabras
de
b
Cabra
1
2
3
4
5
6
7
8Producción leche Rendimiento quesero
225
10
225
15
210
0
30
200
35
325
20
375
25
450
40
500
35
medidas de similaridad
45
40
35
30
25
20
15
10
5
0
100
250
400
550
medidas de similaridad
45
40
35
30
25
20
15
10
5
0
100
250
400
550
medidas de similaridad
Medidas de i il id d
M did d similaridad para variables métricas
i blét i
-
Distancia euclídea (D) entre dos casos: D = √Σ (Xip – Xjp)2
-
En el ejemplo:
-
(
)
(
)
D12 = √ (225 – 225)2 + (15 – 10)2 = 5
-
D13 = √ (210 – 225)2 + (30 – 10)2 = 196
Cabra
1
2
3
4
5
6
7
8
Producción leche Rendimiento quesero
225
10
225
15
210
30
200
35
325
20
375
25
450
40
500
35
medidas de similaridad
-
Distancia euclídea alcuadrado (D2) entre d casos:
Di t
i
líd
l
d d
t dos
-
Menos exigente que el anterior
D = Σ (Xip – Xjp)2
En el ejemplo:
j p
-
D12 = (225 – 225)2 + (15 – 10)2 = 25
-
D13 = (210 – 225)2 + (30 – 10)2 = 38425
Cabra
1
2
3
4
5
6
7
8
Producción leche Rendimiento quesero
q
225
10
225
15
210
30
200
35
325
20
375
25
450
40
500
35
medidas de similaridad-
Distancia d Mi k
Di t
i de Minkowski:
ki
-
-
M = [Σ (Xip – Xjp)2]1/n
Los dos casos anteriores son un caso particular (n=2)
de la distancia de Minkowski
Distancia city block o “Manhatan”:
-
M = Σ (Xip – Xjp)
medidas de similaridad
45
40
c
35
30
b
25
20
a
15
10
5
0
100
250
400
550
medidas de similaridad
Estandarización delos datos:
-
Las distancias de similaridad son muy sensibles a las
unidades en que estén medidas las variables.
q
-
En el ejemplo (distancia D2):
-
D12 = (225 – 225)2 + (15 – 10)2 = 25
-
D13 = (210 – 225)2 + (30 – 10)2 = 38.425
-
Si la producción de leche la medimos en centilitros:
-
-
D12 = (22500 – 22500)2 + (15 – 10)2 = 25
D13 = (21000 – 22500)2 + (30 – 10)2...
Regístrate para leer el documento completo.