Criterios De Similitudinv2014 15
Criterios basados en distancias como indicadores de disimilaridad
DISTANCIA EUCLIDEA
DISTANCIA EUCLIDEA NORMALIZADA
DISTANCIA DE MAHALANOBIS
OTRAS DISTANCIAS
Criterios basados en similaridades. Medidas de similaridad
Ir a Análisis Cluster Ir a fases Una vez hemos hecho una adecuada selección de las variables a considerar, cada uno de los individuos sujetos al análisis nos vendrá representado por los valores que tomen estas variables en cada uno de ellos. Este es el punto de partida de la clasificación. Para clasificar adecuadamente los individuos deberemos determinar lo similares o disimilares (divergentes) que son entre sí, en función delo diferentes que resulten ser sus representaciones en el espacio de las variables.
Para medir lo similares ( o disimilares) que son los individuos existe una enorme cantidad de índices desimilaridad y de disimilaridad o divergencia. Todos ellos tienen propiedades y utilidades distintas y habrá que ser consciente de ellas para su correcta aplicación al caso que nos ocupe.
La mayorparte de estos índices serán o bien, indicadores basados en la distancia (considerando a los individuos como vectores en el espacio de las variables) (en este sentido un elevado valor de la distancia entre dos individuos nos indicará un alto grado de disimilaridad entre ellos); o bien, indicadores basados en coeficientes de correlación ; o bien basados en tablas de datos de posesión o no de unaserie de atributos.
Criterios basados en distancias como indicadores de disimilaridad
Se da, en general, el nombre de distancia o disimilaridad entre dos individuos i y j a una medida, indicada por d(i,j) , que mide el grado de semejanza, o a mejor decir de desemejanza, entre ambos objetos o individuos, en relación a un cierto número de características cuantitativa y / o cualitativas. El valor ded(i,j) es siempre un valor no negativo, y cuanto mayor sea este valor mayor será la diferencia entre los individuos i y j.
Toda distancia debe verificar, al menos, las siguientes propiedades:
(P.1) d(i,j) > 0 (no negatividad)
(P.2) d(i,i) = 0
(P.3) d(i,j) = d(j,i) (simetría)
Diremos que una distancia es euclidiana cuando pueda encontrarse un espacio vectorialde dimensión igual o inferior a la dimensión del espacio de las variables en el que podamos representar a los individuos por puntos cuya distancia euclídea ordinaria coincida con la distancia utilizada.
Es decir si existe un espacio vectorial Rm , con m < n (siendo n el número de variables consideradas para representar a los individuos ) y dos puntos de ese espacio, Pi y Pj de coordenadas : Pi =(Pi1 , Pi2,... Pi m ) y Pj = (Pj1 , Pj2 ,..., Pj m ) verificándose que la distancia que estamos considerando entre los individuos i y j es igual a la distancia euclídea entre los puntos Pi y Pj en Rm ; esto es: Si d (i,j) =º ( Pi - Pj )º , diremos que la distancia d (i,j) es euclidiana .
Cuando la distancia es euclidiana se verifica además que:
(P.4) d(i,j)< d(i,t) + d(j,t) (desigualdadtriangular)
(P.5) d(i,j) > 0 " i ¹ j
Cualquier distancia que verifica la propiedad P.4 es llamada distancia métrica. Cumpliéndose , en consecuencia, que las distancias euclidianas son un subconjunto de las distancias métricas.
Si además de verificar la propiedad P.4 una distancia verifica la propiedad:
(P.6) d(i,j) < max [ (d(i,t), d(j,t) ](desigualdad triangular ultramétrica) se dice que la distancia es ultramétrica.
Existe una gran cantidad de distancias e indicadores de disimilaridad y no se puede disponer de una regla general que nos permita definir una disimilaridad conveniente para todo tipo de análisis. De las propiedades de que goce, de la naturaleza de las variables utilizadas y de los individuos estudiados y de la finalidad...
Regístrate para leer el documento completo.