Dedos

Solo disponible en BuenasTareas
  • Páginas : 44 (10973 palabras )
  • Descarga(s) : 0
  • Publicado : 13 de septiembre de 2012
Leer documento completo
Vista previa del texto
ESTADISTICA ESPAÑOLA

Vol. 30, Núm. 1 19, 1989, p^gs. 295 a 378

Distancias Estadísticas
por
CARLES M. CUADRAS ^
Departament d'Estadística
Universitat de Barcelona

RESUMEN
Este artículo trata de la aplicación de las funciones de distancia a la estadística y a1 análisis de datos. Se exponen y discuten
expresiones sobre distancias y coeficientes de similaridad entre
individuos ypoblaciones. Se íncluyen también algunas aplicaciones a la biología, genética, psicología, arqueología, lingi.iística,
anélisis de la varianza, regresión y asociación estoc^istica.

Palab^as clave: Distancia de Mahalanobis, distancia de Rao, distancia ultramétrica, coeficientes de similaridad, medidas de
divergencia.

AMS 1984: 62H25; 62H30; 62P99.
1.

INTRODUCCION

Las medidas de distanciaentre poblaciones y dentro de poblaciones, han
sido ampliamente utilizadas en numerosos campas científicos: antropología,
agricultura, biología, genética, economía, lingiiística, psicología, sociología,
etc.
^
La noción de distancia estadística junto con sus propiedades constituyen
una importante herramienta, tanto en la estadística matem^tica como en el
análisis de datos. En el primer casoporque mediante una distancia se

?9fi

C^STAC^ISTIC'A ESF'A!^Ol_.A

pueden construir contrastes de hipótesis, estudiar propiedades asintóticas
de estimadores, comparar par^imetros, etc. En el segundo caso, porque fa
distancia es un concepto muy intuitivo, que permite obtener representaciones geométricas, fáciles de entender, ofreciendo al investigador una
importante ayuda parainterpretar la estructura de !os datos.
En líneas generales consideramos dos clases de distancias estadísticas
entre individuos y poblaciones:
a1 Los n individuos de una población S2 quedan descritos por una nnatriz
de datos X(n x p), donde p es el número de variables estadísticas (cuantitativas, cualitativas, binarias o categóricasl. EI número n suele ser el tamaño
de una muestra de la población(ejemplo: n= 75 estudiantes universitarios},
pero puede darse el caso de que Sl sea una población finita de n elementos
(ejemplo: las n= 50 provincias españolas). Una distancia ^5;^ = ó(i,j) entre
dos individuos o elementos i,j de S2 es una medida simétrica no negativa
que cuantifica la diferencia entre ambos en relación con las variables. ^ se
puede sumarizar a través de ia matriz de distancias^f1

^12 • . . ó1n

^2 r

^22 . . . Ú2 n

...............
^n ^

siendo ^5;; = o, cS;,

^n2 ' ' ' ann

V J; .

TABLA 1
Matriz de distancias genéticas entre 6 poblaciones de Drosophila subobscura: Heriot (H), Dalkeith (D), Groningen (G), Viena (V}, Zurich (Z},
Drobak ( Dr)

H
H
D
C;
^/
Z
Dr

D

G

V

Z

Dr

O

0.083
O

0.290
©.276
O

0.399
0.3700.187
0

0.331
0,3
0.112
0.128
O

0.307
0.307
0.152
0.260
0.235
^

b) Los individuos de cada pablación están caracterizados por un vector
aleatorio X=(X,, ..., XP}, que sigue una distribución de probabilidad f(x^, ...,
xP; f^}. La distancia entre dos individuos i,j, caracterizados por los puntos x;,

DISTANCIAS ESTADISTICAS

297

xj de Rp, es una medida simétrica no negativa^S Cx,,x^) que dependerá de Q.
Análogamente la distancia entre dos poblaciones será una medida de divergencia ^S (8,,Q2) entre los parámetros que las caracterizan. También puede
ser conveniente introducir una distancia c^ (x;,Q) entre un individuo i y las
parámetros 8.
Se pueden definir también distancias no paramétricas que miden la
divergencia funcional entre funciones de densidad. En.algunos casos están
relacionadas con medidas de entropia.
Tanto en el caso a) como en el b^, en muchas aplicaciones interesa
representar el conjunto S1 con la distancia ^, es decir, ( S2, ^), mediante un
espacio geométrico modelo (V,d), donde V es un conjunto geométrico
(espacio euclídeo, variedad de Riemann, grafo, curva, etc.) y d es una
distancia sobre V. Según la técnica de representación...
tracking img