FichaTecnica Estratificada
Nota técnica
Estratificación multivariada
Censo de Población y Vivienda 2010
NOTA TÉCNICA
ESTRATIFICACIÓN MULTIVARIADA
Con la finalidad de que el usuario pueda realizar clasificaciones de las unidades geográficas del
país considerando múltiples variables a la vez, se ha incorporado al Sistema para la Consulta de la Información Censal 2010 (SCINCE 2010) una herramienta de estratificación multivariada. Es
importante que el usuario analice los resultados de la estratificación cuidadosamente antes de
utilizar la clasificación obtenida.
El objetivo de la estratificación multivariada es resumir la información de todas las variables que se incluyen en el análisis, en una medida unidimensional que permita clasificar las observaciones en
grupos homogéneos internamente y disímiles entre sí. El presente documento describe
brevemente las técnicas empleadas para la estratificación; adicionalmente, se proporciona
bibliografía para aquellos usuarios interesados en un estudio detallado de estas técnicas.
1. Método de Componentes principales y Dalenius‐Hodges Esta técnica de estratificación multivariada consiste en obtener una medida unidimensional en la
que se resume la información de las variables consideradas para la estratificación, llamada primera
componente principal, y aplicar a ésta el método de estratificación univariada de Dalenius‐Hodges.
1.1 Componentes principales Para realizar un análisis exploratorio de datos multivariados, se recomienda el uso de la técnica de
componentes principales como primer paso. Esta técnica permite observar las estructuras de
variación de los datos y, en algunos casos, identificar observaciones atípicas o variables cuya
aportación es mínima o redundante para realizar la clasificación.
El método de componentes principales consiste básicamente en resumir la información de un
conjunto de variables mediante la construcción de un conjunto con menor número de variables.
El método de construcción de las componentes principales garantiza que la primera componente
principal sea la que explique un mayor porcentaje de varianza de los datos, por ello, es esta primera componente principal la que se utiliza para realizar la estratificación. Es importante que el
usuario evalúe la pertinencia de aplicar este método de estratificación considerando que el
porcentaje de varianza explicada por la primera componente principal debe ser lo más cercano
posible a 100 por ciento.
Los resultados que se proporcionan por medio del análisis de componentes principales permiten
explorar la estructura y comportamiento de los datos que se incluyan en el modelo de
estratificación. Al analizar los resultados numéricos y las gráficas que se presentan, el usuario
podrá determinar si las variables que se incluyen en el estudio son pertinentes, o bien algunas son
redundantes o aportan poca información para la estratificación.
1
De manera más formal, el método de componentes principales consiste en la descripción de la
variación de un conjunto de variables en términos de un conjunto de (
) variables no
correlacionadas, que en realidad son combinaciones lineales de las variables originales.
Así, si ,
forma:
,…,
son las variables originales, entonces las componentes principales tendrán la
⋯
⋮
⋯
Las componentes principales están construidas de tal modo que la varianza captada va
⋯
decreciendo, es decir
, por ello, en un contexto de
reducción de dimensiones se seleccionan las primeras componentes principales para
representar a la población original.
Las componentes principales se obtienen mediante una técnica algebraica llamada ...
Regístrate para leer el documento completo.