Certamen N1 II 2011 Pauta
MAT4201 Análisis Multivariado
Alba Martínez Ruiz
Departamento de Ingeniería Industria
Universidad Católica de la Ssma. Concepción
Primavera 2011, Chile
Problema 11 Análisis de Correspondencias
En esta nueva era de la información Internet se ha convertido en una fuente inconmensurable de
datos. Los usuarios de Internet cuando visitan un sitio web dejan una gran cantidad deinformación que los webmasters se encargan de recopilar en unos archivos llamados “log files”.
Algunos de estos datos son: de dónde provienen los usuarios que visitan un determinado sitio
web, qué páginas visitan o en qué links cliquean, incluso es posible saber cuánto tiempo un
usuario visita una determinada página web. Analizando por ejemplo las estadísticas generadas en
estos archivos “log” es posibleexaminar el comportamiento y preferencias de los consumidores
(¿para qué piensa usted que puede servir esto?2). Además, también permite a los webmaster
mejorar el contenido y el diseño de los sitios web.
La tabla que se muestra a continuación presenta datos extraídos de estos “files log”. Los datos se
generan cuando los usuarios visitan la página web del Departamento de Ingeniería Industrial en
unaUniversidad en Chile. Las variables presentadas son seis: Hits y Files para las visitas efectuadas
a un sitio web durante los meses de Mayo, Junio y Julio. Las filas representan los países desde
donde fueron visitadas las páginas web. Se considera un total de 13 países y se incluye un desglose
para Estados Unidos. Se discrimina entre aquellas visitas generadas desde sitios educacionales(USEducation) o comerciales (USCommercial).
Los hits representan el número de solicitudes realizadas a un servidor durante un periodo de
tiempo. Suponga usted que el número de solicitudes hechas al servidor nos entrega una idea de
las visitas que son efectuadas al un sitio web (web traffic). Los files representan el número total de
solicitudes exitosas, es decir aquellas solicitudes que finalmente resultaronen algo enviado al
usuario. Por ejemplo, una página web. No todos los hits enviarán datos a los usuarios3. Si se mira
la diferencia entre hits y files es posible tener un indicador de las visitas repetidas de los usuarios.
Mientras más grande sea la diferencia, más visitantes están solicitando páginas que ya han
revisado con anterioridad.
Se aplica un análisis de correspondencias a la tabla defrecuencias. Uno de los objetivos es
examinar el comportamiento de los consumidores y analizar si es posible encontrar diferencias
entre países. Por supuesto, analizamos el modelo de independencia entre las variables categóricas
1
Inspirado en Koutsoupias, N. (2002) Exploring Web Access Logs with Correspondence, 2nd Hellenic Conf.
on Artificial Intelligence, SETN-2002, 11-12 April 2002,Thessaloniki, Greece. Proceedings, Companion
Volume, pp. 229-236.
2
Por ejemplo identificar tendencias de acceso, tener una visión amplia de cómo los usuarios aceden al sitio y
responder algunas preguntas sobre el contenido del sitio (Koutsoupias, 2002, p. 229).
3
http://www.webalizer.org/
país y estadísticas de Internet (¿qué piensa usted las estadísticas que se generan dependerán del
país de procedenciadel usuario que visita el sitio web?).
Preguntas
Se entrega la siguiente información: el test chi-2 de hipótesis de independencia, la tabla de
frecuencias absolutas observadas, la tabla de frecuencias absolutas esperadas, la matriz de
residuos y la matriz de residuos en porcentajes, las tablas de perfiles fila y columna que incluyen
los perfiles marginales fila y columna, los valores propios dela matriz Z y la varianza explicada y
acumulada, las coordenadas de los puntos fila y columna en el plano determinado por las
dimensiones 1 y 2, la representación conjunta de filas y columnas en el plano determinado por las
dimensiones 1 y 2. Con base en esta información responda las siguientes preguntas:
1. ¿Usted rechazaría o aceptaría la hipótesis de independencia entre las variables...
Regístrate para leer el documento completo.