Estadística el CHI
la Distribución Chi Cuadrada
MSC. DAPHNE TIMANÁ PALACIOS
Prueba de Independencia
de dos variables:
Las Hipótesis nula y alternativa:
H0: Las variables son independientes entre sí
H1: Las variables no son independientes entre sí
Se debe usar la prueba chi
cuadrada para poner a
prueba si existe o no una
relación entre las variables
Los datos serefieren a dos
variables de escala
nominal
Cada variable
tiene dos o más
categorías
O un agente de seguros tal vez quiera
determinar si diferentes grupos
ocupacionales tienden a sufrir diferentes
tipos de lesiones en el trabajo
Al director de una
campaña le puede
interesar si la afiliación
a un partido se
relaciona con el nivel
educativo
David Plouffe, director de la campañapresidencial de Barack Obama
Venta de seguros, una
profesión y una carrera con
proyección de futuro.
El propósito de la prueba
chi cuadrada en tales
aplicaciones no es
identificar la naturaleza
exacta de una relación
entre las variables
nominales;
La meta de esta técnica es
simplemente probar si las
variables son o no
independientes entre sí.
Procedimiento de la Prueba deIndependencia de dos variables
Una tabla de
contingencias
tiene r filas y k
columnas,
donde:r ≥ 2 y
k≥2
Crear la tabla
de
contingencias
Las frecuencias
observadas
reflejarán una
clasificación
cruzada de los
integrantes de una
sola muestra
Comparar las tablas
de frecuencias
observadas y de
frecuencias
esperadas
La tabla de
frecuencias
esperadas se
construyesuponiendo que la
hipótesis nula es
verdadera
Medir la diferencia entre
estas tablas mediante el
estadístico de prueba χ2
El estadístico chi cuadrado ( χ2) de la prueba
se calcula:
χ
•
•
•
•
•
2
calculada
(O E )
E
2
F: Número de filas en la tabla de contingencia
C: Número de columnas en la tabla de contingencia
Oij: Frecuencia observada en la fila i, columna jEij: Frecuencia esperada en la fila i, columna j
gl = (F – 1) (C – 1)
GRADOS DE LIBERTAD
Las filas y columnas deberán ser
combinadas cuando sea necesario, de
modo que:
Cada valor de Eij sea cuando menos 5.
El cálculo de los valores Eij en la tabla de
frecuencias esperadas se basa en:
• La suposición de que H0 es verdadera y que las
variables en realidad son independientes.
• Losconceptos de probabilidad conjunta y
marginal.
pj es la probabilidad marginal de que el integrante de una
muestra seleccionada de manera aleatoria esté en la
columna j.
Si las variables en realidad son independientes, esta
probabilidad debe poder aplicarse sin tomar en cuenta
cuál fila se considera, y el número esperado de
observaciones en la celda ij será el producto de pj por ni.Ejemplo…
Una investigadora de
seguridad de tránsito
observó 500 vehículos en
una señal de alto en un
vecindario suburbano y
registró:
El tipo de vehículo (sedán, camioneta,
camión de carga)
El comportamiento del conductor frente
a la señal de alto (alto total, casi
detenido, no respeta la señal)
…Ejemplo…
Sus resultados se resumen en la siguiente tabla:
Sedán
Tipo devehículo
Camioneta
Camión de
carga
Total
Conducta en la señal de alto
Avanza sin No respeta
Detenido
motor
la señal
183
107
60
Total
350
54
27
19
100
14
20
16
50
251
154
95
500
Con un nivel de confianza de 0.95, ¿puede haber
alguna relación entre el comportamiento del
conductor y el tipo de vehículo que conduce?
Formulamos lashipótesis nula y
alternativa:
H0: La conducta del conductor y el tipo de vehículos son
independientes. NO EXISTE RELACIÓN ENTRE LAS
VARIABLES
H1: La conducta del conductor y el tipo de vehículos son
dependientes. EXISTE RELACION ENTRE LAS
VARIABLES.
Conducta en la señal de alto
Detenido
Tipo de
vehículo
Avanza sin No respeta
motor
la señal
107
60
Total
Sedán
183...
Regístrate para leer el documento completo.