Prueba De Hipotesis
Lemus
Nacimientos Carolina del Norte
En 2004, el estado de Carolina del Norte construyó una base de datos grande conteniendo información sobre
registros de nacimientos en este estado. Este conjunto de datos es útil para que investigadores estudien la
relación entre habitantes y práctica de madres expectantes y los nacimientos de sus niños.Trabajaremos con
una muestra aleatoria de observaciones desde esta base de datos.
Análisis Exploratorio
Cargar la base de datos nc en su espacio de trabajo.
download.file("http://www.openintro.org/stat/data/nc.RData", destfile = "nc.RData")
load("nc.RData")
Tenemos observaciones de 13 variables diferentes, algunas categóricas y otras numéricas. El significado de
cada una de las variables es lasiguiente:
variable
description
fage
edad del padre en años.
mage
edad de la madre en años.
mature
estado civil de la madre.
weeks
tiempo de embarazo en semanas.
premie
Si el nacimiento fue clasificado como prematuro o término completo.
visits
número de visitas al hospital en el embarazo.
marital
si la madre es casada o no casada al nacer el niño.
gained
peso ganado por la madre duranteel embarazo en libras.
weight
peso del bebé al nacer en libras.
lowbirthweight
Si el bebé fue clasificado con peso “bajo” o “no bajo”.
gender
género del bebé femenino o masculino.
habit
estatus de la madre cono no fumadora o fumadora.
whitemom
si la mamá es blanca o no blanca.
1. ¿Cuáles son los casos en esta base de datos? ¿Cuántos casos hay en esta base de datos?¿cuántos casos
hay enla muestra?
Como un primer paso en el análisis, deberíamos considrar resúmenes de los datos. Esto puede realizarse
usando el comando summary:
1
summary(nc)
Cuando se revisan los resúmenes de la variables, consideramos cuáles son variables categóricas. cuales
variables numéricas, ¿hay valores extremos (outliers)? Si no se está seguro o se quiere efectuar una mirada
cercana a los datos,grafícalos.
Se considera la posible relación entre una madre que tiene el hábito de fumar y el peso de su bebé. Graficar los
datos es útil como primer paso porque ayuda a una visualización rápida de la tendencia, identifica asociaciones
fuertes, y desarrolla preguntas investigativas.
2. Hacer un boxplot lado a lado de “hábito”" y “peso”. ¿Qué iluminación hace el gráfico respecto a la
relación entre estasdos variables?(boxplot (una forma: weight ~ habit, data = nc))
Los gráficos de caja muestran como comparar las medianas de las dos distribuciones, pero puede también
comparar las medias de las distribuciones usando la siguiente función para dividir la variable “peso” dentro
los “hábitos” de los grupos, luego tomar la media de cada uno usando la función mean.
by(nc$weight, nc$habit, mean)
Hay unadiferencia observada, pero ¿es esta diferencia significativa? Con el fin de responder esta pregunta
conduciremos una prueba de hipótesis.
Inferencia
3. Verificar si las condiciones necesarias para la inferencia son satisfechas. Notar que se necesita obtener el
tamaño de muestra para verificar las condiciones. Se puede calcular el tamaño de los grupos usando el
mismo comando de arriba by peroreeplazando el comando mean conlength.
4. Escribir la hipótesis para probar si los pesos promedios de los niños nacidos para madres fumadoras y o
no son diferentes.
A continuación, introducimos una nueva función, inference, que se usará para construir intervalos de
confianza.
inference(y = nc$weight, x = nc$habit, est = "mean", type = "ht", null = 0,
alternative = "twosided", method = "theoretical")Hacer una pausa por un momento para ir a tavés de los argumentos de esta función personalizada.
El argumento de la primera variable es y, la cual es la variable respuesta en la que se esta interesado:
nc$weight. El segundo argumento es la variable explicatoria, x, la cual es la variable que divide
los datos en dos grupos, fumadoras y no fumadoras:nc$habit. El tercer argumento,est, es
el parámetro...
Regístrate para leer el documento completo.