Prueba Chi cuadrado

Tiene diferentes usos entre los que se encuentran

  • Determinar si una variable categórica sigue o no, una distribución hipotética, como la binomial o la poisson.

El juego de hipótesis es:

\(H_0:\) Los datos analizados siguen una distribución M.

\(H_1:\) Los datos analizados no siguen una distribución M

Grados de libertad

\[gl=\quad k \quad observaciones-\quad t\quad parametros \quad estimados\quad -1\]

  • Evaluar si una variable es independiente de la otra: Dos variables aleatorias X e Y son llamadas independientes, si la distribución de probabilidad de una de las variables no es afectada por la presencia de la otra.

El juego de hipótesis es:

\(H_o:\) Las variables son independientes, una variable no varía entre los distintos niveles de la otra variable. \(H_a:\) Las variables son dependientes, una variable varía entre los distintos niveles de la otra variable.

Grados de libertad

\[df=(columnas−1)*(filas−1)\]

  • Comparar si dos distribuciones de probabilidad se desempeñan de las misma manera

El juego de hipótesis es:

\(H_o:\) la distribución de probabilidad de x es similar a y.

\(H_a:\) la distribución de probabilidad de x no es similar a y.

En todos los casos el estadístico corresponde a:

\[ \large \chi^2=\sum_{i,j}^n \frac {(o_{ij}-e_{ij})^2}{e_{ij}}\]

Asuma que \(Oij\) es la frecuencia observada de eventos que pertenecen a ambos, la i−ésima categoría de X y la j−ésima categoría de Y. Además, suponga que \(e_{ij}\) son las correspondientes frecuencias esperadas si X e Y son independientes.

Videos ejemplo

Prueba chi cuadrado para la independencia de dos distribuciones

Prueba de bondad de ajuste para la distribución de probabilidad binomial

Prueba de bondad de ajuste para la distribución de probabilidad poisson

Ejemplo En un supermercado se está estudiando el comportamiento del número de personas que llegan cada hora. Se analizaron 20 horas, cuyos datos se consignan a continuación:

Análisis exploratorio Se analiza los gráficos para determinar una distribución hipotética.

personas<-c(13, 14, 14, 19, 17, 14, 13,  9, 16, 16,13, 13, 15, 13,  7, 14, 14, 13, 20, 15)

mean(personas)
## [1] 14.1
par(mfrow=c(1,2))
hist(personas, xlab = "personas", ylab = "Frecuencia", las=1, main = "", col = "gray")
plot(density(personas), xlab = "personas", ylab = "Densidad", las=1, main = "")

En este caso, la variable de interés registra un número de eventos por unidad de tiempo, por lo que se sugiere analizar el ajuste a una distribución poisson. Se muestra la respectiva prueba de hipótesis. Sea X el número de clientes que visitan Celia Express.

\(H_0:X_i∼Poisson\)

\(H_1:X_i≁Poisson\)

Manualmente

Los valores se agrupan en una tabla de frecuencias

Clientes/hora Frec obs prob frec esp (obs-esp)^2/esp
9 2 0.048 0.96 1.1
13 6 0.106 2.12 7.1
14 5 0.105 2.12 3.9
15 2 0.098 1.97 0
16 2 0.085 1.72 0
17 3 0.07 1.41 1.8
total 20 13.9

el valor del promedio \(\lambda\) se estima asi: \[\lambda=\frac{(9*2)+(13*6)+(14*5)+(15*2)+(16*2)+(17*3)}{20}=13.95\]

A partir de este valor se estima la probabilidad de cada uno de ellos según la distribución de probabilidad poisson

\[p(x=9)=\frac{e^{-\lambda}\lambda^x}{x!}=\frac{e^{-13.95}13.95^9}{9!}=0.048\]

La frecuencia esperada se obtiene de multiplicar cada valor de probabilidad por 20.

El valor del estadístico es 13.9 los grados de libertad de la distribución está dado por: gl=observaciones- k (parámetros estimados)-1

\[P(\chi^2_4>13.9)=0.0075 \] rechaza la hipotesis nula y se concluye que los datos no se distribuye poisson

En Rstudio

Para estimar los parámetros de una distribución de probabilidad discreta (poisson y binomial), se requiere la función goodfit del paquete vcd. Esta función también realiza la prueba de bondad de ajuste y sus argumentos son: variable de interés, tipo de distribución y método. Se usará el test de Chi-cuadradado a través del argumento “MinChisq”

require(vcd)
## Cargando paquete requerido: vcd
## Warning: package 'vcd' was built under R version 4.5.3
## Cargando paquete requerido: grid
gf<-goodfit(personas, type = "poisson", method = "MinChisq")
gf$par
## $lambda
## [1] 13.60833
summary(gf)
## Warning in summary.goodfit(gf): Chi-squared approximation may be incorrect
## 
##   Goodness-of-fit test for poisson distribution
## 
##              X^2 df  P(> X^2)
## Pearson 19.30042 19 0.4377217
chisq.test(personas)
## 
##  Chi-squared test for given probabilities
## 
## data:  personas
## X-squared = 11.333, df = 19, p-value = 0.9121

Ejemplo Comparación de distribuciones

Retomando el ejemplo de el ph de agua potable y no potable

\(H_0:X_{si}∼y_{no}\)

\(H_1:X_{si}≁y_{no}\)

Ejemplo en R:

Se usan los datos de la base survey de la librería MASS de R, que corresponden a 237 observaciones provenientes de una encuesta a estudiantes de estadística de una Universidad en Australia.

  1. Valide la hipótesis de si el hábito de fumar es independiente del nivel de ejercicios de los estudiantes usando un nivel de significancia del 0.05.

El juego de hipotesis es:

\(H_o:\) El hábito de fumar es independiente de hacer ejercicio

\(H_a:\) El hábito de fumar es dependiente de hacer ejercicio

## Para inst lar librerías use

# install.packages("MASS")

## Para llamar la librería
library(MASS)
library(DT)
## Warning: package 'DT' was built under R version 4.5.3
## se usan las variables
## FUMA (Smoke) con los niveles: Heavy, Regul, Occas y Never 
## EJERCICIO (Exer) con los niveles: Freq, Some, y None
##se tabulan

tbl=table(survey$Smoke,survey$Exer)
tbl
##        
##         Freq None Some
##   Heavy    7    1    3
##   Never   87   18   84
##   Occas   12    3    4
##   Regul    9    1    7
chisq.test(tbl)
## Warning in chisq.test(tbl): Chi-squared approximation may be incorrect
## 
##  Pearson's Chi-squared test
## 
## data:  tbl
## X-squared = 5.4885, df = 6, p-value = 0.4828
#Note que aparece un mensaje de alerta. Esto es debido a que en algunas celdas las
#frecuencias son muy pequeñas. Podemos solucionar esto agrupando algunas columnas.

ctbl = cbind(tbl[,"Freq"], tbl[,"None"] + tbl[,"Some"])
ctbl
##       [,1] [,2]
## Heavy    7    4
## Never   87  102
## Occas   12    7
## Regul    9    8
chisq.test(ctbl)
## 
##  Pearson's Chi-squared test
## 
## data:  ctbl
## X-squared = 3.2328, df = 3, p-value = 0.3571
mosaicplot(ctbl,
  main = "Mosaic plot",
  color = TRUE
)

fuerza de asociación

library(vcd)
assocstats(x = tbl)
##                     X^2 df P(> X^2)
## Likelihood Ratio 5.8015  6  0.44579
## Pearson          5.4885  6  0.48284
## 
## Phi-Coefficient   : NA 
## Contingency Coeff.: 0.151 
## Cramer's V        : 0.108

Pruebas de independencia de las distribuciones

Se utilizan cuando se quiere estudiar si existe asociación entre dos variables cualitativas, es decir, si las proporciones de una variable son diferentes dependiendo del valor que adquiera la otra variable.

Existen dos tipos de pruebas de independencia, la prueba chi cuadrado y la prueba exacta de fisher. La prueba de Chi-cuadrado se utiliza cuando la muestra es suficientemente grande. La prueba exacta de Fisher se utiliza cuando la muestra es pequeña.

La prueba de Chi-cuadrado no es adecuada cuando los valores esperados en una de las celdas de la tabla de contingencia son menores a 5; en este caso, se prefiere la prueba exacta de Fisher (McCrum-Gardner, 2008; Bower, 2003).

El juego de hipótesis es:

\(H_o:\) Las variables son independientes, una variable no varía entre los distintos niveles de la otra variable.

\(H_a:\) Las variables son dependientes, una variable varía entre los distintos niveles de la otra variable.

Fuerza de asociación entre variables cualitativas (tamaño del efecto)

Dado que las pruebas contrastan si las variables están relacionadas, al tamaño del efecto se le conoce como fuerza de asociación. Existen múltiples medidas de asociación, entre las que destacan phi o Cramer’s V. Los límites empleados para su clasificación son:

Test exacto de fisher

Se aplica para comparar dos variables categóricas con dos niveles cada una (tabla 2x2), está diseñado para situaciones en las que las frecuencias marginales de filas y columnas (los totales de cada fila y columna) son fijas, se conocen de antemano. Esta condición es relevante en los experimentos biológicos ya que no es común poder cumplirla. Si esta condición no se satisface el test de Fisher deja de ser exacto, por lo general pasando a ser más conservativo.

Ejemplo de experimentos con y sin frecuencias marginales fijas:

Frecuencias marginales fijas:

Supóngase que se quiere saber si la preferencia que tienen dos especies de pájaros (estorninos y gorriones) para refugiarse en casetas artificiales es diferente dependiendo del material de fabricación (madera o metal). Para ellos se disponen en una pajarera 5 casetas de metal y 5 de madera y se sueltan en el interior de la jaula 4 gorriones y 6 estorninos. En este experimento se sabe que las frecuencias marginales van a ser 5, 5, 4, 6 lo que no se sabe es como se van a distribuir las observaciones dentro de la tabla.

Pájaro Metal Madera total
Gorrión ? ? 4
Estornino ? ? 6
Total 5 5 10

Frecuencias marginales no fijas:

Supóngase que se quiere determinar si un fármaco acelera la cicatrización. Para ello se selecciona a 50 pacientes que se reparten aleatoriamente en dos grupos iguales (tratamiento y placebo), tras una semana de tratamiento se determina si la cicatrización ha finalizado (si / no). En este caso las frecuencias marginales de los tratamientos son fijas, 25 para cada grupo, sin embargo no se sabe cuántos en cada grupo van a haber cicatrizado o no, por lo que las frecuencias marginales del resultado de cicatrización no son fijas.

Tratamiento cicatrizado No cicatrizado total
placebo ? ? 25
Tratamiento ? ? 25
Total ? ? 50

Condiciones del test

  • Independencia,las observaciones de la muestra deben ser independientes unas de otras.

  • Muestreo aleatorio.

  • Tamaño de la muestra < 10% población.

  • Cada observación contribuye únicamente a uno de los niveles.

  • Las frecuencias marginales de columnas y filas tienen que ser fijas. Si esta condición no se cumple, el test de Fisher deja de ser exacto.

Cálculo del p-value

El test exacto de Fisher se basa en la distribución hipergeométrica, que permite calcular la probabilidad exacta de obtener una determinada distribución de eventos dentro de una tabla. Supóngase la siguiente tabla de contingencia:

Niveles Nivel A1 Nivel A2 total
Nivel B1 a b a+b
Nivel B2 c d c+d
Total a+c b+d n

n=a+b+c+d

\[p= \frac{{a+b\choose a}\,{c+d\choose c}}{{n\choose a+c}}= \frac{(a+b)!(c+d)!(a+c)!(b+d)!}{a!b!c!d!n!}\] El test de Fisher calcula las probabilidades de todas las posibles tablas y suma las de aquellas tablas que tengan probabilidades menores o iguales que la tabla observada, generando así el p-value de dos colas.

Ejemplo Se quiere estudiar si la reacción alérgica a un compuesto y una determinada mutación en un gen están relacionados. Para ello se realiza un test alérgico sobre un grupo de individuos seleccionados al azar y se genotipa el estado del gen de interés ¿Existe un diferencia significativa en la incidencia de la mutación entre los alérgicos y no alérgicos?

datos <- data.frame( sujeto = c("No alérgico", "No alérgico", "No alérgico","No alérgico","alérgico","No alérgico","No alérgico", "alérgico", "alérgico","No alérgico","alérgico", "alérgico","alérgico", "alérgico", "alérgico","No alérgico", "No alérgico", "No alérgico","No alérgico","alérgico", "alérgico","alérgico", "alérgico", "No alérgico","alérgico", "No alérgico", "No alérgico","alérgico","alérgico", "alérgico"),

                  
mutacion = c(FALSE,FALSE,FALSE,FALSE,TRUE,FALSE,FALSE, FALSE, TRUE,TRUE,TRUE,TRUE,TRUE,TRUE, FALSE,FALSE,TRUE,FALSE,TRUE, FALSE,TRUE,FALSE,FALSE, FALSE, TRUE, FALSE, FALSE, TRUE, FALSE, TRUE))
head(datos)
##        sujeto mutacion
## 1 No alérgico    FALSE
## 2 No alérgico    FALSE
## 3 No alérgico    FALSE
## 4 No alérgico    FALSE
## 5    alérgico     TRUE
## 6 No alérgico    FALSE

El juego de hipotesis es:

\(H_o:\) La alergia es independiente de la presencia del gen

\(H_a:\) La alergia es dependiente de la presencia del gen

La tabla de frecuencias es

El test de Fisher trabaja con frecuencia de eventos, por lo tanto con tablas de contingencia en las que se sumariza el número de eventos de cada tipo.

tabla <- table(datos$sujeto, datos$mutacion, dnn = c("Sujeto", "Estado gen"))
tabla
##              Estado gen
## Sujeto        FALSE TRUE
##   alérgico        6   10
##   No alérgico    11    3
fisher.test(x = tabla, alternative = "two.sided")
## 
##  Fisher's Exact Test for Count Data
## 
## data:  tabla
## p-value = 0.03293
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  0.02195148 1.03427479
## sample estimates:
## odds ratio 
##  0.1749975

Fuerza de asociación

library(vcd)
assocstats(x = tabla)
##                     X^2 df P(> X^2)
## Likelihood Ratio 5.3356  1 0.020894
## Pearson          5.1293  1 0.023525
## 
## Phi-Coefficient   : 0.413 
## Contingency Coeff.: 0.382 
## Cramer's V        : 0.413

En este ejemplo no se satisface la condición de frecuencias marginales fijas y por lo tanto el test de Fisher no es exacto. Aun así, hay evidencias para rechazar la H0 y considerar que las dos variables sí están relacionadas. El tamaño de la fuerza de asociación (tamaño de efecto) cuantificado por phi o Cramer’s V es mediano.

mosaicplot(tabla,
  main = "Mosaic plot",
  color = TRUE
)

Prueba para la diferencias entre dos poblaciones

Prueba de signo

Se utiliza para probar hipótesis sobre una mediana de la población.

Hipótesis nula \(H_0\)

\[\Large H_0:M_e=M_o\]

Hipótesis alternativa \(H_1\)

cola superior cola inferior cola doble
\(\Large H_0:M_e>M_o\) \(\Large H_0:M_e<M_o\) \(\Large H_0:M_e\neq M_o\)

si la distribución es simétrica, la media y la mediana de la población son iguales. Al probar la hipótesis nula \(H_0\) de que \(M_e=M_o\) en comparación con la hipótesis alternativa adecuada, con base en una muestra aleatoria de tamaño n, reemplazamos cada valor de la muestra que exceda a \(M_e\) con un signo más, y cada valor de la muestra menor que \(M_e\) con un signo menos. Si la hipótesis nula es verdadera y la población es simétrica, la suma de los signos más debería ser casi igual a la suma de los signos menos.

Estadístico

\(R^+:\) Numero de diferencias positivas encontradas en el experimento

\[R^+\sim B(n,p) \quad R^+={0,1,2,3...n}\] n: cantidad de veces q se repite el experimento aleatorio

E: diferencia positiva

\(p=P(E)=\frac{1}{2}\) Probabilidad de encontrar una diferencia positiva

\(f(x)\) Probabilidad de encontrar x diferencias positivas

\[f(x)=P(R^+=x)=\displaystyle{n \choose x}p^x q^{n-x}=\displaystyle{n \choose x}*{\left (\frac{1}{2} \right)}^n\] Siempre que n>10, las probabilidades binomiales con p=1/2 se pueden aproximar a partir de la curva normal, ya que np=nq>5.

\[μ=np\quad sd=\sqrt{npq}\]

valor p

condición fórmula
\(r^+<\frac{n}{2}\) \(k*P \left (x\leq r^+|p=\frac{1}{2}\right)\)
\(r^+>\frac{n}{2}\) \(k*P \left (x\geq r^+|p=\frac{1}{2}\right)\)
prueba unilateral \(k=1\)
prueba bilateral \(k=2\)

Ejemplo

Los siguientes datos representan el número de horas que funciona una guadaña antes de requerir una recarga:

1.5, 2.2, 0.9, 1.3, 2.0, 1.6, 1.8, 1.5, 2.0, 1.2, 1.7

A un nivel de significancia de 0.05 utilice la prueba de signo para probar la hipótesis de que la guadaña funciona con una mediana de 1.8 horas antes de requerir una recarga.

Solución:

1. juego de hipótesis

\[H_0: Me= 1.8\] \[H1: M_e≠ 1.8\]

3. α = 0.05

4. Cálculos:

Al reemplazar cada valor con el símbolo “+” si excede 1.8, con el símbolo “–” si es menor que 1.8 y descartar las mediciones que sean iguales a 1.8, obtenemos la siguiente secuencia

\(X_i\) \(x_i-M_e=x_i-1.8\) signo
1.5 -0.3 -
2.2 0.4 +
0.9 -0.9 -
1.3 -0.5 -
2.0 0.2 +
1.6 -0.2 -
1.8 0 0
1.5 -0.3 -
2.0 0.2 +
1.2 -0.6 -
1.7 -0.1 -

\[n=9 \quad r^+=3 \quad n/2=4.5\quad k=2\]

5. Estadístico de prueba

como \(r^+<\frac{n}{2} \quad 3<4.5\) la fórmula es:

\[k*P \left (x\leq r^+|p=\frac{1}{2}\right)\] \[2*P(x\leq 3)=2*\sum_{x=0}^3 \displaystyle{10 \choose x}0.5^x 0.5^{10-x}\] \[2*\sum_{x=0}^3 \displaystyle{10 \choose x}*{\left (\frac{1}{2} \right)}^{10}=0.3437\] 6. Decisión:

No se rechaza la hipótesis nula y se concluye que la mediana del tiempo de funcionamiento no difiere significativamente de 1.8 horas.

En R

library(BSDA)
## Warning: package 'BSDA' was built under R version 4.5.2
## Cargando paquete requerido: lattice
## 
## Adjuntando el paquete: 'BSDA'
## The following object is masked from 'package:vcd':
## 
##     Trucks
## The following object is masked from 'package:datasets':
## 
##     Orange
x1<-c(1.5,2.2,0.9,1.3,2.0,1.6,1.8,1.5,2.0,1.2,1.7)
med<-median(x1)
SIGN.test(x1, md =1.8, alternative = "two.sided", conf.level = 0.95)
## 
##  One-sample Sign-Test
## 
## data:  x1
## s = 3, p-value = 0.3437
## alternative hypothesis: true median is not equal to 1.8
## 95 percent confidence interval:
##  1.271273 2.000000
## sample estimates:
## median of x 
##         1.6 
## 
## Achieved and Interpolated Confidence Intervals: 
## 
##                   Conf.Level L.E.pt U.E.pt
## Lower Achieved CI     0.9346 1.3000      2
## Interpolated CI       0.9500 1.2713      2
## Upper Achieved CI     0.9883 1.2000      2

Prueba de Mann-Whitney-wilcoxon

  • Identifica diferencias entre dos poblaciones basadas en el análisis de dos muestras independientes.

  • Se usa cuando los conjuntos de datos no cumplen los requisitos de la prueba de t-Student y la normal, (normalidad de los datos y tamaño de muestra mayor a 30)

  • Se conoce con otros nombres: Mann–Whitney–Wilcoxon, Wilcoxon rank-sum test y Wilcoxon–Mann–Whitney.

  • Juego de hipótesis es:

Ho: Las muestras provienen de la misma población.

H1: Las muestras provienen de poblaciones diferentes.

si las dos muestras comparadas proceden de la misma población, al juntar todas las observaciones y ordenarlas de menor a mayor, cabría esperar que las observaciones de una y otra muestra estuviesen intercaladas aleatoriamente.

library(ggplot2)
set.seed(567)
datos <- data.frame(muestra = rep(c("A", "B"), each = 10),
valor = rnorm(n = 20, mean = 10, sd = 5),
cordenada_y = rep(0, 20))

ggplot(data = datos, aes(x = valor, y = cordenada_y)) +
geom_point(aes(colour = muestra), size = 3) +
ylab("") + xlab("rango") +
theme_bw() +
theme(axis.text.y = element_blank()) + 
ggtitle("Muestras procedentes de la misma población")

Por lo contrario, si una de las muestras pertenece a una población con valores mayores o menores que la otra población, al ordenar las observaciones, estas tenderán a agruparse de modo que las de una muestra queden por encima de las de la otra.

set.seed(567)
datos <- data.frame(muestra = rep(c("A", "B"), each = 10),
valor = c(rnorm(n = 10, mean = 10, sd = 5), rnorm(n = 10, mean = 20, sd = 5)),
cordenada_y = rep(0, 20))

ggplot(data = datos, aes(x = valor, y = cordenada_y)) +
geom_point(aes(colour = muestra), size = 3) +
ylab("") + xlab("rango") +
theme_bw() +
theme(axis.text.y = element_blank()) + 
ggtitle("Muestras procedentes de distintas poblaciones")

Ejemplo Prueba de wilcoxon en R

Los siguientes datos corresponden a constantes de permeabilidad de la membrana chorioamnion en humanos (una membrana placentaria) medida a las 12 y 26 semanas de edad gestacional.

  1. Realice un analisis descriptivo para verificar la normalidad en los conjuntos de datos
require(car)
## Cargando paquete requerido: car
## Cargando paquete requerido: carData
## 
## Adjuntando el paquete: 'carData'
## The following objects are masked from 'package:BSDA':
## 
##     Vocab, Wool
library(nortest)
## Warning: package 'nortest' was built under R version 4.5.2
c12=c(0.80, 0.83, 1.89, 1.04, 1.45, 1.38, 1.91, 1.64, 0.73, 1.46)
c26=c(1.15, 0.88, 0.90, 0.74, 1.21)

# Para la constante a las 12 semanas

par(mfrow=c(1,4))
hist(c12, xlab = "Tiempo", ylab = "Frecuencia", las=1, main = "", col = "gray")
qqPlot(c12, col = "gray", ylab="Tiempo")
## [1] 7 9
plot(density(c12), xlab = "Tiempo", ylab = "Densidad", las=1, main = "")
boxplot(c12,c26, xlab = "Tiempo", ylab = "Densidad", las=1, main = "")

# Para la constante a las 26 semanas

par(mfrow=c(1,4))
hist(c26, xlab = "Tiempo", ylab = "Frecuencia", las=1, main = "", col = "gray")
qqPlot(c26, col = "gray", ylab="Tiempo")
## [1] 4 5
plot(density(c26), xlab = "Tiempo", ylab = "Densidad", las=1, main = "")
boxplot(c12,c26, xlab = "Tiempo", ylab = "Densidad", las=1, main = "")

  1. Pruebe mediante un juego de hipotesis y mediante la prueba de shapiro wilk, la normalidad del conjunto de datos
library(nortest)

##PRUEBA DE NORMALIDAD
shapiro.test(c12)
## 
##  Shapiro-Wilk normality test
## 
## data:  c12
## W = 0.91129, p-value = 0.29
shapiro.test(c26)
## 
##  Shapiro-Wilk normality test
## 
## data:  c26
## W = 0.91538, p-value = 0.5006
  1. Pruebe la igualdad entre el conjunto de datos
wilcox.test(x = c12, y = c26, alternative = "two.sided", mu = 0,
            paired = FALSE, conf.int = 0.95) 
## 
##  Wilcoxon rank sum exact test
## 
## data:  c12 and c26
## W = 35, p-value = 0.2544
## alternative hypothesis: true location shift is not equal to 0
## 95 percent confidence interval:
##  -0.15  0.76
## sample estimates:
## difference in location 
##                  0.305
#prueba para saber si provienen de la misma distribución 
ks.test(c12,c26)
## 
##  Exact two-sample Kolmogorov-Smirnov test
## 
## data:  c12 and c26
## D = 0.6, p-value = 0.1658
## alternative hypothesis: two-sided

Ejemplo en R

Se mide las concentraciones de cortisol en dos grupos de mujeres antes de dar a luz. Al grupo 1 se le practicó una cesárea de urgencias después de inducido el parto. Las del grupo 2, dieron a luz mediante operación cesárea o vía vaginal después de presentarse el trabajo de parto expontáneamente.

  1. Realice un analisis grafico para detectar si hay normalidad

2.Verifique normalidad en los conjuntos de datos usando α = 0.05.

4.Compruebe que ambos grupos de datos provienen de la misma distribución de probabilidad

\[H_0:grupo1∼grupo2\]

\[H_1:grupo1≁grupo2\]

###Ingresamos los datos como vectores de los dos grupos de madres

grupo1=c(411,466,432,409,381,363,449,483,438,381)
grupo2=c(584,553,516,688,650,590,574,700,831,688,478,689)         

boxplot(grupo1,grupo2)

## Prueba de normalidad
shapiro.test(grupo1)
## 
##  Shapiro-Wilk normality test
## 
## data:  grupo1
## W = 0.96658, p-value = 0.8575
shapiro.test(grupo2)
## 
##  Shapiro-Wilk normality test
## 
## data:  grupo2
## W = 0.95245, p-value = 0.673
#prueba para saber si provienen de la misma distribución 
ks.test(grupo1,grupo2)
## 
##  Exact two-sample Kolmogorov-Smirnov test
## 
## data:  grupo1 and grupo2
## D = 0.91667, p-value = 3.402e-05
## alternative hypothesis: two-sided
## Prueba de igualdad entre varinzas
var.test(grupo1,grupo2)
## 
##  F test to compare two variances
## 
## data:  grupo1 and grupo2
## F = 0.16182, num df = 9, denom df = 11, p-value = 0.0108
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.04510143 0.63304938
## sample estimates:
## ratio of variances 
##          0.1618194
## prueba de diferencias entre medias
t.test (grupo1,grupo2,paired=FALSE,conf.level=0.95)
## 
##  Welch Two Sample t-test
## 
## data:  grupo1 and grupo2
## t = -6.7277, df = 14.996, p-value = 6.787e-06
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -272.7363 -141.4970
## sample estimates:
## mean of x mean of y 
##  421.3000  628.4167

Conclusiones

  • La prueba chi cuadrado tiene 3 diferentes aplicaciones, entre ellos se encuentran la Prueba de independencia, Prueba de bondad de ajuste y de Comparación de distribuciones**

Ejercicios propuestos

PRUEBA DE SIGNO 1. Los siguientes datos representan el tiempo, en minutos, que un paciente tiene que esperar durante 12 visitas al consultorio de un médico antes de ser atendido:

17 15 20 20 32 28 12 26 25 25 35 24

Utilice la prueba de signo a un nivel de significancia de 0.05 para probar la afirmación del médico de que la mediana del tiempo de espera de sus pacientes no es mayor de 20 minutos.

rta x = 7 con valor P = 0.1719; no rechace H0

  1. Los siguientes datos representan el número de horas de vuelo de entrenamiento que 18 estudiantes de piloto reciben de cierto instructor antes de su primer vuelo solos:
| | | | | | | | | | | | | | | | | |

|:|:-|:-|:-|:-|:-|:-|:-|:-|:-|:|:-|:-|:-|:-|:-|:-|:-| |9|12|18|14|12|14|12|10|16|11|9|11|13|11|13|15|13|14|

Con las probabilidades binomiales realice una prueba de signo a un nivel de significancia de 0.02 para probar la afirmación del instructor de que la mediana del tiempo de vuelo de entrenamiento que sus estudiantes requieren antes de volar solos es de 12 horas.

16.3 Un inspector de alimentos examina 16 latas de cierta marca de jamón para determinar el porcentaje de impurezas externas. Se registraron los siguientes datos:

2.4 2.3 3.1 2.2 2.3 1.2 1.0 2.4 1.7 1.1 4.2 1.9 1.7 3.6 1.6 2.3

Utilice una aproximación normal a la distribución binomial y realice una prueba de signo a un nivel de significancia de 0.05 para probar la hipótesis nula de que la mediana del porcentaje de impurezas en esta marca de jamón es de 2.5%, en comparación con la hipótesis alternativa de que la mediana del porcentaje de impurezas no es de 2.5%.

x = 3 con valor P = 0.0244; rechace H0

16.4 Un proveedor de pintura acrílica afi rma que un nuevo aditivo reducirá el tiempo de secado de su pintura. Para probar esta afi rmación se pintaron 12 paneles de madera; la mitad de cada panel se pintó con la pintura que contiene el aditivo regular y la otra mitad con la pintura que contiene el nuevo aditivo. Los tiempos de secado, en horas, son los siguientes: Tiempo de secado (horas) Panel Aditivo nuevo Aditivo regular 1 2 3 4 5 6 7 8 9 10 11 12 6.4 5.8 7.4 5.5 6.3 7.8 8.6 8.2 7.0 4.9 5.9 6.5 6.6 5.8 7.8 5.7 6.0 8.4 8.8 8.4 7.3 5.8 5.8 6.5 Utilice la prueba de signo a un nivel de 0.05 para probar la hipótesis nula de que el nuevo aditivo no disminuye el tiempo que tarda en secar la pintura con el aditivo regular. 16.5 Se afi rma que una nueva dieta reducirá el peso de una persona en 4.5 kilogramos, en promedio, en un periodo de dos semanas. Se registran los pesos de 10 mujeres que siguen esta dieta, antes y después de un periodo de dos semanas, y se obtienen los siguientes datos: Mujer Peso antes Peso después 1 2 3 4 5 6 7 8 9 10 58.5 60.3 61.7 69.0 64.0 62.6 56.7 63.6 68.2 59.4 60.0 54.9 58.1 62.1 58.5 59.9 54.4 60.2 62.3 58.7

Utilice la prueba de signo a un nivel de significancia de 0.05 para probar la hipótesis de que la dieta reduce la mediana del peso en 4.5 kilogramos, en comparación con la hipótesis alternativa de que la mediana de la pérdida de peso es menor que 4.5 kilogramos.

En un experimento de contaminación atmosférica se comparan dos tipos de instrumentos para medir la cantidad de monóxido de azufre en la atmósfera. Se registraron las siguientes lecturas diarias durante dos semanas: Monóxido de azufre Día Instrumento A Instrumento B 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0.96 0.82 0.75 0.61 0.89 0.64 0.81 0.68 0.65 0.84 0.59 0.94 0.91 0.77 0.87 0.74 0.63 0.55 0.76 0.70 0.69 0.57 0.53 0.88 0.51 0.79 0.84 0.63 Utilice la aproximación normal a la distribución binomial y realice una prueba de signo para determinar si los diferentes instrumentos conducen a diferentes resultados. Utilice un nivel de signifi cancia de 0.05. 16.7 Las siguientes cifras indican la presión sanguínea sistólica de 16 corredores antes y después de una carrera de ocho kilómetros: Corredor Antes Después 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 158 149 160 155 164 138 163 159 165 145 150 161 132 155 146 159 164 158 163 160 172 147 167 169 173 147 156 164 133 161 154 170 Utilice una prueba de signo a un nivel de signifi cancia de 0.05 para probar la hipótesis nula de que correr ocho kilómetros aumenta la mediana de la presión sanguínea sistólica en ocho puntos, en comparación con la hipótesis alternativa de que el aumento en la mediana es menor que ocho puntos. 16.8 Analice los datos del ejercicio 16.1 usando la prueba de rango con signo. 16.9 Analice los datos del ejercicio 16.2 usando la prueba de rango con signo. 16.10 Los pesos de 5 personas, en kilogramos, antes de dejar de fumar y cinco semanas después de dejar de fumar, son los siguientes: Individuo 1 2 3 45 Antes 66 80 69 52 75 Después 71 82 68 56 73 Utilice la prueba de rango con signo para observaciones en pares y pruebe la hipótesis, a un nivel de signifi - cancia de 0.05, de que dejar de fumar no infl uye en el peso de una persona, en comparación con la hipótesis alternativa de que al dejar de fumar se aumenta de peso. 16.11 Repita el ejercicio 16.5 usando la prueba de rango con signo. 16.12 Los siguientes son los números de recetas surti das por dos farmacias en un periodo de 20 días: Día Farmacia A Farmacia B 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 19 21 15 17 24 12 19 14 20 18 23 21 17 12 16 15 20 18 14 22 17 15 12 12 16 15 11 13 14 21 19 15 11 10 20 12 13 17 16 18 A un nivel de signifi cancia de 0.01 utilice la prueba de rango con signo para determinar si las dos farmacias surten el mismo número de recetas, “en promedio”, en comparación con la hipótesis alternativa de que la farmacia A surte más recetas que la farmacia B. 16.13 Repita el ejercicio 16.7 usando la prueba de rango con signo. 16.14 Repita el ejercicio 16.6 con la prueba de rango con signo.



Copyright © 2019, webpage made with Rmarkdown.