Tiene diferentes usos entre los que se encuentran
El juego de hipótesis es:
\(H_0:\) Los datos analizados siguen una distribución M.
\(H_1:\) Los datos analizados no siguen una distribución M
Grados de libertad
\[gl=\quad k \quad observaciones-\quad t\quad parametros \quad estimados\quad -1\]
El juego de hipótesis es:
\(H_o:\) Las variables son independientes, una variable no varía entre los distintos niveles de la otra variable. \(H_a:\) Las variables son dependientes, una variable varía entre los distintos niveles de la otra variable.
Grados de libertad
\[df=(columnas−1)*(filas−1)\]
El juego de hipótesis es:
\(H_o:\) la distribución de probabilidad de x es similar a y.
\(H_a:\) la distribución de probabilidad de x no es similar a y.
En todos los casos el estadístico corresponde a:
\[ \large \chi^2=\sum_{i,j}^n \frac {(o_{ij}-e_{ij})^2}{e_{ij}}\]
Asuma que \(Oij\) es la frecuencia observada de eventos que pertenecen a ambos, la i−ésima categoría de X y la j−ésima categoría de Y. Además, suponga que \(e_{ij}\) son las correspondientes frecuencias esperadas si X e Y son independientes.
Videos ejemplo
Prueba chi cuadrado para la independencia de dos distribuciones
Prueba de bondad de ajuste para la distribución de probabilidad binomial
Prueba de bondad de ajuste para la distribución de probabilidad poisson
Ejemplo En un supermercado se está estudiando el comportamiento del número de personas que llegan cada hora. Se analizaron 20 horas, cuyos datos se consignan a continuación:
Análisis exploratorio Se analiza los gráficos para determinar una distribución hipotética.
personas<-c(13, 14, 14, 19, 17, 14, 13, 9, 16, 16,13, 13, 15, 13, 7, 14, 14, 13, 20, 15)
mean(personas)
## [1] 14.1
par(mfrow=c(1,2))
hist(personas, xlab = "personas", ylab = "Frecuencia", las=1, main = "", col = "gray")
plot(density(personas), xlab = "personas", ylab = "Densidad", las=1, main = "")
En este caso, la variable de interés registra un número de eventos por unidad de tiempo, por lo que se sugiere analizar el ajuste a una distribución poisson. Se muestra la respectiva prueba de hipótesis. Sea X el número de clientes que visitan Celia Express.
\(H_0:X_i∼Poisson\)
\(H_1:X_i≁Poisson\)
Manualmente
Los valores se agrupan en una tabla de frecuencias
| Clientes/hora | Frec obs | prob | frec esp | (obs-esp)^2/esp |
|---|---|---|---|---|
| 9 | 2 | 0.048 | 0.96 | 1.1 |
| 13 | 6 | 0.106 | 2.12 | 7.1 |
| 14 | 5 | 0.105 | 2.12 | 3.9 |
| 15 | 2 | 0.098 | 1.97 | 0 |
| 16 | 2 | 0.085 | 1.72 | 0 |
| 17 | 3 | 0.07 | 1.41 | 1.8 |
| total | 20 | 13.9 |
el valor del promedio \(\lambda\) se estima asi: \[\lambda=\frac{(9*2)+(13*6)+(14*5)+(15*2)+(16*2)+(17*3)}{20}=13.95\]
A partir de este valor se estima la probabilidad de cada uno de ellos según la distribución de probabilidad poisson
\[p(x=9)=\frac{e^{-\lambda}\lambda^x}{x!}=\frac{e^{-13.95}13.95^9}{9!}=0.048\]
La frecuencia esperada se obtiene de multiplicar cada valor de probabilidad por 20.
El valor del estadístico es 13.9 los grados de libertad de la distribución está dado por: gl=observaciones- k (parámetros estimados)-1
\[P(\chi^2_4>13.9)=0.0075 \] rechaza la hipotesis nula y se concluye que los datos no se distribuye poisson
En Rstudio
Para estimar los parámetros de una distribución de probabilidad discreta (poisson y binomial), se requiere la función goodfit del paquete vcd. Esta función también realiza la prueba de bondad de ajuste y sus argumentos son: variable de interés, tipo de distribución y método. Se usará el test de Chi-cuadradado a través del argumento “MinChisq”
require(vcd)
## Cargando paquete requerido: vcd
## Warning: package 'vcd' was built under R version 4.5.3
## Cargando paquete requerido: grid
gf<-goodfit(personas, type = "poisson", method = "MinChisq")
gf$par
## $lambda
## [1] 13.60833
summary(gf)
## Warning in summary.goodfit(gf): Chi-squared approximation may be incorrect
##
## Goodness-of-fit test for poisson distribution
##
## X^2 df P(> X^2)
## Pearson 19.30042 19 0.4377217
chisq.test(personas)
##
## Chi-squared test for given probabilities
##
## data: personas
## X-squared = 11.333, df = 19, p-value = 0.9121
Ejemplo Comparación de distribuciones
Retomando el ejemplo de el ph de agua potable y no potable
\(H_0:X_{si}∼y_{no}\)
\(H_1:X_{si}≁y_{no}\)
Ejemplo en R:
Se usan los datos de la base survey de la librería MASS de R, que corresponden a 237 observaciones provenientes de una encuesta a estudiantes de estadística de una Universidad en Australia.
El juego de hipotesis es:
\(H_o:\) El hábito de fumar es independiente de hacer ejercicio
\(H_a:\) El hábito de fumar es dependiente de hacer ejercicio
## Para inst lar librerías use
# install.packages("MASS")
## Para llamar la librería
library(MASS)
library(DT)
## Warning: package 'DT' was built under R version 4.5.3
## se usan las variables
## FUMA (Smoke) con los niveles: Heavy, Regul, Occas y Never
## EJERCICIO (Exer) con los niveles: Freq, Some, y None
##se tabulan
tbl=table(survey$Smoke,survey$Exer)
tbl
##
## Freq None Some
## Heavy 7 1 3
## Never 87 18 84
## Occas 12 3 4
## Regul 9 1 7
chisq.test(tbl)
## Warning in chisq.test(tbl): Chi-squared approximation may be incorrect
##
## Pearson's Chi-squared test
##
## data: tbl
## X-squared = 5.4885, df = 6, p-value = 0.4828
#Note que aparece un mensaje de alerta. Esto es debido a que en algunas celdas las
#frecuencias son muy pequeñas. Podemos solucionar esto agrupando algunas columnas.
ctbl = cbind(tbl[,"Freq"], tbl[,"None"] + tbl[,"Some"])
ctbl
## [,1] [,2]
## Heavy 7 4
## Never 87 102
## Occas 12 7
## Regul 9 8
chisq.test(ctbl)
##
## Pearson's Chi-squared test
##
## data: ctbl
## X-squared = 3.2328, df = 3, p-value = 0.3571
mosaicplot(ctbl,
main = "Mosaic plot",
color = TRUE
)
fuerza de asociación
library(vcd)
assocstats(x = tbl)
## X^2 df P(> X^2)
## Likelihood Ratio 5.8015 6 0.44579
## Pearson 5.4885 6 0.48284
##
## Phi-Coefficient : NA
## Contingency Coeff.: 0.151
## Cramer's V : 0.108
Se utilizan cuando se quiere estudiar si existe asociación entre dos variables cualitativas, es decir, si las proporciones de una variable son diferentes dependiendo del valor que adquiera la otra variable.
Existen dos tipos de pruebas de independencia, la prueba chi cuadrado y la prueba exacta de fisher. La prueba de Chi-cuadrado se utiliza cuando la muestra es suficientemente grande. La prueba exacta de Fisher se utiliza cuando la muestra es pequeña.
La prueba de Chi-cuadrado no es adecuada cuando los valores esperados en una de las celdas de la tabla de contingencia son menores a 5; en este caso, se prefiere la prueba exacta de Fisher (McCrum-Gardner, 2008; Bower, 2003).
El juego de hipótesis es:
\(H_o:\) Las variables son independientes, una variable no varía entre los distintos niveles de la otra variable.
\(H_a:\) Las variables son dependientes, una variable varía entre los distintos niveles de la otra variable.
Fuerza de asociación entre variables cualitativas (tamaño del efecto)
Dado que las pruebas contrastan si las variables están relacionadas, al tamaño del efecto se le conoce como fuerza de asociación. Existen múltiples medidas de asociación, entre las que destacan phi o Cramer’s V. Los límites empleados para su clasificación son:
Test exacto de fisher
Se aplica para comparar dos variables categóricas con dos niveles cada una (tabla 2x2), está diseñado para situaciones en las que las frecuencias marginales de filas y columnas (los totales de cada fila y columna) son fijas, se conocen de antemano. Esta condición es relevante en los experimentos biológicos ya que no es común poder cumplirla. Si esta condición no se satisface el test de Fisher deja de ser exacto, por lo general pasando a ser más conservativo.
Ejemplo de experimentos con y sin frecuencias marginales fijas:
Frecuencias marginales fijas:
Supóngase que se quiere saber si la preferencia que tienen dos especies de pájaros (estorninos y gorriones) para refugiarse en casetas artificiales es diferente dependiendo del material de fabricación (madera o metal). Para ellos se disponen en una pajarera 5 casetas de metal y 5 de madera y se sueltan en el interior de la jaula 4 gorriones y 6 estorninos. En este experimento se sabe que las frecuencias marginales van a ser 5, 5, 4, 6 lo que no se sabe es como se van a distribuir las observaciones dentro de la tabla.
| Pájaro | Metal | Madera | total |
|---|---|---|---|
| Gorrión | ? | ? | 4 |
| Estornino | ? | ? | 6 |
| Total | 5 | 5 | 10 |
Frecuencias marginales no fijas:
Supóngase que se quiere determinar si un fármaco acelera la cicatrización. Para ello se selecciona a 50 pacientes que se reparten aleatoriamente en dos grupos iguales (tratamiento y placebo), tras una semana de tratamiento se determina si la cicatrización ha finalizado (si / no). En este caso las frecuencias marginales de los tratamientos son fijas, 25 para cada grupo, sin embargo no se sabe cuántos en cada grupo van a haber cicatrizado o no, por lo que las frecuencias marginales del resultado de cicatrización no son fijas.
| Tratamiento | cicatrizado | No cicatrizado | total |
|---|---|---|---|
| placebo | ? | ? | 25 |
| Tratamiento | ? | ? | 25 |
| Total | ? | ? | 50 |
Condiciones del test
Independencia,las observaciones de la muestra deben ser independientes unas de otras.
Muestreo aleatorio.
Tamaño de la muestra < 10% población.
Cada observación contribuye únicamente a uno de los niveles.
Las frecuencias marginales de columnas y filas tienen que ser fijas. Si esta condición no se cumple, el test de Fisher deja de ser exacto.
Cálculo del p-value
El test exacto de Fisher se basa en la distribución hipergeométrica, que permite calcular la probabilidad exacta de obtener una determinada distribución de eventos dentro de una tabla. Supóngase la siguiente tabla de contingencia:
| Niveles | Nivel A1 | Nivel A2 | total |
|---|---|---|---|
| Nivel B1 | a | b | a+b |
| Nivel B2 | c | d | c+d |
| Total | a+c | b+d | n |
n=a+b+c+d
\[p= \frac{{a+b\choose a}\,{c+d\choose c}}{{n\choose a+c}}= \frac{(a+b)!(c+d)!(a+c)!(b+d)!}{a!b!c!d!n!}\] El test de Fisher calcula las probabilidades de todas las posibles tablas y suma las de aquellas tablas que tengan probabilidades menores o iguales que la tabla observada, generando así el p-value de dos colas.
Ejemplo Se quiere estudiar si la reacción alérgica a un compuesto y una determinada mutación en un gen están relacionados. Para ello se realiza un test alérgico sobre un grupo de individuos seleccionados al azar y se genotipa el estado del gen de interés ¿Existe un diferencia significativa en la incidencia de la mutación entre los alérgicos y no alérgicos?
datos <- data.frame( sujeto = c("No alérgico", "No alérgico", "No alérgico","No alérgico","alérgico","No alérgico","No alérgico", "alérgico", "alérgico","No alérgico","alérgico", "alérgico","alérgico", "alérgico", "alérgico","No alérgico", "No alérgico", "No alérgico","No alérgico","alérgico", "alérgico","alérgico", "alérgico", "No alérgico","alérgico", "No alérgico", "No alérgico","alérgico","alérgico", "alérgico"),
mutacion = c(FALSE,FALSE,FALSE,FALSE,TRUE,FALSE,FALSE, FALSE, TRUE,TRUE,TRUE,TRUE,TRUE,TRUE, FALSE,FALSE,TRUE,FALSE,TRUE, FALSE,TRUE,FALSE,FALSE, FALSE, TRUE, FALSE, FALSE, TRUE, FALSE, TRUE))
head(datos)
## sujeto mutacion
## 1 No alérgico FALSE
## 2 No alérgico FALSE
## 3 No alérgico FALSE
## 4 No alérgico FALSE
## 5 alérgico TRUE
## 6 No alérgico FALSE
El juego de hipotesis es:
\(H_o:\) La alergia es independiente de la presencia del gen
\(H_a:\) La alergia es dependiente de la presencia del gen
La tabla de frecuencias es
El test de Fisher trabaja con frecuencia de eventos, por lo tanto con tablas de contingencia en las que se sumariza el número de eventos de cada tipo.
tabla <- table(datos$sujeto, datos$mutacion, dnn = c("Sujeto", "Estado gen"))
tabla
## Estado gen
## Sujeto FALSE TRUE
## alérgico 6 10
## No alérgico 11 3
fisher.test(x = tabla, alternative = "two.sided")
##
## Fisher's Exact Test for Count Data
##
## data: tabla
## p-value = 0.03293
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
## 0.02195148 1.03427479
## sample estimates:
## odds ratio
## 0.1749975
Fuerza de asociación
library(vcd)
assocstats(x = tabla)
## X^2 df P(> X^2)
## Likelihood Ratio 5.3356 1 0.020894
## Pearson 5.1293 1 0.023525
##
## Phi-Coefficient : 0.413
## Contingency Coeff.: 0.382
## Cramer's V : 0.413
En este ejemplo no se satisface la condición de frecuencias marginales fijas y por lo tanto el test de Fisher no es exacto. Aun así, hay evidencias para rechazar la H0 y considerar que las dos variables sí están relacionadas. El tamaño de la fuerza de asociación (tamaño de efecto) cuantificado por phi o Cramer’s V es mediano.
mosaicplot(tabla,
main = "Mosaic plot",
color = TRUE
)
Se utiliza para probar hipótesis sobre una mediana de la población.
Hipótesis nula \(H_0\)
\[\Large H_0:M_e=M_o\]
Hipótesis alternativa \(H_1\)
| cola superior | cola inferior | cola doble |
|---|---|---|
| \(\Large H_0:M_e>M_o\) | \(\Large H_0:M_e<M_o\) | \(\Large H_0:M_e\neq M_o\) |
si la distribución es simétrica, la media y la mediana de la población son iguales. Al probar la hipótesis nula \(H_0\) de que \(M_e=M_o\) en comparación con la hipótesis alternativa adecuada, con base en una muestra aleatoria de tamaño n, reemplazamos cada valor de la muestra que exceda a \(M_e\) con un signo más, y cada valor de la muestra menor que \(M_e\) con un signo menos. Si la hipótesis nula es verdadera y la población es simétrica, la suma de los signos más debería ser casi igual a la suma de los signos menos.
Estadístico
\(R^+:\) Numero de diferencias positivas encontradas en el experimento
\[R^+\sim B(n,p) \quad R^+={0,1,2,3...n}\] n: cantidad de veces q se repite el experimento aleatorio
E: diferencia positiva
\(p=P(E)=\frac{1}{2}\) Probabilidad de encontrar una diferencia positiva
\(f(x)\) Probabilidad de encontrar x diferencias positivas
\[f(x)=P(R^+=x)=\displaystyle{n \choose x}p^x q^{n-x}=\displaystyle{n \choose x}*{\left (\frac{1}{2} \right)}^n\] Siempre que n>10, las probabilidades binomiales con p=1/2 se pueden aproximar a partir de la curva normal, ya que np=nq>5.
\[μ=np\quad sd=\sqrt{npq}\]
valor p
| condición | fórmula |
|---|---|
| \(r^+<\frac{n}{2}\) | \(k*P \left (x\leq r^+|p=\frac{1}{2}\right)\) |
| \(r^+>\frac{n}{2}\) | \(k*P \left (x\geq r^+|p=\frac{1}{2}\right)\) |
| prueba unilateral | \(k=1\) |
| prueba bilateral | \(k=2\) |
Ejemplo
Los siguientes datos representan el número de horas que funciona una guadaña antes de requerir una recarga:
1.5, 2.2, 0.9, 1.3, 2.0, 1.6, 1.8, 1.5, 2.0, 1.2, 1.7
A un nivel de significancia de 0.05 utilice la prueba de signo para probar la hipótesis de que la guadaña funciona con una mediana de 1.8 horas antes de requerir una recarga.
Solución:
1. juego de hipótesis
\[H_0: Me= 1.8\] \[H1: M_e≠ 1.8\]
3. α = 0.05
4. Cálculos:
Al reemplazar cada valor con el símbolo “+” si excede 1.8, con el símbolo “–” si es menor que 1.8 y descartar las mediciones que sean iguales a 1.8, obtenemos la siguiente secuencia
| \(X_i\) | \(x_i-M_e=x_i-1.8\) | signo |
|---|---|---|
| 1.5 | -0.3 | - |
| 2.2 | 0.4 | + |
| 0.9 | -0.9 | - |
| 1.3 | -0.5 | - |
| 2.0 | 0.2 | + |
| 1.6 | -0.2 | - |
| 1.8 | 0 | 0 |
| 1.5 | -0.3 | - |
| 2.0 | 0.2 | + |
| 1.2 | -0.6 | - |
| 1.7 | -0.1 | - |
\[n=9 \quad r^+=3 \quad n/2=4.5\quad k=2\]
5. Estadístico de prueba
como \(r^+<\frac{n}{2} \quad 3<4.5\) la fórmula es:
\[k*P \left (x\leq r^+|p=\frac{1}{2}\right)\] \[2*P(x\leq 3)=2*\sum_{x=0}^3 \displaystyle{10 \choose x}0.5^x 0.5^{10-x}\] \[2*\sum_{x=0}^3 \displaystyle{10 \choose x}*{\left (\frac{1}{2} \right)}^{10}=0.3437\] 6. Decisión:
No se rechaza la hipótesis nula y se concluye que la mediana del tiempo de funcionamiento no difiere significativamente de 1.8 horas.
En R
library(BSDA)
## Warning: package 'BSDA' was built under R version 4.5.2
## Cargando paquete requerido: lattice
##
## Adjuntando el paquete: 'BSDA'
## The following object is masked from 'package:vcd':
##
## Trucks
## The following object is masked from 'package:datasets':
##
## Orange
x1<-c(1.5,2.2,0.9,1.3,2.0,1.6,1.8,1.5,2.0,1.2,1.7)
med<-median(x1)
SIGN.test(x1, md =1.8, alternative = "two.sided", conf.level = 0.95)
##
## One-sample Sign-Test
##
## data: x1
## s = 3, p-value = 0.3437
## alternative hypothesis: true median is not equal to 1.8
## 95 percent confidence interval:
## 1.271273 2.000000
## sample estimates:
## median of x
## 1.6
##
## Achieved and Interpolated Confidence Intervals:
##
## Conf.Level L.E.pt U.E.pt
## Lower Achieved CI 0.9346 1.3000 2
## Interpolated CI 0.9500 1.2713 2
## Upper Achieved CI 0.9883 1.2000 2
Identifica diferencias entre dos poblaciones basadas en el análisis de dos muestras independientes.
Se usa cuando los conjuntos de datos no cumplen los requisitos de la prueba de t-Student y la normal, (normalidad de los datos y tamaño de muestra mayor a 30)
Se conoce con otros nombres: Mann–Whitney–Wilcoxon, Wilcoxon rank-sum test y Wilcoxon–Mann–Whitney.
Juego de hipótesis es:
Ho: Las muestras provienen de la misma población.
H1: Las muestras provienen de poblaciones diferentes.
si las dos muestras comparadas proceden de la misma población, al juntar todas las observaciones y ordenarlas de menor a mayor, cabría esperar que las observaciones de una y otra muestra estuviesen intercaladas aleatoriamente.
library(ggplot2)
set.seed(567)
datos <- data.frame(muestra = rep(c("A", "B"), each = 10),
valor = rnorm(n = 20, mean = 10, sd = 5),
cordenada_y = rep(0, 20))
ggplot(data = datos, aes(x = valor, y = cordenada_y)) +
geom_point(aes(colour = muestra), size = 3) +
ylab("") + xlab("rango") +
theme_bw() +
theme(axis.text.y = element_blank()) +
ggtitle("Muestras procedentes de la misma población")
Por lo contrario, si una de las muestras pertenece a una población con valores mayores o menores que la otra población, al ordenar las observaciones, estas tenderán a agruparse de modo que las de una muestra queden por encima de las de la otra.
set.seed(567)
datos <- data.frame(muestra = rep(c("A", "B"), each = 10),
valor = c(rnorm(n = 10, mean = 10, sd = 5), rnorm(n = 10, mean = 20, sd = 5)),
cordenada_y = rep(0, 20))
ggplot(data = datos, aes(x = valor, y = cordenada_y)) +
geom_point(aes(colour = muestra), size = 3) +
ylab("") + xlab("rango") +
theme_bw() +
theme(axis.text.y = element_blank()) +
ggtitle("Muestras procedentes de distintas poblaciones")
Ejemplo Prueba de wilcoxon en R
Los siguientes datos corresponden a constantes de permeabilidad de la membrana chorioamnion en humanos (una membrana placentaria) medida a las 12 y 26 semanas de edad gestacional.
require(car)
## Cargando paquete requerido: car
## Cargando paquete requerido: carData
##
## Adjuntando el paquete: 'carData'
## The following objects are masked from 'package:BSDA':
##
## Vocab, Wool
library(nortest)
## Warning: package 'nortest' was built under R version 4.5.2
c12=c(0.80, 0.83, 1.89, 1.04, 1.45, 1.38, 1.91, 1.64, 0.73, 1.46)
c26=c(1.15, 0.88, 0.90, 0.74, 1.21)
# Para la constante a las 12 semanas
par(mfrow=c(1,4))
hist(c12, xlab = "Tiempo", ylab = "Frecuencia", las=1, main = "", col = "gray")
qqPlot(c12, col = "gray", ylab="Tiempo")
## [1] 7 9
plot(density(c12), xlab = "Tiempo", ylab = "Densidad", las=1, main = "")
boxplot(c12,c26, xlab = "Tiempo", ylab = "Densidad", las=1, main = "")
# Para la constante a las 26 semanas
par(mfrow=c(1,4))
hist(c26, xlab = "Tiempo", ylab = "Frecuencia", las=1, main = "", col = "gray")
qqPlot(c26, col = "gray", ylab="Tiempo")
## [1] 4 5
plot(density(c26), xlab = "Tiempo", ylab = "Densidad", las=1, main = "")
boxplot(c12,c26, xlab = "Tiempo", ylab = "Densidad", las=1, main = "")
library(nortest)
##PRUEBA DE NORMALIDAD
shapiro.test(c12)
##
## Shapiro-Wilk normality test
##
## data: c12
## W = 0.91129, p-value = 0.29
shapiro.test(c26)
##
## Shapiro-Wilk normality test
##
## data: c26
## W = 0.91538, p-value = 0.5006
wilcox.test(x = c12, y = c26, alternative = "two.sided", mu = 0,
paired = FALSE, conf.int = 0.95)
##
## Wilcoxon rank sum exact test
##
## data: c12 and c26
## W = 35, p-value = 0.2544
## alternative hypothesis: true location shift is not equal to 0
## 95 percent confidence interval:
## -0.15 0.76
## sample estimates:
## difference in location
## 0.305
#prueba para saber si provienen de la misma distribución
ks.test(c12,c26)
##
## Exact two-sample Kolmogorov-Smirnov test
##
## data: c12 and c26
## D = 0.6, p-value = 0.1658
## alternative hypothesis: two-sided
Ejemplo en R
Se mide las concentraciones de cortisol en dos grupos de mujeres antes de dar a luz. Al grupo 1 se le practicó una cesárea de urgencias después de inducido el parto. Las del grupo 2, dieron a luz mediante operación cesárea o vía vaginal después de presentarse el trabajo de parto expontáneamente.
2.Verifique normalidad en los conjuntos de datos usando α = 0.05.
4.Compruebe que ambos grupos de datos provienen de la misma distribución de probabilidad
\[H_0:grupo1∼grupo2\]
\[H_1:grupo1≁grupo2\]
###Ingresamos los datos como vectores de los dos grupos de madres
grupo1=c(411,466,432,409,381,363,449,483,438,381)
grupo2=c(584,553,516,688,650,590,574,700,831,688,478,689)
boxplot(grupo1,grupo2)
## Prueba de normalidad
shapiro.test(grupo1)
##
## Shapiro-Wilk normality test
##
## data: grupo1
## W = 0.96658, p-value = 0.8575
shapiro.test(grupo2)
##
## Shapiro-Wilk normality test
##
## data: grupo2
## W = 0.95245, p-value = 0.673
#prueba para saber si provienen de la misma distribución
ks.test(grupo1,grupo2)
##
## Exact two-sample Kolmogorov-Smirnov test
##
## data: grupo1 and grupo2
## D = 0.91667, p-value = 3.402e-05
## alternative hypothesis: two-sided
## Prueba de igualdad entre varinzas
var.test(grupo1,grupo2)
##
## F test to compare two variances
##
## data: grupo1 and grupo2
## F = 0.16182, num df = 9, denom df = 11, p-value = 0.0108
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.04510143 0.63304938
## sample estimates:
## ratio of variances
## 0.1618194
## prueba de diferencias entre medias
t.test (grupo1,grupo2,paired=FALSE,conf.level=0.95)
##
## Welch Two Sample t-test
##
## data: grupo1 and grupo2
## t = -6.7277, df = 14.996, p-value = 6.787e-06
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -272.7363 -141.4970
## sample estimates:
## mean of x mean of y
## 421.3000 628.4167
PRUEBA DE SIGNO 1. Los siguientes datos representan el tiempo, en minutos, que un paciente tiene que esperar durante 12 visitas al consultorio de un médico antes de ser atendido:
| 17 | 15 | 20 | 20 | 32 | 28 | 12 | 26 | 25 | 25 | 35 | 24 |
Utilice la prueba de signo a un nivel de significancia de 0.05 para probar la afirmación del médico de que la mediana del tiempo de espera de sus pacientes no es mayor de 20 minutos.
rta x = 7 con valor P = 0.1719; no rechace H0
|:|:-|:-|:-|:-|:-|:-|:-|:-|:-|:|:-|:-|:-|:-|:-|:-|:-| |9|12|18|14|12|14|12|10|16|11|9|11|13|11|13|15|13|14|
Con las probabilidades binomiales realice una prueba de signo a un nivel de significancia de 0.02 para probar la afirmación del instructor de que la mediana del tiempo de vuelo de entrenamiento que sus estudiantes requieren antes de volar solos es de 12 horas.
16.3 Un inspector de alimentos examina 16 latas de cierta marca de jamón para determinar el porcentaje de impurezas externas. Se registraron los siguientes datos:
| 2.4 | 2.3 | 3.1 | 2.2 | 2.3 | 1.2 | 1.0 | 2.4 | 1.7 | 1.1 | 4.2 | 1.9 | 1.7 | 3.6 | 1.6 | 2.3 |
Utilice una aproximación normal a la distribución binomial y realice una prueba de signo a un nivel de significancia de 0.05 para probar la hipótesis nula de que la mediana del porcentaje de impurezas en esta marca de jamón es de 2.5%, en comparación con la hipótesis alternativa de que la mediana del porcentaje de impurezas no es de 2.5%.
x = 3 con valor P = 0.0244; rechace H0
16.4 Un proveedor de pintura acrílica afi rma que un nuevo aditivo reducirá el tiempo de secado de su pintura. Para probar esta afi rmación se pintaron 12 paneles de madera; la mitad de cada panel se pintó con la pintura que contiene el aditivo regular y la otra mitad con la pintura que contiene el nuevo aditivo. Los tiempos de secado, en horas, son los siguientes: Tiempo de secado (horas) Panel Aditivo nuevo Aditivo regular 1 2 3 4 5 6 7 8 9 10 11 12 6.4 5.8 7.4 5.5 6.3 7.8 8.6 8.2 7.0 4.9 5.9 6.5 6.6 5.8 7.8 5.7 6.0 8.4 8.8 8.4 7.3 5.8 5.8 6.5 Utilice la prueba de signo a un nivel de 0.05 para probar la hipótesis nula de que el nuevo aditivo no disminuye el tiempo que tarda en secar la pintura con el aditivo regular. 16.5 Se afi rma que una nueva dieta reducirá el peso de una persona en 4.5 kilogramos, en promedio, en un periodo de dos semanas. Se registran los pesos de 10 mujeres que siguen esta dieta, antes y después de un periodo de dos semanas, y se obtienen los siguientes datos: Mujer Peso antes Peso después 1 2 3 4 5 6 7 8 9 10 58.5 60.3 61.7 69.0 64.0 62.6 56.7 63.6 68.2 59.4 60.0 54.9 58.1 62.1 58.5 59.9 54.4 60.2 62.3 58.7
Utilice la prueba de signo a un nivel de significancia de 0.05 para probar la hipótesis de que la dieta reduce la mediana del peso en 4.5 kilogramos, en comparación con la hipótesis alternativa de que la mediana de la pérdida de peso es menor que 4.5 kilogramos.
En un experimento de contaminación atmosférica se comparan dos tipos de instrumentos para medir la cantidad de monóxido de azufre en la atmósfera. Se registraron las siguientes lecturas diarias durante dos semanas: Monóxido de azufre Día Instrumento A Instrumento B 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0.96 0.82 0.75 0.61 0.89 0.64 0.81 0.68 0.65 0.84 0.59 0.94 0.91 0.77 0.87 0.74 0.63 0.55 0.76 0.70 0.69 0.57 0.53 0.88 0.51 0.79 0.84 0.63 Utilice la aproximación normal a la distribución binomial y realice una prueba de signo para determinar si los diferentes instrumentos conducen a diferentes resultados. Utilice un nivel de signifi cancia de 0.05. 16.7 Las siguientes cifras indican la presión sanguínea sistólica de 16 corredores antes y después de una carrera de ocho kilómetros: Corredor Antes Después 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 158 149 160 155 164 138 163 159 165 145 150 161 132 155 146 159 164 158 163 160 172 147 167 169 173 147 156 164 133 161 154 170 Utilice una prueba de signo a un nivel de signifi cancia de 0.05 para probar la hipótesis nula de que correr ocho kilómetros aumenta la mediana de la presión sanguínea sistólica en ocho puntos, en comparación con la hipótesis alternativa de que el aumento en la mediana es menor que ocho puntos. 16.8 Analice los datos del ejercicio 16.1 usando la prueba de rango con signo. 16.9 Analice los datos del ejercicio 16.2 usando la prueba de rango con signo. 16.10 Los pesos de 5 personas, en kilogramos, antes de dejar de fumar y cinco semanas después de dejar de fumar, son los siguientes: Individuo 1 2 3 45 Antes 66 80 69 52 75 Después 71 82 68 56 73 Utilice la prueba de rango con signo para observaciones en pares y pruebe la hipótesis, a un nivel de signifi - cancia de 0.05, de que dejar de fumar no infl uye en el peso de una persona, en comparación con la hipótesis alternativa de que al dejar de fumar se aumenta de peso. 16.11 Repita el ejercicio 16.5 usando la prueba de rango con signo. 16.12 Los siguientes son los números de recetas surti das por dos farmacias en un periodo de 20 días: Día Farmacia A Farmacia B 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 19 21 15 17 24 12 19 14 20 18 23 21 17 12 16 15 20 18 14 22 17 15 12 12 16 15 11 13 14 21 19 15 11 10 20 12 13 17 16 18 A un nivel de signifi cancia de 0.01 utilice la prueba de rango con signo para determinar si las dos farmacias surten el mismo número de recetas, “en promedio”, en comparación con la hipótesis alternativa de que la farmacia A surte más recetas que la farmacia B. 16.13 Repita el ejercicio 16.7 usando la prueba de rango con signo. 16.14 Repita el ejercicio 16.6 con la prueba de rango con signo.