##Ejemplo

##ASPECTOS DEL DISEÑO EN BLOQUE

Ejemplo

Se realiza un estudio para comprobar la efectividad en el retraso del crecimiento de bacterias utilizando cuatro soluciones diferentes para lavar los envases de la leche. El análisis se realiza en el laboratorio y sólo se pueden realizar seis pruebas en un mismo día. Como los días son una fuente de variabilidad potencial, el investigador decide utilizar un diseño aleatorizado por bloques, pero al recopilar las observaciones durante seis días no ha sido posible aplicar todos los tratamientos en cada día, sino que sólo se han podido aplicar dos de las cuatro soluciones cada día. Se decide utilizar un diseño en bloques incompletos balanceado.

dias
Soluciones 1 2 3 4 5 6
solución 1 12 24 31
solución 2 21 20 21
solución 3 19 18 19
solución 4 15 19 47

En este experimento se tienen b=6 bloques que son los dias, de tamaño k=2, mientras que los tratamientos a=4, corresponden a las 4 soluciones

##Diseño en bloques completos al azar

Bloques
Tratamientos 1 2 j b Medias de tratamientos
1 \(Y_{11}\) \(Y_{12}\) \(Y_{1j}\) \(Y_{1b}\) \(\bar{Y_{1\bullet}}\)
2 \(Y_{21}\) \(Y_{22}\) \(Y_{2j}\) \(Y_{2b}\) \(\bar{Y_{2\bullet}}\)
i \(Y_{i1}\) \(Y_{i2}\) .. \(Y_{ij}\) \(Y_{ib}\) \(\bar{Y_{i\bullet}}\)
a \(Y_{a1}\) \(Y_{a2}\) .. \(Y_{aj}\) \(Y_{ab}\) \(\bar{Y_{a\bullet}}\)
Medias de bloques \(Y_{\bullet 1}\) \(Y_{\bullet 2}\) .. \(Y_{\bullet j}\) \(Y_{\bullet i}\) Media global \(\bar{Y_{\bullet \bullet}}\)

##Modelo ANOVA

\[\Large Y_{ij}=\mu+\alpha_i+\beta_j+\varepsilon_{ij}\]

Donde

-\(\large \beta_j\) es el efecto del j-ésimo bloque

Este modelo asume que no existe interacción entre el factor de interés y el factor de bloqueo; en muchas situaciones esta presunción será razonable, sin embargo, si se sospecha que hay interacción, el tamaño del bloque deberá ser incrementado para permitir estimar estos efectos.

Los niveles del factor de bloque representan agrupamientos intencionales de las unidades experimentales, mientras que los tratamientos son asignados de manera aleatoria a las unidades experimentales.

El interés no está centrado en las medias de los bloques, si no en la suma de cuadrados medios debida al factor de bloqueo con el MSE del modelo, para determinar si bloquear fue o no benéfico en el experimento.

Fuente de variación Grados de libertad Suma de cuadrados cuadrados medios Valores esperados
Factor A a-1 SSA \(MSA=SSA/(a-1)\) \(\Large E(MSA)=\sigma^2+ \frac{\sum_{i=1}^n\alpha_i^2}{a-1}\)
Bloque b-1 SSB \(MSB=SSB/(b-1)\) \(\Large E(MSB)=\sigma^2+ \frac{\sum_{i=1}^n\beta_i^2}{a-1}\)
Error (a-1)(b-1) SSE \(MSE=SSE/(a-1)(b-1)\) \(E(MSE)=\sigma^2\)
Total ab-1 SST

Fórmulas

Las sumas de cuadrados del modelo ANOVA SST=SSA+SSB+SSE

\[\Large SST=\sum_{i=1}^a \sum_{j=1}^{b}(Y_{ij}-\bar{Y}_{\bullet \bullet})^2=\sum_{i=1}^a \sum_{j=1}^{n_i} Y^2_{ij}-ab\bar{Y}_{\bullet \bullet}^2 \]

-La variabilidad en la respuesta explicada por el factor A, con a -1 grados de libertad, está dada por:

\[\Large SSA=\sum_{i=1}^a \sum_{j=1}^{b}(Y_{i\bullet}-\bar{Y}_{\bullet \bullet})^2=b\sum_{i=1}^a \bar{Y^2_{i\bullet}}-ab\bar{Y}_{\bullet \bullet}^2 \]

-La variabilidad en la respuesta explicada por el bloque B, con b-1 grados de libertad, está dada por:

\[\Large SSB=\sum_{i=1}^a \sum_{j=1}^{b}(Y_{\bullet j}-\bar{Y}_{\bullet \bullet})^2=a\sum_{i=1}^a \bar{Y^2_{\bullet j}}-ab\bar{Y}_{\bullet \bullet}^2 \]

\[\Large SSE=SST-SSA-SSB\]

La media muestral en el nivel i del factor de tratamiento está dada por: \[\Large \hat {\mu}_i=\bar{Y}_{i \bullet}=\frac{1}{b} \sum_{j=1}^b Y_{ij}\]

La media muestral en el nivel j del bloque está dada por:

\[\Large \hat {\mu}_j=\bar{Y}_{ \bullet j }=\frac{1}{a} \sum_{j=1}^a Y_{ij}\]

Hipótesis de interés

La prueba de hipótesis asociada al ANOVA esta dado por:

\(\Large H_0=\mu_1=\mu_2=...=\mu_i\)

\(\Large H_1= \mu_1\not=\mu_2 \not =...\not =\mu_i\)

Notas de interés

Ejemplo

Un equipo de mejora investiga el efecto de cuatro métodos de ensamble A, B, C, y D, sobre el tiempo de ensamble en minutos. En primera instancia la estrategia experimental fue aplicar cuatro veces los cuatro métodos de ensamble en orden aleatorio en un diseño completamente aleatorizado. Sin embargo, los experimentadores se dan cuenta que hay cuatro operadores con distintas destrezas y consideran que esto puede afectar de manera significativa los tiempos de ensamble, y por ende la comparación de los métodos, entonces debe utilizarse un diseño de bloques completos aleatorizados para controlar activamente en el experimento a los operadores que realizarán el ensamble. Los datos recolectados en este diseño fueron los siguientes:

Método
Operadores A B C D
1 6 7 10 10
2 9 10 16 13
3 7 11 11 11
4 8 8 14 9

Se desea determinar si existen diferencias entre los cuatro métodos y cómo se diferencian, además elegir el mejor método, si lo hay.

  1. Analice los datos experimentales

  1. Especifique el modelo para este experimento.

El modelo estadístico es:

\[\Large Y_{ij}=\mu+\alpha_i+\beta_j+\varepsilon_{ij}\]

con i=1,2,3,4 para denotar los métodos A,B,C,D y j=1,2,3,4 para los operadores

Donde

Bajo los puestos de que

\[\large \sum_{i=1}^4\alpha_i=\sum_{j=1}^4\beta_j=0\] Además \[\Large \varepsilon_{ij} \sim N(0,\sigma^2)\]

  1. Construya la tabla ANOVA y asumiendo válidos los supuestos del modelo, haga las pruebas de hipótesis pertinentes.

ANOVA:

## Analysis of Variance Table
## 
## Response: tiempo
##           Df Sum Sq Mean Sq F value   Pr(>F)   
## método     3   61.5    20.5   10.25 0.002919 **
## operador   3   28.5     9.5    4.75 0.029846 * 
## Residuals  9   18.0     2.0                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

\(\Large H_0= \alpha_a=\alpha_b=\alpha_c=\alpha_D\)

\(\Large H_1= Algun \quad par \quad \alpha_i\not= \alpha_j\)

El test de hipótesis es rechazado con un valor p de 0.0029 a un nivel de significancia de 0.05, es decir, los tiempos medios de ensamble no son iguales para todos los métodos.

Para evaluar la eficiencia del diseño tenemos que la seudo – prueba sobre los efectos de bloque (operador) tiene un \(F_0=4.75\) y un valor p: \(P(f_{3.9>4.75})=0.0298\), que nos indica el bloqueo por operario resultó útil o eficiente para reducir el error experimental y por tanto un ahorro en cuanto al número de réplicas necesarias para detección de diferencias entre los métodos.

  1. Asumiendo válidos los supuestos del modelo, compare las medias de tratamiento mediante Tukey. De acuerdo a los resultados, responda a las dos cuestiones planteadas en la investigación.
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = tiempo ~ método + operador)
## 
## $método
##      diff        lwr      upr     p adj
## B-A  1.50 -1.6217987 4.621799 0.4758801
## C-A  5.25  2.1282013 8.371799 0.0024211
## D-A  3.25  0.1282013 6.371799 0.0412298
## C-B  3.75  0.6282013 6.871799 0.0195634
## D-B  1.75 -1.3717987 4.871799 0.3548246
## D-C -2.00 -5.1217987 1.121799 0.2566550

La prueba de hipótesis de interés es:

\(\Large H_o=\mu_i=\mu_j\)

\(\Large H_1=\mu_i\not=\mu_j\)

Como vemos Tukey define tres grupos de medias que se traslapan:

grupo 1: métodos C y D grupo 2: métodos D y B
grupo 3: métodos A y B.

Hay un problema de potencia del procedimiento debido a la gran dispersión en los datos en algunos operarios y métodos como veremos.

  1. Estime los efectos de cada metodo sobre el tiempo de ensamble. Dé tanto la estimación puntual como los intervalos de confianza individuales del 95%.
## The following objects are masked _by_ .GlobalEnv:
## 
##     método, operador, tiempo
## The following object is masked from base (pos = 3):
## 
##     tiempo
## The following object is masked from base (pos = 4):
## 
##     tiempo
## The following object is masked from base (pos = 5):
## 
##     tiempo
## The following object is masked from base (pos = 6):
## 
##     tiempo
## The following objects are masked from ensamble (pos = 8):
## 
##     método, operador, tiempo
## The following object is masked from base (pos = 15):
## 
##     tiempo
## The following object is masked from base (pos = 16):
## 
##     tiempo
## The following object is masked from base (pos = 17):
## 
##     tiempo
## The following object is masked from base (pos = 18):
## 
##     tiempo
## The following objects are masked from ensamble (pos = 20):
## 
##     método, operador, tiempo
## The following object is masked from base (pos = 66):
## 
##     tiempo
## The following object is masked from base (pos = 67):
## 
##     tiempo
## The following object is masked from base (pos = 68):
## 
##     tiempo
## The following object is masked from base (pos = 69):
## 
##     tiempo
## The following objects are masked from ensamble (pos = 71):
## 
##     método, operador, tiempo
## 
##  One Sample t-test
## 
## data:  metA$tiempo
## t = 11.619, df = 3, p-value = 0.001369
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  5.44574 9.55426
## sample estimates:
## mean of x 
##       7.5
## 
##  One Sample t-test
## 
## data:  metB$tiempo
## t = 9.859, df = 3, p-value = 0.002219
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##   6.094837 11.905163
## sample estimates:
## mean of x 
##         9
## 
##  One Sample t-test
## 
## data:  metC$tiempo
## t = 9.26, df = 3, p-value = 0.002665
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##   8.368113 17.131887
## sample estimates:
## mean of x 
##     12.75
## 
##  One Sample t-test
## 
## data:  metD$tiempo
## t = 12.589, df = 3, p-value = 0.001081
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##   8.032469 13.467531
## sample estimates:
## mean of x 
##     10.75
  1. Valide supuestos. Use gráficos de residuales estudentizados y test de Levene para evaluar varianza constante. Use Shapiro Wilk para probar supuestos de normalidad. Diagnostique observaciones atípicas. ¿Qué repercusiones pueden tener los resultados de estas validaciones sobre el modelo y las inferencias realizadas en los literales anteriores?

## 
##  Shapiro-Wilk normality test
## 
## data:  residuales
## W = 0.97299, p-value = 0.8844
## 
##  Bartlett test of homogeneity of variances
## 
## data:  tiempo by método
## Bartlett's K-squared = 1.5989, df = 3, p-value = 0.6596

Validemos ahora los supuestos de normalidad y de varianza constante mediante gráficos de residuales: La normalidad parece un supuesto razonable para los errores en este experimento. Sin embargo, hay problemas con el supuesto de varianza constante. Con los métodos B y C la dispersión de los residuales es mayor comparativamente a la dispersión en los métodos A y D. Con el método A hay menos dispersión. A nivel del operador 3 la dispersión de los residuales es mayor aparentemente debido a una observación que es subestimada. A pesar de estos inconvenientes es posible llegar a una conclusión: “Elegir como mejor método el A, dado que tiene menor tiempo promedio observado y menor dispersión” (esto último indica que los operadores con este método son más consistentes)

Prueba de normalidad \(\Large H_o=\) Los residuos son normales \(\Large H_o=\) Los residuos no son normales

Prueba de barlett para homogeneidad de varianzas

\(\Large H_0=\sigma_A^2=\sigma_B^2=...=\sigma_D^2\)

\(\Large H_1= \sigma_A^2\not=\sigma_B^2 \not =...\not =\sigma_D^2\)



Copyright © 2019, webpage made with Rmarkdown.