Creative Commons License

1 ANOVA: Kuikentjes

In deze studie (1948) werd de invloed van verschillende soorten voeding op het gewicht van kuikentjes onderzocht. De kuikentjes werden na geboorte willekeurig in één van zes groepen toegekend, waarna deze groepen elk een andere voeding kregen. Het gewicht van deze kuikentjes werd gemeten na zes weken. Wij zullen ons beperken tot drie groepen van voeding: caseïne (casein), lijnzaad (linseed) en sojabonen (soybean).

suppressPackageStartupMessages({
library(tidyverse)
library(ggplot2)})

2 Data exploratie

data("chickwts")

2.1 Datastructuur bekijken

#Bekijk de structuur van dataset chickwts
head(chickwts)

2.2 Data filteren

We gaan de analyse beperken tot het vergelijken van voeding caseïne (casein), lijnzaad (linseed) en sojabonen (soybean).

#Filter de dataset zodat enkel datapunten van de relevante voeding (feed) aanwezig zijn.
chickwts <- chickwts %>% filter(feed %in% c("casein","linseed","soybean"))

2.3 Figuur van de data

We gaan eerst de data bekijken zodat we een idee hebben waarmee we te maken hebben.

#Maak een boxplot van het gewicht voor elke groep van voeding. Plot ook de individuele observaties.
chickwts %>% ggplot(aes(x=feed,y=weight)) + 
  geom_boxplot() +
  geom_jitter() +
  ggtitle("Gewicht van kuikentjes na zes weken per soort voeding")

3 Statische test:

3.2 Geef de assumpties voor dit model en ga deze na:

Zoals beschreven in de cursus, veronderstelt ANOVA een locatie-shift. Dit wil zeggen dat elke groep een gelijke variantie heeft en er enkel shifts in gemiddelde kunnen optreden. Een andere assumptie is dat de data van elke groep normaal verdeeld is, en dat de observaties onafhankelijk van elkaar zijn.

Er zijn dus drie assumpties die moeten voldaan zijn. Aangezien we in de data niet kunnen waarnemen of de observaties onafhankelijk zijn van elkaar, moeten we dit veronderstellen dat de onderzoeker dit correct heeft uitgevoerd. Daarnaast moeten we controleren dat:

  • elke groep normaal is.

  • de groepen een gelijke variantie hebben. (homoscedasticiteit)

We gaan gelijkheid van varianties na met boxplots. Dit lijkt alvast in orde te zijn.

We zullen nu de assumptie van normale verdeling binnen elke groep nagaan.

#Maak een QQplot voor het gewicht per voedingssoort.
chickwts %>%
  ggplot(aes(sample = weight)) +
  geom_qq() +
  geom_qq_line() +
  facet_grid(.~feed) +
  ylab("Relatieve abundantie")

De afwijkingen die we in onze qqplot zien lijken niet zeer uitzonderlijk. Daarom kunnen we stellen dat elke groep een normale verdeling lijkt te volgen.

Indien men veel groepen moet vergelijken, kan het makkelijker zijn om slechts één plot te moeten beoordelen. In dat geval kan men ervoor kiezen om niet voor elke groep apart een QQ-plot te maken, maar kan men de residuen van het lineair model checken. Merk op dat men dan checkt voor een normale distributie van alle residuen van het gewicht ten opzichte van hun groepsgemiddelde, en dus niet voor een normale distributie binnen elke groep apart.

model_lm <- lm(weight ~ feed, data = chickwts)
par(mfrow=c(2,2))
plot(model_lm) # Enkel figuur rechts boven is relevant

par(mfrow=c(1,1))

De QQ-plot vertoont geen systematische afwijkingen van een normale distributie. Dit is geen garantie dat de data normaal verdeeld is binnen elke groep, maar het is een benadering die we kunnen gebruiken in het geval dat:

  • er te veel groepen zijn om de assumpties te checken binnen elke groep;
  • er te weinig observaties zijn per groep om binnen elke groep de assumpties na te gaan.

Merk op dat je in principe de assumptie van gelijke varianties ook op basis van de plot linksboven zou kunnen checken: elke ‘kolom’ van punten stelt een soort voor (1 soort heeft 1 geschat gemiddelde) en de punten stellen de residuen voor ten opzichte van hun groepsgemiddelde. Men kan deze plot dus ook gebruiken om te kijken of er groepen (soorten) zijn die een verschillende variantie hebben ten opzichte van andere groepen.

3.3 Modelleer de data met het lineair model:

summary(model_lm)
## 
## Call:
## lm(formula = weight ~ feed, data = chickwts)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -107.583  -45.717    2.571   40.500   90.250 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   323.58      16.46  19.660  < 2e-16 ***
## feedlinseed  -104.83      23.28  -4.504 7.11e-05 ***
## feedsoybean   -77.15      22.43  -3.440  0.00152 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 57.01 on 35 degrees of freedom
## Multiple R-squared:  0.3854, Adjusted R-squared:  0.3503 
## F-statistic: 10.97 on 2 and 35 DF,  p-value: 0.0001996

De p-waarden die we hier krijgen voor de parameters komen niet overeen met de ANOVA-test die we willen uitvoeren. De p-waarde bij de F-statistic is wel de juiste p-waarde. We kunnen dit ook verkrijgen door de volgende code:

#Voer de ANOVA uit op het lineare model.
anova(model_lm)

We voerden de ANOVA test uit aan de hand van het lineair regressiemodel. In principe testen we dan volgende nulhypothese:

\[ H_0: \beta_1 = \beta_2 = 0 \]

Merk op dat deze nulhypothese evenwaardig is aan de nulhypothese die we eerder formuleerden. Als alle gemiddelden \(\mu_1, \mu_2, \mu_3 = 0\), betekent dit dat beide regressieparameters \(\beta_1\) en \(\beta_1\) gelijk zijn aan 0.

De p-waarde van deze ANOVA test is bijzonder klein. We besluiten dat we de nulhypothese kunnen verwerpen (\(p<<0.001\)) en dat het gemiddelde gewicht van kuikens verschilt tussen minstens twee van de voedingspatronen op het 5% significantieniveau.

Aan de hand van dit resultaat weten we echter niet tussen welke voedingen er een verschil optreedt, en hiervoor zullen we een post-hoc analyse moeten uitvoeren. Een post-hoc analyse voert men enkel uit indien de ANOVA test significant was, en bestaat erin om paarsgewijze vergelijkingen uit te voeren tussen de groepen. In dit geval komt dit overeen met het vergelijken of er een verschil is tussen groep 1 en 2, tussen groep 1 en 3 en tussen groep 2 en 3.

3.4 Post-hoc analyse

De post-hoc analyse bestaat eruit om paarsgewijze testen uit te voeren. Indien men over \(k\) groepen beschikt is het totaal aantal paarsgewijze vergelijkingen gelijk aan \(k(k-1)/2\). Bij ons is \(k=3\) waardoor we \(3\) paarsgewijze vergelijkingen zullen uitvoeren. We kunnen echter niet elke test op het 5% significantieniveau uitvoeren vanwege het meervoudig toetsen probleem. Indien we 3 vergelijkingen zouden testen elk op het 5% significantieniveau, dan is de kans dat we minstens één nulhypothese onterecht zouden verwerpen niet langer gelijk aan ons significantieniveau (5%). In ons geval, zou deze kans gelijk zijn aan:

alpha <- 0.05
nComparisons <- 3
1-(1-alpha)^nComparisons
## [1] 0.142625

Dus indien we elke test op het 5% significantieniveau zouden uitvoeren hebben we, als alle nulhypotheses waar zouden zijn, een kans van 14.3% dat we minstens één nulhypothese verkeerd zouden verwerpen. Om deze kans globaal gezien (dit is, over alle paarsgewijze vergelijkingen) op 5% te houden, kunnen we bijvoorbeeld de Bonferroni correctie uitvoeren.

In R kunnen we de post-hoc analyse uitvoeren met behulp van het multcomp package aan de hand van de glht functie. We specifiëren hier in het linfct argument dat we multiple comparisons (mcp) willen uitvoeren waarbij we alle paarsgewijze vergelijkingen voor de feed variabele willen testen aan de hand van de "Tukey" methode. De multcomp package zorgt ervoor dat deze p-waarden automatisch gecorrigeerd worden voor meervoudig toetsen.

suppressPackageStartupMessages(library(multcomp))
mcp <- glht(model_lm,linfct=mcp(feed="Tukey"))
summary <- summary(mcp)
summary
## 
##   Simultaneous Tests for General Linear Hypotheses
## 
## Multiple Comparisons of Means: Tukey Contrasts
## 
## 
## Fit: lm(formula = weight ~ feed, data = chickwts)
## 
## Linear Hypotheses:
##                        Estimate Std. Error t value Pr(>|t|)    
## linseed - casein == 0   -104.83      23.28  -4.504   <0.001 ***
## soybean - casein == 0    -77.15      22.43  -3.440   0.0042 ** 
## soybean - linseed == 0    27.68      22.43   1.234   0.4414    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## (Adjusted p values reported -- single-step method)

In de output hiervan zien we de verschillende paarsgewijze vergelijkingen die werden uitvoerd. Bijvoorbeeld linseed - casein == 0 duidt erop dat voor dit contrast wordt getest of het gemiddelde gewicht voor voeding linseed min het gemiddelde gewicht voor soort casein verschillend is van nul. In de tweede kolom wordt het verschil in gemiddelden weergegeven, met hun standaard error en teststatistiek in de respectievelijk derde en vierde kolom. De laatste kolom geeft aangepaste p-waarden weer op een globaal significantieniveau van 5%. Aan de hand van de aangepaste p-waarden zien we dat het gemiddelde gewicht bij casein verschilt van zowel linseed en soybean (p < 0.001 en p = 0.004) op het 5% significantieniveau. We zien ook dat er geen significant verschil is in gemiddeld gewicht bij voeding soybean en linseed op het 5% significantieniveau. De effectgrootte is voor bij zowel linseed als soybean negatief, wat erop duidt dat het gemiddelde gewicht van kuikens hoger is bij voedingspatroon casein.

De betrouwbaarheidsintervallen van elke paarsgewijze test kunnen we ook makkelijk grafisch voorstellen aan de hand van de plot functie die zo op een glht object kan toegepast worden.

confint(mcp)
## 
##   Simultaneous Confidence Intervals
## 
## Multiple Comparisons of Means: Tukey Contrasts
## 
## 
## Fit: lm(formula = weight ~ feed, data = chickwts)
## 
## Quantile = 2.4475
## 95% family-wise confidence level
##  
## 
## Linear Hypotheses:
##                        Estimate  lwr       upr      
## linseed - casein == 0  -104.8333 -161.8019  -47.8648
## soybean - casein == 0   -77.1548 -132.0511  -22.2585
## soybean - linseed == 0   27.6786  -27.2177   82.5749
plot(mcp)

4 Conclusie

We kunnen concluderen dat er een significant verschil in gewicht is tussen het gewicht van kuikentjes met voeding caseine tegenover de andere voedingen op het 5% significantieniveau. Tussen linseed en soybean is er geen significant verschil in gewicht van de kuikentjes.

