Waarom een niet-parametrische test?
Voor het project lossen jullie deze onderzoeksvraag op met behulp van parametrische ANOVA (de F-test). Dit is een geldige test als aan een aantal assumpties voldaan worden die geverifieerd moeten worden in de dataset. Echter, hoe kleiner de dataset hoe moeilijker het is om deze assumptie te controleren. Laten we als voorbeeld kijken naar de asumptie van normaliteit.
#Lees de data in
dataset=read.csv("~/Dropbox/PhD/Onderwijs/Statistiek Biochemie/201819/dropboxStats1819/class6_nonPar/half/versgewicht_sla.txt",header=TRUE)
m <- lm(versgewicht ~ behandeling, data=dataset)
par(mfrow=c(2,2))
plot(m)
par(mfrow=c(1,1))

De QQ-plot is nogal twijfelachtig, en men zou beide kanten kunnen beargumenteren. Inderdaad, enerzijds kan men argumenteren dat de QQ-plot niet bijzonder sterk afwijkt van wat men zou verwachten op basis van een Normale distributie. Anderzijds, kan men argumenteren dat (i) de QQ-plot licht afwijkt, en (ii) we bovendien een Normale distributie moeten veronderstellen binnen elke groep, en de bovenstaande QQ-plot geen sluitend bewijs geeft. Zoals je ziet, is dit een dataset waarbij zowel de argumentatie voor een parametrische ANOVA test als de argumentatie voor een niet-parametrische Kruskal-Wallis test steek kan houden. De veilige optie is duidelijk de Kruskal-Wallis test, aangezien die geen parametrsiche assumpties veronderstelt. De enige veronderstelling is dat de data onafhankelijk zijn. Bovendien kan het, om een algemeen inzicht te verkrijgen, ook nuttig zijn om de resultaten te interpreteren in functie van de probabilistische index.
Stel dat de versgewichten van de planten geen Normale maar bvb een gamma distributie volgen. Een gamma distributie heeft een aantal eigenschappen die een betere keuze zou maken on gewichten te modelleren. Bijvoorbeeld, gewichten kunnen niet negatief zijn, een normalie distributie kan tot min oneindig lopen waar een gamma distributie een ondergrens heeft bij nul.
x = seq(-1,10,.01)
ynorm = dnorm(x,2)
ygam = dgamma(x,5,2)
plot(x,ynorm,type = 'l')
lines(x,ygam,col = 'red')
abline(v = 0)
legend('topright',c('Normale', 'Gamma'),text.col = c('black','red'))

We zullen 9 samples van elk 7 datapunten genereren uit een normale distributie.
par(mfrow = c(3,3))
set.seed(11) ## zorgt ervoor dat bij herlopen van de code exact dezelfde 'random' waarden genereerd worden.
for(i in 1:9){
x = rnorm(7)
qqnorm(x, main = i)
qqline(x)
}

We zien in de QQ-plots dat de meeste samples normaal verdeeld lijken, terwijl sommigen toch niet-lineaire patronen vertonen (zoals QQ-plot 5) en dus misschien (incorrect) als niet normaal beoordeeld zouden worden.
We zullen nu 9 samples van elk 7 datapunten genereren uit een gamma distributie.
par(mfrow = c(3,3))
set.seed(11)
for(i in 1:9){
x = rgamma(7,5,2)
qqnorm(x, main = i)
qqline(x)
}

We zien in de QQ-plots (bijvoorbeeld QQ-plot 4) dat sommige stalen samples afwijken van een rechte wat correct tot de conlusie van niet-normaal verdeelde data zou leiden. Aan de andere kant hebben de datapunten in bvb QQ-plot 7 wel een linear verband en zou deze data incorrect wel als normaal verdeeld beschouwd kunnen worden.
Nu is de assumptie van normaliteit belangrijk bij ANOVA (en ook t-test) omdat men hier ervan uitgaat dat je steekproefgemiddelde normaal verdeeld is rond het populatiegemidelde. Als je data normaal verdeeld is, zal dit altijd het geval zijn. Als je data niet normaal verdeeld is, dan gaat dit alleen maar op als je dataset groot genoeg is (zie de Centrale Limietstelling in de cursus).
We illustreren dit met een simulatie. Een groot aantal datasets van elk 4 datapunten worden gegenereerd uit een normale verdeling. We bereken per dataset het gemiddelde en we construeren een QQ-plot van deze gemiddelden om te controleren of ze normaal verdeeld zijn. We herhalen dit, maar nu worden de 4 datapunten gegenereerd uit een Gamma distributie. Om het effect van dataset grootte te bestuderen zullen we ook datasets uit een Gamma distributie genereren van grootte 7 en 10.
set.seed(11)
samples_normaal = replicate(30000, mean(rnorm(4)))
samples_gamma_4 = replicate(30000, mean(rgamma(3,5,2)))
samples_gamma_7 = replicate(30000, mean(rgamma(7,5,2)))
samples_gamma_10 = replicate(30000, mean(rgamma(30,5,2)))
par(mfrow = c(2,2))
qqnorm(samples_normaal,pch = 20, main = 'normaal; n = 4')
qqline(samples_normaal, col = 'red')
qqnorm(samples_gamma_4, pch = 20, main = 'gamma; n = 4')
qqline(samples_gamma_4, col = 'red')
qqnorm(samples_gamma_7,pch = 20, main = 'gamma; n = 7')
qqline(samples_gamma_7, col = 'red')
qqnorm(samples_gamma_10,pch = 20, main = 'gamma; n = 30')
qqline(samples_gamma_10, col = 'red')

We zien in de QQ-plot linksboven dat de gemiddelden van de normaal verdeelde datasets inderdaad op een rechte liggen en dus normaal verdeeld lijken. Bij de gemiddelden van de gamma datasets met grootte 4 zien we duidelijke afwijken van de normaliteit (de distributie is scheef verdeeld naar links). Teststatistieken en p-waarden berekend met ANOVA en t-testen zijn in dat geval ongeldig.
In de onderste rij QQ-plots kan men zien dat hoe groter de steekproeven worden, hoe meer de gemiddelden een normale distributie benaderen. Bij grotere datasets zal dus men kunnen argumenteren dat het steekproefgemiddelde een normale verdeling volgt. Dit effect, waarbij de gemiddelden van een steekproef uit om het even welke distributie een normale distributie gaan benaderen als de steekproef maar groot genoeg is, noemt men de centrale limietstelling. Als je steekproef groot genoeg is, kan je dus de centrale limietstelling inroepen om de normaliteitsassumptie te aanvaarden.
Als er geen sterke argumenten om de normaliteitsassumptie te aanvaarden (bijvoorbeeld gelijkaardige grotere datasets in het verleden lijken normaal verdeeld), is het doorgaans veiliger om dit niet te doen en een niet-parametrische test te gebruiken.
Merk op: ook als de assumptie van homoscedasticiteit geschonden is of moeilijk kan worden nagegaan door een te kleine steekproef, zullen de teststatistieken en p-waarden vertekend zijn. Voor een t-test kan je nog gebruik maken van de Welch t-test, voor een ANOVA zal je bij zeer sterke afwijkingen van homoscedasticiteit ook een niet-parametrische test moeten gebruiken en je resulaten in termen van de probabilistische index moeten interpreteren.
Kruskal-Wallis Rank Test
Door de weinig datapunten is het moeilijk om de distributionele assumpties voor de parametrische ANOVA te controleren (normaliteit en gelijke variantie tussen de groepen). De Kruskal-Wallis Rank Test (KW-test) is een niet-parametrische variant van de ANOVA. Deze test laat ons toe om de distributionele assumpties te relaxeren. Let erop dat de assumptie van onafhankelijkheid tussen de observaties nog steeds moet opgaan!
Als we willen testen voor een verschil tussen de mediaan van de verschillende behandelingsgroepen, dan moeten we uitgaan van de locatie shift assumptie. Onder de locatie shift assumptie veronderstellen we dat de verschillende groepen onderling nog steeds dezelfde distributie volgen (dit hoeft uiteraard niet noodzakelijk een normale verdeling te zijn, elke verdeling is goed, zolang het maar in beide groepen dezelfde verdeling is).
Wanneer je kijkt naar de boxplots in Figuur 1, denk je dan dat de locatie shift assumptie aannemelijk is?
De range en spreiding van de waarden tussen de verschillende groepen is op het eerste zicht zeer vergelijkbaar, maar je ziet in de boxplots wel grote verschillen in interquantiel afstanden (bvb tussen COBC en refoak boxplot). Eigenlijk hebben we te weinig data om deze assumptie te verifieren.
Wanneer we niet bereid zijn om de locatie shift assumptie te aanvaarden, dan kunnen we de distributionele assumpties nog verder relaxeren, en testen we in termen van probabilistische indexen. Hier testen we in het geval van twee groepen de kans dat een willekeurige meetwaarde uit de eerste groep komt groter of gelijk (“\(\geq\)”) is dan een willekeurige meetwaarde uit de tweede groep.
Hypothese
Probeer nu eens de nulhypothese op te stellen in termen van de onderzoeksvraag?
De nulhypothese stelt dat de verdelingen van de versgewichten van slaplanten gelijk zijn in de vier types grond.
De alternatieve hypothese stelt dat de kans dat het versgewicht van een willekeurige slaplant uit minstens één van de vier soorten grond groter is dan of gelijk is aan (“\(\geq\)”) het versgewicht van een willekeurige slaplant uit minstens één van de andere soorten grond verschilt van 50%.
Statistische test
Sinds we te maken hebben met een klein aantal observaties per groep is het niet aan te raden om de asymptotische KW-test te gebruiken om een p-waarde te berekenen. Deze stelt namelijk dat je teststatistiek onder de nulhypothese een \(\chi^2\) distributie volgt (de nuldistributie) wanneer het aantal oberservaties per groep naar oneindig neigt (dus voor een groot aantal observaties).
Wanneer je een beperkt aantal observaties hebt, is het beter de nuldistributie exact te berekenen via permutaties. Dit is uiteraard computationeel onmogelijk, want met 4 groepen van elk 7 observaties bestaan er 4.725183510^{14} mogelijke permutaties. Gelukkig is het meestal voldoende om de exacte nuldistributie te benaderen met een kleiner aantal permutaties.
Voer een KW test uit op de data met behulp van een groot aantal permutaties (bv. 10000). (Tip: zie cursus http://users.ugent.be/~lclement/statistiek/ voor code voorbeelden) Wat kan je besluiten uit dit resultaat?
library(coin)
kwPerm <- kruskal_test(versgewicht~behandeling,dataset, distribution=approximate(B=100000))
kwPerm
Approximative Kruskal-Wallis Test
data: versgewicht by behandeling (cobc, compost, controle, refoak)
chi-squared = 20.715, p-value < 2.2e-16
We zien een extreem significant effect (p << .001) van het type bemesting op het versgewicht van slaplanten. Op het 5% significantieniveau stellen we datde kans dat een willekeurige slaplant uit minstens één van de vier types grond een groter dan of gelijk (“\(\geq\)”) versgewicht heeft vergeleken met een willekeurige slaplant uit minstens één van de andere types grond verschilt van 50%.
Merk op: doordat we de p-waarde benaderd hebben aan de hand van simulaties, kan de p-waarde indien we de code opnieuw uitvoeren (en dus ook met je collega naast jou). Merk op dat deze variatie in p-waarde zou moeten verminderen als we het aantal permutaties zouden opdrijven, omdat we dan dichter in de buurt komen bij de exacte nuldistributie.
Als we willen weten in welke soorten grond er nu juist een significant verschil in versgewicht optreedt, zal men een post-hoc analyse moeten doen.
Post-hoc analyse
Zoals bij de parametrische ANOVA zal je ook bij de niet-parametrische KW test paarsgewijze testen moeten uitvoeren om onderlinge verschillen in versgewicht tussen de slaplanten te detecteren. Dit zullen uiteraard ook niet-parametrische testen zijn zoals de Wilcoxon-Mann-Whitney Test (WMW test). Als je de keuze gemaakt hebt om bij de KW test de locatie shift assumptie te verwerpen dan zal je dit hier terug doen en de resultaten in termen van de probabilistische index interpreteren.
Wat zal nu de nul en alternatieve hypothese zijn voor iedere paarsgewijze test?
De nulhypothese stelt dat de verdeling van het versgewicht van slaplanten gelijk is voor beide types grond.
De alternatieve nulhypothese stelt dat de kans dat het versgewicht van een willekeurige slaplant uit opgegroeid in de ene soort grond hoger is dan of gelijk is aan (“\(\geq\)”) het versgewicht van een willekeurige slaplant uit de andere soort grond verschillend is van 50%.
Voer een WMW post-hoc analyse uit op de data.
We doen een paarsgewijze WMW test zoals beschreven in de curus.
pairwise.wilcox.test(dataset$versgewicht,dataset$behandeling)
cannot compute exact p-value with tiescannot compute exact p-value with tiescannot compute exact p-value with tiescannot compute exact p-value with tiescannot compute exact p-value with tiescannot compute exact p-value with ties
Pairwise comparisons using Wilcoxon rank sum test
data: dataset$versgewicht and dataset$behandeling
cobc compost controle
compost 0.400 - -
controle 0.013 0.013 -
refoak 0.013 0.013 0.400
P value adjustment method: holm
We zien in de output een foutmelding: cannot compute exact p-value with ties
. Dit is omdat de pairwise.wilcox.test()
functie de standaard wilcox.test()
functie gebruikt in R. In de help van deze functie zien we dat deze functie standaard een exacte test doet maar in de aanwezigheid van ties dit niet kan doen en terugrijpt naar een asymptotische test. We kunnen echter wel exacte p-waarden bekomen met de wilcox_test()
uit de coin
package voor iedere combinatie van behandeling en vervolgens te corrigeren voor multiple testing met de p.adjust()
functie.
library(coin)
## tel het aantal observaties per groep
nGroep <- table(dataset$behandeling)
## bereken met de wilcoxon test een p-waarde voor iedere combinatie van grondsoorten
behandelingen = (levels(dataset$behandeling))
pvalues <- combn(behandelingen,2,function(x){
## Doe een paarsgewijze WMW test.
test = wilcox_test(versgewicht~behandeling,subset(dataset,behandeling%in%x), distribution = 'exact')
## Neem de pwaarde uit output van de test
pvalue(test)
})
## Doe een correctie voor multiple testing met Holm (je kan eventueel ook kiezen voor Bonferroni etc ...)
pvalues_holm = p.adjust(pvalues,method = 'holm')
## link de pwaarde met de juiste paarsgewijze test
names(pvalues_holm) <- combn(levels(dataset$behandeling),2,paste,collapse="_VS_")
pvalues_holm
cobc_VS_compost cobc_VS_controle cobc_VS_refoak compost_VS_controle compost_VS_refoak controle_VS_refoak
0.393939394 0.005244755 0.003496503 0.003496503 0.003496503 0.405594406
We zien inderdaad dat de exacte p-waarden afwijken van de p-waarden berekend door de pairwise.wilcox.test()
functie. We zullen verder werken met deze laatste p-waarden. We zien dat er alleen significante verschillen zijn tussen de slaplanten die gegroeid zijn in compost ten opzichte van de planten die zonder compost opgegroeid zijn.
Kan je nu ook aan de hand van de Mann-Whitney teststatistiek een puntschatting geven voor de probabilistische index?
## tel het aantal observaties per groep
nGroep <- table(dataset$behandeling)
## bereken een probabilistische index voor iedere mogelijke combinatie van grondsoorten
behandelingen = (levels(dataset$behandeling))
probInd <- combn(behandelingen,2,function(x){
## Berkeken de U1 statistiek
U1 = wilcox.test(versgewicht~behandeling,subset(dataset,behandeling%in%x))$statistic
## Bereken probabilistische index
U1/prod(nGroep[x])
})
cannot compute exact p-value with tiescannot compute exact p-value with tiescannot compute exact p-value with tiescannot compute exact p-value with tiescannot compute exact p-value with tiescannot compute exact p-value with ties
names(probInd) <- combn(levels(dataset$behandeling),2,paste,collapse="_VS_")
probInd
cobc_VS_compost cobc_VS_controle cobc_VS_refoak compost_VS_controle compost_VS_refoak controle_VS_refoak
0.2857143 0.9795918 1.0000000 1.0000000 1.0000000 0.6428571
We zien in de output opnieuw dezelfde foutmelding: cannot compute exact p-value with ties
omdat we terug de wilcox.test()
functie gebruiken. Maar dit is hier geen probleem omdat we niet de p-waarde nodig hebben maar de U1 statistiek. U1 is het aantal keer dat een observatie uit de eerste groep groter of gelijk is aan een observatie uit de tweede groep en is dus gedefinieerd bij ties (zie ook cursus).
Hoe interpreteer je de resultaten van de WMW testen?
We vinden significante verschillen in de verdelingen van versgewicht in vergelijking met de controle behandeling. De kans dat het versgewicht voor slaplanten opgegroeid in grond met compost hoger of gelijk is dan (“\(\geq\)”) het versgewicht voor slaplanten opgegroeid in de controle behandeling is gelijk aan 100% (WMW test, aangepaste p-waarde < 0.01). Gelijkaardig, de kans dat het versgewicht voor slaplanten opgegroeid in grond met compost en biochar hoger of gelijk (“\(\geq\)”) is dan het versgewicht voor slaplanten opgegroeid in de controle behandeling is gelijk aan 98.0% (WMW test, aangepaste p-waarde < 0.01).
Bovendien vinden we ook significante verschillen in de verdelingen van versgewicht in vergelijking met de biochar behandeling. De kans dat het versgewicht voor slaplanten opgegroeid in grond met biochar hoger of gelijk (“\(\geq\)”) is dan het versgewicht voor slaplanten opgegroeid in grond met compost is gelijk aan 100% (WMW test, aangepaste p-waarde < 0.01). Ook, de kans dat het versgewicht voor slaplanten opgegroeid in grond met biochar hoger of gelijk (“\(\geq\)”) is dan het versgewicht voor slaplanten opgegroeid in grond met compost en biochar is gelijk aan 100% (WMW test, aangepaste p-waarde < 0.01).
We vinden geen significant verschillende verdelingen in versgewicht van slaplanten tussen grond met biochar en de controle grond en tussen de grond met compost en de grond met compost en biochar.
Conclusie
We zien dat er een extreem significant effect (p << .001) is van het type grond op het versgewicht van slaplanten. Op het 5% significantieniveau stellen we dat de kans dat het versgewicht van een willekeurige slaplant opgegroeid in de ene soort grond hoger is dan of gelijk is (“\(\geq\)”) aan het versgewicht van een willekeurige slaplant uit de andere soorten grond extreem significant verschilt van 50%.
We vinden significante verschillen in de verdelingen van versgewicht in vergelijking met de controle behandeling. De kans dat het versgewicht voor slaplanten opgegroeid in grond met compost hoger of gelijk (“\(\geq\)”) is dan het versgewicht voor slaplanten opgegroeid in de controle behandeling is gelijk aan 100% (WMW test, aangepaste p-waarde < 0.01). Gelijkaardig, de kans dat het versgewicht voor slaplanten opgegroeid in grond met compost en biochar hoger of gelijk (“\(\geq\)”) is dan het versgewicht voor slaplanten opgegroeid in de controle behandeling is gelijk aan 98.0% (WMW test, aangepaste p-waarde < 0.01).
Bovendien vinden we ook significante verschillen in de verdelingen van versgewicht in vergelijking met de biochar behandeling. De kans dat het versgewicht voor slaplanten opgegroeid in grond met biochar hoger of gelijk (“\(\geq\)”) is dan het versgewicht voor slaplanten opgegroeid in grond met compost is gelijk aan 100% (WMW test, aangepaste p-waarde < 0.01). Ook, de kans dat het versgewicht voor slaplanten opgegroeid in grond met biochar hoger of gelijk (“\(\geq\)”) is dan het versgewicht voor slaplanten opgegroeid in grond met compost en biochar is gelijk aan 100% (WMW test, aangepaste p-waarde < 0.01).
We vinden geen significant verschillende kans op een verschillend versgewicht van slaplanten tussen grond met biochar en de controle grond en tussen de grond met compost en de grond met compost en biochar.
We kunnen besluiten dat grond met compost en grond met compost en biochar een positieve invloed heeft op de groei van slaplanten. Aangezien in deze studie alleen gekeken werd naar slaplanten, kunnen we dit uiteraard niet besluiten voor bladgroenten in het algemeen.
