Men wil de invloed kennen van het toedienen van 100 g glucose op het glucosegehalte in het bloed bij diabetische patiënten. Daartoe werd van acht diabetische patiënten het glucosegehalte gemeten in mmol/l zowel vóór als 1 uur na het toedienen van 100 g glucose. Onderstaande tabel geeft de concentratie plasmaglucose in mmol/l voor de 8 patiënten weer. Deze gegevens vindt u terug in het bestand glucose.dat
. Aan de hand van betrouwbaarheidsintervallen en statistische tests proberen we een besluit te formuleren op deze onderzoeksvraag.
We kunnen de dataset op twee manieren inlezen:
of
glucose <- read.table("https://raw.githubusercontent.com/statOmics/statistiekBasisCursus/gh-pages/practica/practicum2/data/glucose.dat", header = TRUE)
voor <- glucose$voor
na <- glucose$na
plot(voor, ylim = c(4,11))
points(na, col = "red")
In de dotplot stelt de x-as de 8 patiënten voor en de y-as staat voor het gemeten glucosegehalte. De zwarte punten zijn de voor
metingen, en de rode punten zijn de na
metingen (Probeer dit zelf te bekomen door de R
code te interpreteren!). Men merkt dat de glucosegehaltes in de na
metingen gemiddeld hoger lijken te zijn. In de volgende stappen zullen we bekijken of dit verschil significant is.
We maken een nieuwe variabele diff
aan die het verschil aanduidt tussen de na
en voor
metingen.
diff <- na-voor
diff
[1] 0.77 0.81 3.38 1.54 5.34 -0.55 3.61 2.89
De standaardfout (standard error) van een gemiddelde berekenen we als \(S_{\bar{X}} = S_X/\sqrt{n}\), met \(S_X\) de standaarddeviatie van variabele \(X\) en \(n\) de steekproefgrootte.
mean(diff) #gemiddeld verschil
[1] 2.22375
sd(diff)/sqrt(8) # standard error op gemiddeld verschil
[1] 0.6772685
De standard error van het gemiddelde duidt de onzekerheid aan op dit gemiddelde. Merk op, dat de standard error omgekeerd evenredig is met de vierkantswortel van de steekproefgrootte. Dit houdt steek: hoe meer data we verzamelen, hoe kleiner de onzekerheid op ons gemiddelde omdat deze gebaseerd zal zijn op meer data. Om onze precisie op het gemiddelde bijvoorbeeld te verdubbelen, moeten we de steekproefgrootte verviervoudigen. Voor meer uitleg hieromtrent, zie de Points of Significance Paper ‘Importance of being uncertain’ op de website.
Alvorens de one-sample t-test uit te voeren zullen we de voorwaarden van de test nagaan. De voorwaarden voor de one-sample t-test zijn:
Gezien de opzet van de studie kunnen we er van uit gaan dat de patiënten onafhankelijk van elkaar zijn. Om de assumptie van normale verdeling te checken, zullen we een QQ-plot gebruiken.
qqnorm(diff)
qqline(diff)
De data ligt rond de lijn die men zou verwachten indien de data inderdaad een normale distributie volgen. Op basis van de QQ-plot zien we geen reden om de normaliteitsassumptie te verwerpen. We kunnen er dus van uitgaan dat er aan de assumptie van normaliteit voldaan is.
Bepaal nu of het verschil in glucosegehalte in het bloed voor vs. na de toevoeging van glucose significant verschillend is van elkaar op het 5% significantieniveau. Bereken hiertoe een 95% betrouwbaarheidsinterval op het gemiddeld verschil in glucosegehalte.
Dit kunnen we op vele manieren doen. Een handige, korte manier is via de t.test
functie, die als standaard output een betrouwbaarheidsinterval meegeeft. Default zal de t.test
functie een 95% betrouwbaarheidsinterval meegeven, maar dit kan je zelf ook wijzigen via het conf.level
argument, zie ?t.test
. Probeer zelf het betrouwbaarheidsinterval te bekomen door deze zelf te berekenen in R
! Indien dit niet lukt, vraag raad bij de assistenten…
t.test(diff)
One Sample t-test
data: diff
t = 3.2834, df = 7, p-value = 0.01342
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
0.6222645 3.8252355
sample estimates:
mean of x
2.22375
Interpretatie van de t-test en 95% betrouwbaarheidsinterval
Nul- en alternatieve hypothesen:
\(H_0: \mu = 0\)
\(H_1: \mu \ne 0\)
met \(\mu\) het populatiegemiddelde van het verschil in het glucosegehalte in het bloed na - voor de toediening van glucose. Indien we de nulhypothese kunnen verwerpen kunnen we, op basis van de steekproef, de conclusie dat het gemiddelde glucosegehalte in het bloed verschilt tussen de voor
en na
metingen veralgemen naar de populatieparameter \(\mu\).
De t-test heeft een p-waarde van 0.01. Tracht de p-waarde zelf te interpreteren. Deze p-waarde is lager dan ons significantieniveau \(\alpha=0.05\). Hierdoor kunnen we besluiten dat de test significant is. Met andere woorden, we kunnen de nulhypothese verwerpen op het 5% significantieniveau en besluiten dat het gemiddeld verschil in glucosegehalte verschilt in de na vs. voor metingen. De t-test geeft ook weer dat het gemiddeld verschil (op basis van de steekproef!) \(\bar{x}\) = 2.22. Aangezien het gemiddeld verschil positief is, kunnen we stellen dat het gemiddelde glucosegehalte in het bloed, na toediening van glucose, significant hoger is in vergelijking met voor de toediening van glucose op het 5% significantieniveau. Onze volledige interpretatie luidt dus als volgt:
Het gemiddelde glucosegehalte in het bloed van diabetespatiënten zal, 1 uur na toediening van 100 g glucose, 2.22 mmol/l hoger liggen dan voor deze toediening. Dit verschil is significant op het 5%-significantieniveau (p = 0.013).
De t-test geeft ook een 95% betrouwbaarheidsinterval weer van 0.6222645 tot 3.8252355. Dit 95% betrouwbaarheidsinterval omvat het populatiegemiddelde met een waarschijnlijkheid van 95%. Men kan dit ook bekijken als volgt: indien men het experiment zeer veel keer zou herhalen en telkens een 95% betrouwbaarheidsinterval zou opstellen, dan verwacht men dat 95% van alle betrouwbaarheidsintervallen het werkelijke populatiegemiddelde \(\mu\) zullen omvatten. De interpretatie van het 95%-betrouwbaarheidsinterval is dus als volgt:
Met een waarschijnlijkheid van 95% kunnen we stellen dat het interval 0.62 mmol/l tot 3.83 mmol/l de werkelijke gemiddelde toename in glucosegehalte in het bloed van diabetespatiënten na toediening van 100 g glucose omvat.
Een alternatieve manier om dezelfde test uit te voeren is een gepaarde t-test uit te voeren op de voor
en na
metingen. In andere woorden, bij gepaarde data, is een one-sample t-test op het verschil identiek aan een paired t-test op de gepaarde (voor
en na
) metingen.
t.test(voor, na, paired = TRUE)
Paired t-test
data: voor and na
t = -3.2834, df = 7, p-value = 0.01342
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-3.8252355 -0.6222645
sample estimates:
mean of the differences
-2.22375
Merk op dat de tekens veranderd zijn in de output van deze test (bvb. \(\bar{x}\) is nu -2.22375), omdat hier de na
meting werd afgetrokken van de voor
meting.
Het toedienen van glucose aan diabetespatiënten resulteert in een significante stijging (p-waarde = \(0.013\)) van het glucosegehalte in het bloed op het 5% significantieniveau, waarbij het glucosegehalte gemiddeld gezien \(2.22\) mmol/l (95% BI: \([0.62, 3.83]\)) hoger ligt na de toediening.