Breast cancer dataset
brca <- read_csv("https://raw.githubusercontent.com/statOmics/sbc20/master/data/breastcancer.csv")
brca
# A tibble: 32 x 10
sample_name filename treatment er grade node size age ESR1 S100A8
<chr> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 OXFT_209 gsm65344.ce… tamoxifen 1 3 1 2.5 66 1939. 207.
2 OXFT_1769 gsm65345.ce… tamoxifen 1 1 1 3.5 86 2752. 37.0
3 OXFT_2093 gsm65347.ce… tamoxifen 1 1 1 2.2 74 379. 2364.
4 OXFT_1770 gsm65348.ce… tamoxifen 1 1 1 1.7 69 2532. 23.6
5 OXFT_1342 gsm65350.ce… tamoxifen 1 3 0 2.5 62 141. 3219.
6 OXFT_2338 gsm65352.ce… tamoxifen 1 3 1 1.4 63 1495. 108.
7 OXFT_2341 gsm65353.ce… tamoxifen 1 1 1 3.3 76 3406. 14.0
8 OXFT_1902 gsm65354.ce… tamoxifen 1 3 0 2.4 61 2813. 68.4
9 OXFT_1982 gsm65355.ce… tamoxifen 1 1 0 1.7 62 950. 74.2
10 OXFT_5210 gsm65356.ce… tamoxifen 1 3 0 3.5 65 1053. 182.
# … with 22 more rows
- Om didactische redenen verwijderen we eerst 3 outliers in de S100A8 expressie data.
- In deze studie kan dit echter niet worden verantwoord
- Later in de lessen laten we zien hoe je goed met alle data omgaat.
brca %>%
ggplot(aes(x="", y=S100A8)) +
geom_boxplot() +
xlab("") +
ylab("S100A8 expressie")

library(GGally)
brcaSubset <- brca %>%
filter(S100A8<2000)
brcaSubset[,-(1:4)] %>% ggpairs()

Associatie tussen ESR1 en S100A8 expressie
ESR1 in ± 75% van borstkankertumoren.
- Expressie van ER-gen positief voor behandeling: tumor reageert op hormoontherapie
- Tamoxifen interageert met ER en moduleert genexpressie.
Eiwitten van de S100-familie zijn vaak gedisreguleerd bij kanker
S100A8 expressie onderdrukt immuunsysteem in tumor en creëert inflamatoir milieu die kankergroei promoot.
Interesse in associatie tussen ESR1 en S100A8 expressie.
- pipe dataset naar ggplot
- selecteer data
ggplot(aes(x=ESR1,y=S100A8))
- voeg punten toe met
geom_point()
- voeg een “smooth line” toe
geom_smooth()
brcaSubset %>%
ggplot(aes(x=ESR1,y=S100A8)) +
geom_point() +
geom_smooth()

Lineaire Regressie
Statistische methode om relatie tussen 2 reeksen observaties (Xi,Yi), bekomen voor onafhankelijke subjecten i=1,...,n, te beschrijven.
Gen expressie voorbeeld
- Response Y : S100A8 expressie
- Predictor X: ESR1 expressie
- pipe dataset naar ggplot
- selecteer data
ggplot(aes(x=ESR1,y=S100A8))
- voeg punten toe met
geom_point()
- voeg een “smooth line” toe
geom_smooth()
- voeg een rechte toe
geom_smooth()
met method = "lm"
(linear model). (We zetten se = FALSE
om geen puntgewijze betrouwbaarheidsintervallen weer te geven)
brcaSubset %>%
ggplot(aes(x = ESR1,y = S100A8)) +
geom_point() +
geom_smooth(se = FALSE, col = "grey") +
geom_smooth(method = "lm", se = FALSE)

Model
- Voor vaste X, heeft Y niet noodzakelijke dezelfde waarde
observation = signal + noise
Yi=g(Xi)+ϵi
- We definiëren g(x) als het verwachte resultaat voor subjects met Xi=x
E[Yi|Xi=x]=g(x)
Daarom is ϵi gemiddeld 0 voor subjects met dezelfde Xi: E[ϵi|Xi]=0
Lineaire regressie
- Om accurate en interpreteerbare resultaten te bekomen, kiest men g(x) vaak als een lineaire functie met ongekende parameters.
E(Y|X=x)=β0+β1x
onbekend intercept β0 en helling β1.
Lineair model legt een assumptie op de verdeling van X en Y, die incorrect kan zijn.
Efficiënte data-analyse: benut alle observaties om iets te leren over verwachte uitkomst bij X=x.
Gebruik
Predictie: wanneer Y ongekend is, maar X wel, kunnen we Y voorspellen op basis van X E(Y|X=x)=β0+β1x
Associatie: biologische relatie tussen variabele X en continue meting Y beschrijven.
Intercept: E(Y|X=0)=β0
Slope: E(Y|X=x+δ)−E(Y|X=x)=β0+β1(x+δ)−β0−β1x=β1δ
β1: verschil in gemiddelde uitkomst voor subjecten die verschillen in één eenheid van de predictor X.
Parameterschatting
- Kleinste kwadraten techniek (Least squares)
brcaSubset %>%
ggplot(aes(x = ESR1, y = S100A8)) +
geom_point() +
geom_smooth(se = FALSE, col = "grey") +
geom_smooth(method = "lm", se = FALSE)

SSE=n∑i=1(yi−β0−β1xi)2=n∑i=1e2i
- Met ei de residuen: de verticale afstanden van de observaties tot de gefitte regressierechte
Schatters die SSE minimaliseren
^β1=n∑i=1(yi−ˉy)(xi−ˉx)n∑i=1(xi−ˉxi)2=cor(x,y)sysx
^β0=ˉy−ˆβ1ˉx
- Merk op dat de helling van de kleinste kwadratenlijn evenredig is met de correlatie tussen de uitkomst en de verklarende variabele.
Geschatte lineaire regressiemodel laat toe om:
verwachte uitkomst te voorspellen voor subjecten met een gegeven waarde x voor de predictor: E[Y|X=x]=ˆβ0+ˆβ1x
na te gaan hoeveel uitkomst gemiddeld verschilt tussen 2 groepen subjecten met een verschil van δ eenheden in de verklarende variabele:
E[Y|X=x+δ]−E[Y|X=x]=ˆβ1δ
Borstkanker voorbeeld
lm1 <- lm(S100A8 ~ ESR1, brcaSubset)
summary(lm1)
Call:
lm(formula = S100A8 ~ ESR1, data = brcaSubset)
Residuals:
Min 1Q Median 3Q Max
-95.43 -34.81 -6.79 34.23 145.21
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 208.47145 28.57207 7.296 7.56e-08 ***
ESR1 -0.05926 0.01212 -4.891 4.08e-05 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 59.91 on 27 degrees of freedom
Multiple R-squared: 0.4698, Adjusted R-squared: 0.4502
F-statistic: 23.93 on 1 and 27 DF, p-value: 4.078e-05
E(Y|X=x)=208.47−0.059x
De verwachte S100A8-expressie is gemiddeld 59 eenheden lager voor patiënten met een ESR1-expressieniveau die 1000 eenheden hoger ligt.
Verwachte S100A8 expressieniveau voor patiënten met een ESR1 expressieniveau van 2000:
208.47−0.059×2000=89.94
Verwachte S100A8 expressieniveau voor patiënten met een ESR1 expressieniveau van 4000:
208.47−0.059×4000=−28.58
Let op voor extrapolatie! (Veronderstelling van lineariteit kan men enkel nagaan binnen het bereik van de data).
Statistische besluitvorming (statistische inferentie)
Om besluiten te kunnen trekken over lineaire regressiemodel E(Y|X)=β0+β1X
moeten we weten:
Hoe de least squares parameter schatters variëren van steekproef tot steekproef, en
En hoe is dit onder de nulhypothese dat er geen associatie is tussen predictor en response
Noodzaak aan statistisch model!
Modelleer de verdeling van Y gegeven X expliciet: fY|X(y)
Modelleer verdeling van Y?
- Naast lineariteit hebben we nog aannames nodig!
- Onafhankelijkheid: waarnemingen (X1,Y1),...,(Xn,Yn) zijn gemaakt voor n onafhankelijke subjecten (Is vereist om de variantie te schatten)
- Homoscedasticiteit of gelijke varianties: waarnemingen variëren met gelijk gemiddelde rond de regressielijn.
- Residuen ϵi hebben gelijke variantie voor elke Xi=x
- var(Y|X=x)=σ2 voor elke X=x
- σ wordt de residuele standaarddeviatie genoemd.
- Normaliteit: de residuen ϵi zijn normaal verdeeld

Uit 2, 3 en 4 volgt dat ϵi i.i.d.N(0,σ2).
Als we ook steunen op eerste veronderstelling van lineariteit: Yi|Xi∼N(β0+β1Xi,σ2),
Verder kan men aantonen dat onder deze aannames σ2ˆβ0=n∑i=1X2in∑i=1(Xi−ˉX)2×σ2n en σ2ˆβ1=σ2n∑i=1(Xi−ˉX)2
en dat de parameterschatters eveneens normaal verdeeld zijn ˆβ0∼N(β0,σ2ˆβ0) en ˆβ1∼N(β1,σ2ˆβ1)
Hoge spreiding op X verbetert de precisie
σ2ˆβ1=σ2n∑i=1(Xi−ˉX)2

- Conditionele variantie (σ2) is niet gekend
- Schatten d.m.v. gemiddelde van die kwadratische afwijkingen rond de regressierechte
- mean squared error (MSE)
ˆσ2=MSE=n∑i=1(yi−ˆβ0−ˆβ1×xi)2n−2=n∑i=1e2in−2. - Voor het bekomen van deze schatter steunen we op onafhankelijkheid (aanname 2) en homoscedasticiteit (aanname 3). - deel door n−2
Na schatting van σ2 bekomen we volgende standaard errors:
SEˆβ0=ˆσˆβ0=√n∑i=1X2in∑i=1(Xi−ˉX)2×MSEn en SEˆβ1=ˆσˆβ1=√MSEn∑i=1(Xi−ˉX)2
Opnieuw toetsen en betrouwbaarheidsintervallen o.b.v. T=ˆβk−βkSE(ˆβk) with k=1,2.
Als aan alle aannames is voldaan volgt T een t-verdeling met n-2 vrijheidsgraden.
Als geen normaliteit maar wel onafhankelijk, lineariteit en homoscedasticiteit en grote dataset →Centrale Limietstelling
Borstkanker voorbeeld
Negatieve associatie tussen S100A8 en ESR1 gen expressie.
Veralgemeen effect in steekproef naar populatie met behulp van het betrouwbaarheidsinterval op de helling: [ˆβ1−tn−2,α/2SEˆβ1,ˆβ1+tn−2,α/2SEˆβ1].
2.5 % 97.5 %
(Intercept) 149.84639096 267.09649989
ESR1 -0.08412397 -0.03440378
- Negatief verband is significant op het 5% significantieniveau.
Hypothese test
Vertaal de onderzoeksvraag “Is er een associatie tussen de S100A8- en ESR1-genexpressie?” naar de parameters in het model.
Onder nulhypothese geen associatie tussen expressie van beide genen: H0:β1=0
Onder alternatieve hypothese is er een associatie tussen beide genen: H1:β1≠0
Test statistiek T=ˆβ1−0SE(ˆβk)
Onder H0 volgt de statistiek een t-verdeling met n-2 vrijheidsgraden.
Brca dataset
Call:
lm(formula = S100A8 ~ ESR1, data = brcaSubset)
Residuals:
Min 1Q Median 3Q Max
-95.43 -34.81 -6.79 34.23 145.21
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 208.47145 28.57207 7.296 7.56e-08 ***
ESR1 -0.05926 0.01212 -4.891 4.08e-05 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 59.91 on 27 degrees of freedom
Multiple R-squared: 0.4698, Adjusted R-squared: 0.4502
F-statistic: 23.93 on 1 and 27 DF, p-value: 4.078e-05
- Associatie tussen de S100A8 en ESR1 genexpressie extreem significant is (p<<0.001).
- Maar eerst moeten we alle assumpties controleren!
- Anders kunnen de conclusies o.b.v. de statistische test en het BI onjuist zijn.
Nagaan van modelveronderstellingen
- Onafhankelijkheid: design
- Lineariteit: besluitvorming geen zin als model niet lineair is
- Homoscedasticiteit: besluitvorming/p-waarde is niet betrouwbaar als de data niet homoscedastisch zijn
- Normaliteit: besluitvorming/p-waarde is niet betrouwbaar als de data niet normaal verdeeld zijn in kleine steekproeven
Lineariteit
brcaSubset %>%
ggplot(aes(x = ESR1, y = S100A8)) +
geom_point() +
geom_smooth(se = FALSE, col = "grey") +
geom_smooth(method = "lm", se = FALSE)

Residuplots
Afwijkingen van lineariteit echter makkelijker opgespoord d.m.v. een residuplot. (Zeker als er later meer variabelen zijn in het lineaire model)
verklarende variabele of predicties ˆβ0+ˆβ1x op de X-as
de residuen op de Y-as ei=yi−ˆg(xi)=yi−ˆβ0−ˆβ1×xi,




Homoscedasticiteit (gelijkheid van variantie)
Residuen en kwadratische residu’s dragen informatie over residuele variabiliteit.
Associatie met de verklarende variabelen → indicatie van heteroscedasticiteit.
Scatterplot van of ei versus xi of predicties ˆβ0+ˆβ1xi.
Scatterplot van gestandardiseerd residu versus xi of predicties.
Normaliteit
Indien voldoende gegevens, schatters normaal verdeeld zelfs wanneer observaties niet Normaal verdeeld zijn: centrale limiet stelling
Wat ‘voldoende observaties’ zijn, hangt af van hoe goed de verdeling op de Normale lijkt.
Aanname is dat uitkomsten Normaal verdeeld zijn bij vaste waarden van de verklarende variabelen. Yi|Xi∼N(β0+β1Xi,σ2)
QQ-plot van response Y is heel misleidend.
QQ-plot van de residuen ei


Afwijkingen van Modelveronderstellingen
Borstkanker voorbeeld
Problemen met
heteroscedasticiteit
mogelijkse afwijking van normaliteit (scheefheid naar rechts)
negatieve concentratievoorspellingen die theoretisch niet mogelijk zijn
niet-lineairiteit
treedt veelal op bij concentratie en intensiteitsmetingen
Deze zijn vaak log-normaal verdeeld (normale verdeling na log-transformatie)
In Figuur 6.3 eveneens een soort exponentiële trend
In de genexpressie literatuur wordt veelal gebruik gemaak van log2 transformatie
gen-expressie op log-schaal proportionele verschillen op de originele schaal
brca %>%
ggplot(aes(x = ESR1, y = S100A8)) +
geom_point() +
geom_smooth()

brca %>%
ggplot(aes(
x = ESR1 %>% log2,
y = S100A8 %>% log2)
) +
geom_point() +
geom_smooth()

lm2<-lm(S100A8 %>% log2 ~ ESR1 %>% log2, brca)
plot(lm2)




Call:
lm(formula = S100A8 %>% log2 ~ ESR1 %>% log2, data = brca)
Residuals:
Min 1Q Median 3Q Max
-1.94279 -0.66537 0.08124 0.68468 1.92714
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 23.401 1.603 14.60 3.57e-15 ***
ESR1 %>% log2 -1.615 0.150 -10.76 8.07e-12 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.026 on 30 degrees of freedom
Multiple R-squared: 0.7942, Adjusted R-squared: 0.7874
F-statistic: 115.8 on 1 and 30 DF, p-value: 8.07e-12
2.5 % 97.5 %
(Intercept) 20.128645 26.674023
ESR1 %>% log2 -1.921047 -1.308185
Interpretatie 1
Een patiënt met een ESR1 expressie die 1 eenheid op de log2 schaal hoger ligt dan dat van een andere patiënt heeft gemiddeld gezien een expressie-niveau van het S100A8 gen dat 1.61 eenheden lager ligt (95% BI [-1.92,-1.31]).
Crossectionele studie: enkel uitspraken over verschillen tussen patiënten!
log2ˆμ1=23.401−1.615×logESR1, log2ˆμ2=23.401−1.615×logESR2 log2ˆμ2−log2ˆμ1=−1.615(log2ESR2−log2ESR1)=−1.615×1=−1.615
Interpretatie 2
Model op log-schaal: bij terugtransformatie verkrijgen we het geometrische gemiddelde
n∑i=1logxin=logx1+…+logxnn(1)=log(x1×…×xn)n=log(n∏i=1xi)n(2)=log(n√n∏i=1xi)
- Populatiegemiddelden μ dus geschat a.d.h.v. geometrisch gemiddelden.
- Logaritmische transformatie is een monotoon: we kunnen betrouwbaarheidsintervallen berekend op log-schaal terugtransformeren!
ESR1 %>% log2
0.3265519
ESR1 %>% log2
3.0623
2.5 % 97.5 %
3.786977 2.476298
Een patiënt met een ESR1 expressie die 2 keer zo hoog is als die van een andere patiënt, zal gemiddeld een S100A8-expressie hebben die 3.06 keer lager is (95% BI [2.48,3.79]).
log2ˆμ1=23.401−1.615×logESR1, log2ˆμ2=23.401−1.615×logESR2 log2ˆμ2−log2ˆμ1=−1.615(log2ESR2−log2ESR1) log2[ˆμ2ˆμ1]=−1.615log2[ESR2ESR1] ˆμ2ˆμ1=[ESR2ESR1]−1.615=2−1.615=0.326 or ˆμ1ˆμ2=21.615=3.06
Interpratie 3
Een patiënt met een ESR1 expressie die 1% hoger is dan die van een andere patiënt zal gemiddeld een expressieniveau voor het S100A8 gen hebben dat ongeveer -1.61% lager is (95% BI [-1.92,-1.31])%.
log2ˆμ1=23.401−1.615×logESR1, log2ˆμ2=23.401−1.615×logESR2 log2ˆμ2−^log2μ1=−1.615(log2ESR2−log2ESR1) log2[ˆμ2ˆμ1]=−1.615log2[ESR2ESR1] ˆμ2ˆμ1=[ESR2ESR1]−1.615=1.01−1.615=0.984≈−1.6%
Dit geldt voor lage tot matige waarden van β1: −10<β1<10→1.01β1−1≈β1100.
Besluitvorming over gemiddelde uitkomst
Regressie model kan ook worden gebruikt voor predictie
Besluitvorming te doen over de gemiddelde uitkomst bij een gegeven waarde x, m.a.w. ˆg(x)=ˆβ0+ˆβ1x
ˆg(x) een schatter van het conditionele gemiddelde E[Y|X=x]
Parameterschatters Normale verdeeld en onvertekend → schatter ˆg(x) ook Normaal verdeeld en onvertekend.
SEˆg(x)=√MSE{1n+(x−ˉX)2n∑i=1(Xi−ˉX)2}.
T=ˆg(x)−g(x)SEˆg(x)∼tn−2
- Gemiddelde uitkomst en betrouwbaarheidsintervallen op de gemiddelde uitkomst in R via de
predict(.)
functie.
newdata
argument: predictorwaarden (x-waarden) voor het berekenen van gemiddelde uitkomsten
interval="confidence"
argument om betrouwbaarheidsintervallen te bekomen.
- Zonder
newdata
argument wordt de gemiddelde uitkomsten berekend voor alle predictorwaarden van de dataset.
grid <- 140:4000
g <- predict(
lm2,
newdata = data.frame(ESR1 = grid),
interval = "confidence")
head(g)
fit lwr upr
1 11.89028 10.76082 13.01974
2 11.87370 10.74721 13.00019
3 11.85724 10.73370 12.98078
4 11.84089 10.72028 12.96151
5 11.82466 10.70696 12.94237
6 11.80854 10.69372 12.92336
Merk op dat we de nieuwe data die we gespecificeerd hebben voor de ESR1 expressie niet moeten transformeren omdat we het model fitten met de lm
functie en de transformatie hebben gespecificeerd binnen die functie met behulp van het pipe commando!
brca %>% ggplot(
aes(
x = ESR1 %>% log2,
y = S100A8 %>% log2)
) +
geom_point() +
geom_smooth(method = "lm")

Predictie-intervallen
-We kunnen ook een voorspelling doen voor de locatie van een nieuwe waarneming die zou worden verzameld in een nieuw experiment voor een patiënt met een bepaalde waarde voor hun ESR1-expressie
Het is belangrijk op te merken dat dit experiment nog moet worden uitgevoerd. We willen dus de niet-waargenomen individuele expressiewaarde voor een nieuwe patiënt voorspellen.
Voor een nieuwe onafhankelijke waarneming Y∗ Y∗=g(x)+ϵ∗ met ϵ∗∼N(0,σ2) en ϵ∗ onafhankelijk van de waarnemingen in de steekproef Y1,…,Yn.
We voorspellen een nieuwe log-S100A8 voor een patiënt met een gekend log2-ESR1-expressieniveau x ˆy(x)=ˆβ0+ˆβ1×x
De geschatte gemiddelde uitkomst en voorspelling voor een nieuwe waarneming zijn gelijk.
Maar hun steekproef verdelingen zijn anders!
- Onzekerheid over de geschatte gemiddelde uitkomst ← onzekerheid over de geschatte modelparameters ˆβ0 en ˆβ1.
- Onzekerheid over nieuwe waarneming ← onzekerheid over geschat gemiddelde en extra onzekerheid omdat de nieuwe waarneming zal afwijken rond het gemiddelde!
SEˆY(x)=√ˆσ2+ˆσ2ˆg(x)=√MSE{1+1n+(x−ˉX)2n∑i=1(Xi−ˉX)2}.
ˆY(x)−YSEˆY(x)∼tn−2
- Merk op dat een predictie-interval (PI) een verbeterde versie is van een referentie-interval wanneer de modelparameters onbekend zijn: onzekerheid over modelparameters + t-verdeling.
p <- predict(
lm2,
newdata = data.frame(ESR1 = grid),
interval="prediction")
head(p)
fit lwr upr
1 11.89028 9.510524 14.27004
2 11.87370 9.495354 14.25205
3 11.85724 9.480288 14.23419
4 11.84089 9.465324 14.21646
5 11.82466 9.450461 14.19886
6 11.80854 9.435698 14.18138
preddata<-data.frame(
grid = grid%>%log2,
p)
brca %>% ggplot(aes(x=ESR1%>%log2,y=S100A8%>%log2)) +
geom_point() +
geom_smooth(method="lm") +
geom_line(aes(x=grid,y=lwr),preddata,color="blue") +
geom_line(aes(x=grid,y=upr),preddata,color="blue")

preddata<-data.frame(cbind(grid,2^p))
brca %>% ggplot(aes(x = ESR1, y = S100A8)) +
geom_point() +
geom_line(
aes(x = grid,y = fit),
newdata) +
geom_line(
aes(x = grid, y = lwr),
newdata,
color = "grey") +
geom_line(
aes(x = grid, y = upr),
newdata,
color = "grey") +
geom_line(
aes(x = grid, y = lwr),
preddata,
color = "blue") +
geom_line(
aes(x = grid,y = upr),
preddata,
color = "blue")

NHANES voorbeeld
library(NHANES)
fem <- NHANES %>%
filter(Gender=="female"&!is.na(DirectChol))
2^(
fem %>%
pull(DirectChol) %>%
log2 %>%
mean +
c(-1,1) *
qnorm(0.975) *
(fem %>%
pull(DirectChol) %>%
log2 %>%
sd)
)
[1] 0.8361311 2.4397130
lmChol <- lm(DirectChol %>% log2 ~ 1, data=fem)
predInt <- predict(
lmChol,
interval="prediction",
newdata=data.frame(noPred=1)
)
round(2^predInt,2)
fit lwr upr
1 1.43 0.84 2.44
Merk op dat het voorspellingsinterval bijna gelijk is aan het referentie-interval voor de grote steekproef. We konden de parameters inderdaad heel precies schatten.
We zullen hetzelfde doen voor een kleine steekproef van 10 patiënten.
set.seed(1)
fem10 <- NHANES %>%
filter(Gender=="female"&!is.na(DirectChol)) %>%
sample_n(size=10)
2^(
fem10 %>%
pull(DirectChol) %>%
log2 %>%
mean +
c(-1,1) *
qnorm(0.975) *
(fem10 %>%
pull(DirectChol) %>%
log2 %>%
sd)
)
[1] 0.8976012 2.2571645
Het referentie-interval is veel smaller dan in de grote steekproef.
lmChol10 <- lm(DirectChol %>% log2 ~ 1, data = fem10)
predInt10 <- predict(
lmChol10,
interval = "prediction",
newdata = data.frame(noPred=1)
)
round(2^predInt10, 2)
fit lwr upr
1 1.42 0.81 2.49
Merk op dat het PI nu onzekerheid meeneemt in parameterschatters (gemiddelde en standaard error). En dat het interval veel breder wordt! Dit is hier vooral belangrijk voor de bovengrens omdat we de gegevens terug hebben getransformeerd!
Het interval is bijna net zo breed als dat gebaseerd op de grote steekproef.
Bij kleine steekproeven is het erg belangrijk om met deze extra onzekerheid rekening te houden.
Kwadratensommen en Anova-tabel
Totale kwadratensom
SSTot=n∑i=1(Yi−ˉY)2.
SStot kan worden gebruikt om de variantie van de marginale verdeling van de respons te schatten.
In dit hoofdstuk hebben we ons gefocused op de conditionele verdeling f(Y|X=x).
We weten dat MSE een goede schatting is van de variantie van de conditionele verdeling van Y|X=x.

Kwadratensom van de regressie SSR
SSR=n∑i=1(ˆYi−ˉY)2=n∑i=1(ˆg(xi)−ˉY)2.
Maat voor de afwijking tussen de predicties op de geschatte regressierechte en het steekproefgemiddelde van de uitkomsten.
Een andere interpretatie: verschil tussen twee modellen
- Geschatte model ˆg(x)=ˆβ0+ˆβ1x
- Geschatte model zonder predictor (enkel intercept): g(x)=β0 → β0 zal gelijk zijn aan ˉY.
SSR meet de grootte van het effect van de predictor

Kwadratensom van de fouten
SSE=n∑i=1(Yi−ˆYi)2=n∑i=1{Yi−ˆg(xi)}2.

We kunnen aantonen dat SST kan worden ontbonden in SSTot=n∑i=1(Yi−ˉY)2=n∑i=1(Yi−ˆYi+ˆYi−ˉY)2=n∑i=1(Yi−ˆYi)2+n∑i=1(ˆYi−ˉY)2=SSE +SSR
- De totale variabiliteit in de gegevens (SSTot) wordt gedeeltelijk verklaard door het regressieverband (SSR).
- Variabiliteit die we niet kunnen verklaren met het regressiemodel is de residuele variabiliteit (SSE).
Determinatie-coëfficiënt
R2=1−SSESSTot=SSRSSTot.
Fractie van de totale variabiliteit in de steekproef-uitkomsten die verklaard wordt door het geschatte regressieverband.
Grote R2 indicatie dat model potentieel tot goede predicties kan leiden (kleine SSE)
Slechts in beperkte mate indicatief voor de p-waarde van de test H0:β1=0 vs H1:β1≠0.
- p-waarde sterk beïnvloed door SSE en steekproefgrootte n, maar niet door SSTot
- De determinatiecoëfficiënt R2 wordt door SSE en SSTot bepaald, maar niet door de steekproefgrootte n.
Model met lage R2 blijft wel nuttig om associatie te bestuderen, zolang het de associatie correct modelleert!
Borstkanker voorbeeld
Call:
lm(formula = S100A8 %>% log2 ~ ESR1 %>% log2, data = brca)
Residuals:
Min 1Q Median 3Q Max
-1.94279 -0.66537 0.08124 0.68468 1.92714
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 23.401 1.603 14.60 3.57e-15 ***
ESR1 %>% log2 -1.615 0.150 -10.76 8.07e-12 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.026 on 30 degrees of freedom
Multiple R-squared: 0.7942, Adjusted R-squared: 0.7874
F-statistic: 115.8 on 1 and 30 DF, p-value: 8.07e-12
F-Testen in het enkelvoudig lineair regressiemodel
- Kwadratensommen zijn basis voor F-tests F=MSRMSE
met MSR=SSR1 and MSE=SSEn−2.
MSR wordt de gemiddelde kwadratensom van de regressie genoemd.
noemers 1 en n−2 zijn de vrijheidsgraden van SSR en SSE.
onder H0:β1=0 volgt de teststatistiek H0:F=MSRMSE∼F1,n−2,
F-test is altijd twee-zijdig! H1:β1≠0 p=P0[F≥f]=1−FF(f;1,n−2)
Call:
lm(formula = S100A8 %>% log2 ~ ESR1 %>% log2, data = brca)
Residuals:
Min 1Q Median 3Q Max
-1.94279 -0.66537 0.08124 0.68468 1.92714
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 23.401 1.603 14.60 3.57e-15 ***
ESR1 %>% log2 -1.615 0.150 -10.76 8.07e-12 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.026 on 30 degrees of freedom
Multiple R-squared: 0.7942, Adjusted R-squared: 0.7874
F-statistic: 115.8 on 1 and 30 DF, p-value: 8.07e-12

Anova Tabel
Regressie |
vrijheidsgraden SSR |
SSR |
MSR |
f-statistiek |
p-waarde |
Error |
vrijheidsgraden SSE |
SSE |
MSE |
|
|
Analysis of Variance Table
Response: S100A8 %>% log2
Df Sum Sq Mean Sq F value Pr(>F)
ESR1 %>% log2 1 121.814 121.814 115.8 8.07e-12 ***
Residuals 30 31.559 1.052
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Dummy variabelen
Lineaire regressiemodel voor het vergelijken van twee gemiddelden.
Borstkanker: verschil is in gemiddelde leeftijd van de patiënten met onaangetaste lymfeknopen en patiënten waarvan lymfeknopen werden verwijderd.
Hiervoor definiëren we eerst een dummy variabele xi={1aangetaste lymfeknopen0onaangetaste lymfeknopen
groep met xi=0 wordt de referentiegroep genoemd.
Het regressiemodel blijft ongewijzigd, Yi=β0+β1xi+ϵi met ϵi iid N(0,σ2)
Gezien xi slechts twee waarden kan aannemen, is het eenvoudig om het regressiemodel voor beide waarden van xi afzonderlijk te bekijken: Yi=β0+ϵionaangetaste lymfeknopen(xi=0)Yi=β0+β1+ϵi aangetaste lymfeknopen(xi=1).
Dus E[Yi∣xi=0]=β0E[Yi∣xi=1]=β0+β1,
waaruit direct de interpretatie van β1 volgt: β1=E[Yi∣xi=1]−E[Yi∣xi=0]
β1 is dus het gemiddelde verschil in leeftijd tussen patiënten met aangetaste lymfeknopen en patiënten met onaangetaste lymfeknopen (referentiegroep).
Met de notatie μ0=E[Yi∣xi=0] en μ1=E[Yi∣xi=1] wordt dit β1=μ1−μ0.
Er kan aangetoond worden dat ˆβ0=ˉY1 (steekproefgemiddelde in referentiegroep)ˆβ1=ˉY2−ˉY1(schatter van effectgrootte)MSE=S2p.
De testen voor H0:β1=0 vs. H1:β1≠0 kunnen gebruikt worden voor het testen van de nulhypothese van de two-sample t-test, H0:μ1=μ2 t.o.v. H1:μ1≠μ2.
brca$node <- as.factor(brca$node)
t.test(age~node,brca,var.equal=TRUE)
Two Sample t-test
data: age by node
t = -2.7988, df = 30, p-value = 0.008879
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-15.791307 -2.467802
sample estimates:
mean in group 0 mean in group 1
59.94737 69.07692
lm3 <- lm(age~node, brca)
summary(lm3)
Call:
lm(formula = age ~ node, data = brca)
Residuals:
Min 1Q Median 3Q Max
-19.9474 -5.3269 0.0526 5.3026 18.0526
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 59.947 2.079 28.834 < 2e-16 ***
node1 9.130 3.262 2.799 0.00888 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 9.063 on 30 degrees of freedom
Multiple R-squared: 0.207, Adjusted R-squared: 0.1806
F-statistic: 7.833 on 1 and 30 DF, p-value: 0.008879




brca %>%
ggplot(
aes(
x = node %>%
as.factor,
y = age)
) +
geom_boxplot()

- Simulate 9 datasets with the same number of observations as the brca dataset from a normal distribution with the same standard deviation as in the original data. Store the data of all simulations in a data frame
- Plot the simulated data using the
ggplot
function
- Add a boxplot layer
- Use facet_wrap to make a separate plot for simulated dataset
- Change label of y-axis
set.seed(354)
sim_df <- data.frame(
node = rep(brca$node, 9),
iid = rnorm(9 * nrow(brca), sd = sigma(lm3)),
sim = rep(1:9, each = 32)
)
sim_df %>%
ggplot(aes(x = node, y=iid)) +
geom_boxplot() +
facet_wrap(.~sim) +
ylab(paste0("iid N(0,",round(sigma(lm3)^2,2),")"))

Observationele study
We kunnen echter niet besluiten dat oudere personen een hoger risico hebben op aantasting van de lymfeknopen ten gevolge van hun leeftijd.
Mogelijks confounding: geen randomisatie → groepen patiënten met aangetaste lymfeknopen en niet-aangetaste lymfeknopen kunnen nog in andere karateristieken van elkaar verschillen.
Enkel besluiten dat er een associatie is tussen de lymfeknoop status en de leeftijd.
Het is dus niet noodzakelijkerwijs een causaal verband!
Is ook zo voor lineair model voor de log2-S100A8-expressie.
Aangezien we de ESR1-expressie niet experimenteel vast hebben kunnen leggen, kunnen we niet besluiten dat een hogere ESR1-expressie de S100A8-expressie doet verlagen.
Enkel besluiten dat er een negatieve associatie is.
Om impact van gen te bestuderen op andere genen: knockout mutanten generenen in het labo
