Processing math: 100%
  • 1 Breast cancer dataset
    • 1.1 Associatie tussen ESR1 en S100A8 expressie
  • 2 Lineaire Regressie
    • 2.1 Model
    • 2.2 Lineaire regressie
    • 2.3 Gebruik
  • 3 Parameterschatting
    • 3.1 Schatters die SSE minimaliseren
      • 3.1.1 Borstkanker voorbeeld
  • 4 Statistische besluitvorming (statistische inferentie)
    • 4.1 Modelleer verdeling van Y?
    • 4.2 Hoge spreiding op X verbetert de precisie
      • 4.2.1 Borstkanker voorbeeld
    • 4.3 Hypothese test
      • 4.3.1 Brca dataset
  • 5 Nagaan van modelveronderstellingen
    • 5.1 Lineariteit
    • 5.2 Residuplots
    • 5.3 Homoscedasticiteit (gelijkheid van variantie)
    • 5.4 Normaliteit
  • 6 Afwijkingen van Modelveronderstellingen
    • 6.1 Borstkanker voorbeeld
      • 6.1.1 Interpretatie 1
      • 6.1.2 Interpretatie 2
      • 6.1.3 Interpratie 3
  • 7 Besluitvorming over gemiddelde uitkomst
    • 7.1 Terugtransformatie
  • 8 Predictie-intervallen
    • 8.1 NHANES voorbeeld
  • 9 Kwadratensommen en Anova-tabel
    • 9.1 Totale kwadratensom
    • 9.2 Kwadratensom van de regressie SSR
    • 9.3 Kwadratensom van de fouten
    • 9.4 Determinatie-coëfficiënt
      • 9.4.1 Borstkanker voorbeeld
    • 9.5 F-Testen in het enkelvoudig lineair regressiemodel
    • 9.6 Anova Tabel
  • 10 Dummy variabelen
    • 10.1 Observationele study

1 Breast cancer dataset

  • subset van studie https://doi.org/10.1093/jnci/djj052

  • 32 borstkanker patiënten met een estrogen recepter positieve tumor die tamoxifen chemotherapy behandeling ondergaan. Variabelen:

    • grade: histologische graad van tumor (graad 1 vs 3),
    • node: status van de lymfe knopen (0: niet aangetast, 1: aantasting en verwijdering van de lymfe knopen),
    • size: grootte van tumor in cm,
    • ESR1 en S100A8 gen expressie in tumor biopsy (via microarray technologie)
brca <- read_csv("https://raw.githubusercontent.com/statOmics/sbc20/master/data/breastcancer.csv")
brca
# A tibble: 32 x 10
   sample_name filename     treatment    er grade  node  size   age  ESR1 S100A8
   <chr>       <chr>        <chr>     <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>  <dbl>
 1 OXFT_209    gsm65344.ce… tamoxifen     1     3     1   2.5    66 1939.  207. 
 2 OXFT_1769   gsm65345.ce… tamoxifen     1     1     1   3.5    86 2752.   37.0
 3 OXFT_2093   gsm65347.ce… tamoxifen     1     1     1   2.2    74  379. 2364. 
 4 OXFT_1770   gsm65348.ce… tamoxifen     1     1     1   1.7    69 2532.   23.6
 5 OXFT_1342   gsm65350.ce… tamoxifen     1     3     0   2.5    62  141. 3219. 
 6 OXFT_2338   gsm65352.ce… tamoxifen     1     3     1   1.4    63 1495.  108. 
 7 OXFT_2341   gsm65353.ce… tamoxifen     1     1     1   3.3    76 3406.   14.0
 8 OXFT_1902   gsm65354.ce… tamoxifen     1     3     0   2.4    61 2813.   68.4
 9 OXFT_1982   gsm65355.ce… tamoxifen     1     1     0   1.7    62  950.   74.2
10 OXFT_5210   gsm65356.ce… tamoxifen     1     3     0   3.5    65 1053.  182. 
# … with 22 more rows
  • Om didactische redenen verwijderen we eerst 3 outliers in de S100A8 expressie data.
  • In deze studie kan dit echter niet worden verantwoord
  • Later in de lessen laten we zien hoe je goed met alle data omgaat.
brca %>%
  ggplot(aes(x="", y=S100A8)) +
  geom_boxplot() +
  xlab("") +
  ylab("S100A8 expressie")


library(GGally)
brcaSubset <- brca %>%
  filter(S100A8<2000)
brcaSubset[,-(1:4)] %>% ggpairs()

1.1 Associatie tussen ESR1 en S100A8 expressie

  • ESR1 in ± 75% van borstkankertumoren.

    • Expressie van ER-gen positief voor behandeling: tumor reageert op hormoontherapie
    • Tamoxifen interageert met ER en moduleert genexpressie.
  • Eiwitten van de S100-familie zijn vaak gedisreguleerd bij kanker

  • S100A8 expressie onderdrukt immuunsysteem in tumor en creëert inflamatoir milieu die kankergroei promoot.

  • Interesse in associatie tussen ESR1 en S100A8 expressie.

  1. pipe dataset naar ggplot
  2. selecteer data ggplot(aes(x=ESR1,y=S100A8))
  3. voeg punten toe met geom_point()
  4. voeg een “smooth line” toe geom_smooth()
brcaSubset %>%
  ggplot(aes(x=ESR1,y=S100A8)) +
  geom_point() +
  geom_smooth()

2 Lineaire Regressie

  • Statistische methode om relatie tussen 2 reeksen observaties (Xi,Yi), bekomen voor onafhankelijke subjecten i=1,...,n, te beschrijven.

  • Gen expressie voorbeeld

    • Response Y : S100A8 expressie
    • Predictor X: ESR1 expressie
  1. pipe dataset naar ggplot
  2. selecteer data ggplot(aes(x=ESR1,y=S100A8))
  3. voeg punten toe met geom_point()
  4. voeg een “smooth line” toe geom_smooth()
  5. voeg een rechte toe geom_smooth() met method = "lm" (linear model). (We zetten se = FALSE om geen puntgewijze betrouwbaarheidsintervallen weer te geven)
brcaSubset %>%
  ggplot(aes(x = ESR1,y = S100A8)) +
  geom_point() +
  geom_smooth(se = FALSE, col = "grey") +
  geom_smooth(method = "lm", se = FALSE)

2.1 Model

  • Voor vaste X, heeft Y niet noodzakelijke dezelfde waarde

observation = signal + noise

Yi=g(Xi)+ϵi

  • We definiëren g(x) als het verwachte resultaat voor subjects met Xi=x

E[Yi|Xi=x]=g(x)

Daarom is ϵi gemiddeld 0 voor subjects met dezelfde Xi: E[ϵi|Xi]=0

2.2 Lineaire regressie

  • Om accurate en interpreteerbare resultaten te bekomen, kiest men g(x) vaak als een lineaire functie met ongekende parameters.

E(Y|X=x)=β0+β1x

onbekend intercept β0 en helling β1.

  • Lineair model legt een assumptie op de verdeling van X en Y, die incorrect kan zijn.

  • Efficiënte data-analyse: benut alle observaties om iets te leren over verwachte uitkomst bij X=x.

2.3 Gebruik

  • Predictie: wanneer Y ongekend is, maar X wel, kunnen we Y voorspellen op basis van X E(Y|X=x)=β0+β1x

  • Associatie: biologische relatie tussen variabele X en continue meting Y beschrijven.

  • Intercept: E(Y|X=0)=β0

  • Slope: E(Y|X=x+δ)E(Y|X=x)=β0+β1(x+δ)β0β1x=β1δ

β1: verschil in gemiddelde uitkomst voor subjecten die verschillen in één eenheid van de predictor X.

3 Parameterschatting

    • Kleinste kwadraten techniek (Least squares)
brcaSubset %>%
  ggplot(aes(x = ESR1, y = S100A8)) +
  geom_point() +
  geom_smooth(se = FALSE, col = "grey") +
  geom_smooth(method = "lm", se = FALSE)

  • Parameters β0 en β1 zijn ongekend

  • Parameters schatten op basis van beperkte steekproef

  • Best passende lijn

    • Punt op regressielijn voor een gegeven xi: (xi,β0+β1xi) zo dicht mogelijk bij (xi,yi)
    • Kies β0 en β1 zodat de som tussen voorspelde en waargenomen punten zo klein mogelijk wordt.

SSE=ni=1(yiβ0β1xi)2=ni=1e2i

  • Met ei de residuen: de verticale afstanden van de observaties tot de gefitte regressierechte

3.1 Schatters die SSE minimaliseren

^β1=ni=1(yiˉy)(xiˉx)ni=1(xiˉxi)2=cor(x,y)sysx

^β0=ˉyˆβ1ˉx

  • Merk op dat de helling van de kleinste kwadratenlijn evenredig is met de correlatie tussen de uitkomst en de verklarende variabele.

Geschatte lineaire regressiemodel laat toe om:

  • verwachte uitkomst te voorspellen voor subjecten met een gegeven waarde x voor de predictor: E[Y|X=x]=ˆβ0+ˆβ1x

  • na te gaan hoeveel uitkomst gemiddeld verschilt tussen 2 groepen subjecten met een verschil van δ eenheden in de verklarende variabele:

E[Y|X=x+δ]E[Y|X=x]=ˆβ1δ

3.1.1 Borstkanker voorbeeld

lm1 <- lm(S100A8 ~ ESR1, brcaSubset)
summary(lm1)

Call:
lm(formula = S100A8 ~ ESR1, data = brcaSubset)

Residuals:
   Min     1Q Median     3Q    Max 
-95.43 -34.81  -6.79  34.23 145.21 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 208.47145   28.57207   7.296 7.56e-08 ***
ESR1         -0.05926    0.01212  -4.891 4.08e-05 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 59.91 on 27 degrees of freedom
Multiple R-squared:  0.4698,    Adjusted R-squared:  0.4502 
F-statistic: 23.93 on 1 and 27 DF,  p-value: 4.078e-05

E(Y|X=x)=208.470.059x

  • De verwachte S100A8-expressie is gemiddeld 59 eenheden lager voor patiënten met een ESR1-expressieniveau die 1000 eenheden hoger ligt.

  • Verwachte S100A8 expressieniveau voor patiënten met een ESR1 expressieniveau van 2000:
    208.470.059×2000=89.94

  • Verwachte S100A8 expressieniveau voor patiënten met een ESR1 expressieniveau van 4000:
    208.470.059×4000=28.58

  • Let op voor extrapolatie! (Veronderstelling van lineariteit kan men enkel nagaan binnen het bereik van de data).

4 Statistische besluitvorming (statistische inferentie)

Om besluiten te kunnen trekken over lineaire regressiemodel E(Y|X)=β0+β1X

moeten we weten:

  • Hoe de least squares parameter schatters variëren van steekproef tot steekproef, en

  • En hoe is dit onder de nulhypothese dat er geen associatie is tussen predictor en response

  • Noodzaak aan statistisch model!

  • Modelleer de verdeling van Y gegeven X expliciet: fY|X(y)

4.1 Modelleer verdeling van Y?

  1. Naast lineariteit hebben we nog aannames nodig!
  2. Onafhankelijkheid: waarnemingen (X1,Y1),...,(Xn,Yn) zijn gemaakt voor n onafhankelijke subjecten (Is vereist om de variantie te schatten)
  3. Homoscedasticiteit of gelijke varianties: waarnemingen variëren met gelijk gemiddelde rond de regressielijn.
    • Residuen ϵi hebben gelijke variantie voor elke Xi=x
    • var(Y|X=x)=σ2 voor elke X=x
    • σ wordt de residuele standaarddeviatie genoemd.
  4. Normaliteit: de residuen ϵi zijn normaal verdeeld

  • Uit 2, 3 en 4 volgt dat ϵi i.i.d.N(0,σ2).

  • Als we ook steunen op eerste veronderstelling van lineariteit: Yi|XiN(β0+β1Xi,σ2),

  • Verder kan men aantonen dat onder deze aannames σ2ˆβ0=ni=1X2ini=1(XiˉX)2×σ2n en σ2ˆβ1=σ2ni=1(XiˉX)2

  • en dat de parameterschatters eveneens normaal verdeeld zijn ˆβ0N(β0,σ2ˆβ0) en ˆβ1N(β1,σ2ˆβ1)

4.2 Hoge spreiding op X verbetert de precisie

σ2ˆβ1=σ2ni=1(XiˉX)2

  • Conditionele variantie (σ2) is niet gekend
  • Schatten d.m.v. gemiddelde van die kwadratische afwijkingen rond de regressierechte
  • mean squared error (MSE)

ˆσ2=MSE=ni=1(yiˆβ0ˆβ1×xi)2n2=ni=1e2in2. - Voor het bekomen van deze schatter steunen we op onafhankelijkheid (aanname 2) en homoscedasticiteit (aanname 3). - deel door n2

Na schatting van σ2 bekomen we volgende standaard errors:

SEˆβ0=ˆσˆβ0=ni=1X2ini=1(XiˉX)2×MSEn en SEˆβ1=ˆσˆβ1=MSEni=1(XiˉX)2

  • Opnieuw toetsen en betrouwbaarheidsintervallen o.b.v. T=ˆβkβkSE(ˆβk) with k=1,2.

  • Als aan alle aannames is voldaan volgt T een t-verdeling met n-2 vrijheidsgraden.

  • Als geen normaliteit maar wel onafhankelijk, lineariteit en homoscedasticiteit en grote dataset Centrale Limietstelling

4.2.1 Borstkanker voorbeeld

  • Negatieve associatie tussen S100A8 en ESR1 gen expressie.

  • Veralgemeen effect in steekproef naar populatie met behulp van het betrouwbaarheidsinterval op de helling: [ˆβ1tn2,α/2SEˆβ1,ˆβ1+tn2,α/2SEˆβ1].

confint(lm1)
                   2.5 %       97.5 %
(Intercept) 149.84639096 267.09649989
ESR1         -0.08412397  -0.03440378
  • Negatief verband is significant op het 5% significantieniveau.

4.3 Hypothese test

  • Vertaal de onderzoeksvraag “Is er een associatie tussen de S100A8- en ESR1-genexpressie?” naar de parameters in het model.

  • Onder nulhypothese geen associatie tussen expressie van beide genen: H0:β1=0

  • Onder alternatieve hypothese is er een associatie tussen beide genen: H1:β10

  • Test statistiek T=ˆβ10SE(ˆβk)

  • Onder H0 volgt de statistiek een t-verdeling met n-2 vrijheidsgraden.

4.3.1 Brca dataset

summary(lm1)

Call:
lm(formula = S100A8 ~ ESR1, data = brcaSubset)

Residuals:
   Min     1Q Median     3Q    Max 
-95.43 -34.81  -6.79  34.23 145.21 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 208.47145   28.57207   7.296 7.56e-08 ***
ESR1         -0.05926    0.01212  -4.891 4.08e-05 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 59.91 on 27 degrees of freedom
Multiple R-squared:  0.4698,    Adjusted R-squared:  0.4502 
F-statistic: 23.93 on 1 and 27 DF,  p-value: 4.078e-05
  • Associatie tussen de S100A8 en ESR1 genexpressie extreem significant is (p<<0.001).
  • Maar eerst moeten we alle assumpties controleren!
  • Anders kunnen de conclusies o.b.v. de statistische test en het BI onjuist zijn.

5 Nagaan van modelveronderstellingen

  • Onafhankelijkheid: design
  • Lineariteit: besluitvorming geen zin als model niet lineair is
  • Homoscedasticiteit: besluitvorming/p-waarde is niet betrouwbaar als de data niet homoscedastisch zijn
  • Normaliteit: besluitvorming/p-waarde is niet betrouwbaar als de data niet normaal verdeeld zijn in kleine steekproeven

5.1 Lineariteit

brcaSubset %>%
  ggplot(aes(x = ESR1, y = S100A8)) +
  geom_point() +
  geom_smooth(se = FALSE, col = "grey") +
  geom_smooth(method = "lm", se = FALSE)

5.2 Residuplots

  • Afwijkingen van lineariteit echter makkelijker opgespoord d.m.v. een residuplot. (Zeker als er later meer variabelen zijn in het lineaire model)

  • verklarende variabele of predicties ˆβ0+ˆβ1x op de X-as

  • de residuen op de Y-as ei=yiˆg(xi)=yiˆβ0ˆβ1×xi,

plot(lm1)

5.3 Homoscedasticiteit (gelijkheid van variantie)

  • Residuen en kwadratische residu’s dragen informatie over residuele variabiliteit.

  • Associatie met de verklarende variabelen indicatie van heteroscedasticiteit.

  • Scatterplot van of ei versus xi of predicties ˆβ0+ˆβ1xi.

  • Scatterplot van gestandardiseerd residu versus xi of predicties.

5.4 Normaliteit

  • Indien voldoende gegevens, schatters normaal verdeeld zelfs wanneer observaties niet Normaal verdeeld zijn: centrale limiet stelling

  • Wat ‘voldoende observaties’ zijn, hangt af van hoe goed de verdeling op de Normale lijkt.

  • Aanname is dat uitkomsten Normaal verdeeld zijn bij vaste waarden van de verklarende variabelen. Yi|XiN(β0+β1Xi,σ2)

  • QQ-plot van response Y is heel misleidend.

  • QQ-plot van de residuen ei

plot(lm1, which=2)

6 Afwijkingen van Modelveronderstellingen

  • Transformatie van onafhankelijke veranderlijke wijzigt de verdeling van Y bij gegeven X niet:

    • helpt niet om normaliteit of homoscedasticiteit te bekomen
    • helpt wel om lineariteit te bekomen wanneer er normaliteit en homoscedasticiteit is
    • Vaak ook hogere orde termen: X2, X3, … Yi=β0+β1Xi+β2X2i+...+ϵi
  • Transformatie van response Y kan helpen om normaliteit en homoscedasticiteit te bekomen.

    • (Y), log(Y), 1/Y, …

6.1 Borstkanker voorbeeld

Problemen met

  • heteroscedasticiteit

  • mogelijkse afwijking van normaliteit (scheefheid naar rechts)

  • negatieve concentratievoorspellingen die theoretisch niet mogelijk zijn

  • niet-lineairiteit

  • treedt veelal op bij concentratie en intensiteitsmetingen

  • Deze zijn vaak log-normaal verdeeld (normale verdeling na log-transformatie)

  • In Figuur 6.3 eveneens een soort exponentiële trend

  • In de genexpressie literatuur wordt veelal gebruik gemaak van log2 transformatie

  • gen-expressie op log-schaal proportionele verschillen op de originele schaal

brca %>%
  ggplot(aes(x = ESR1, y = S100A8)) +
  geom_point() +
  geom_smooth()

brca %>%
  ggplot(aes(
    x = ESR1 %>% log2,
    y = S100A8 %>% log2)
    ) +
  geom_point() +
  geom_smooth()

lm2<-lm(S100A8 %>% log2 ~ ESR1 %>% log2, brca)
plot(lm2)

summary(lm2)

Call:
lm(formula = S100A8 %>% log2 ~ ESR1 %>% log2, data = brca)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.94279 -0.66537  0.08124  0.68468  1.92714 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)     23.401      1.603   14.60 3.57e-15 ***
ESR1 %>% log2   -1.615      0.150  -10.76 8.07e-12 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.026 on 30 degrees of freedom
Multiple R-squared:  0.7942,    Adjusted R-squared:  0.7874 
F-statistic: 115.8 on 1 and 30 DF,  p-value: 8.07e-12
confint(lm2)
                  2.5 %    97.5 %
(Intercept)   20.128645 26.674023
ESR1 %>% log2 -1.921047 -1.308185

6.1.1 Interpretatie 1

Een patiënt met een ESR1 expressie die 1 eenheid op de log2 schaal hoger ligt dan dat van een andere patiënt heeft gemiddeld gezien een expressie-niveau van het S100A8 gen dat 1.61 eenheden lager ligt (95% BI [-1.92,-1.31]).

Crossectionele studie: enkel uitspraken over verschillen tussen patiënten!

log2ˆμ1=23.4011.615×logESR1, log2ˆμ2=23.4011.615×logESR2 log2ˆμ2log2ˆμ1=1.615(log2ESR2log2ESR1)=1.615×1=1.615

6.1.2 Interpretatie 2

Model op log-schaal: bij terugtransformatie verkrijgen we het geometrische gemiddelde

ni=1logxin=logx1++logxnn(1)=log(x1××xn)n=log(ni=1xi)n(2)=log(nni=1xi)

  • Populatiegemiddelden μ dus geschat a.d.h.v. geometrisch gemiddelden.
  • Logaritmische transformatie is een monotoon: we kunnen betrouwbaarheidsintervallen berekend op log-schaal terugtransformeren!
2^lm2$coef[2]
ESR1 %>% log2 
    0.3265519 
2^-lm2$coef[2]
ESR1 %>% log2 
       3.0623 
2^-confint(lm2)[2,]
   2.5 %   97.5 % 
3.786977 2.476298 

Een patiënt met een ESR1 expressie die 2 keer zo hoog is als die van een andere patiënt, zal gemiddeld een S100A8-expressie hebben die 3.06 keer lager is (95% BI [2.48,3.79]).

log2ˆμ1=23.4011.615×logESR1, log2ˆμ2=23.4011.615×logESR2 log2ˆμ2log2ˆμ1=1.615(log2ESR2log2ESR1) log2[ˆμ2ˆμ1]=1.615log2[ESR2ESR1] ˆμ2ˆμ1=[ESR2ESR1]1.615=21.615=0.326 or ˆμ1ˆμ2=21.615=3.06

6.1.3 Interpratie 3

Een patiënt met een ESR1 expressie die 1% hoger is dan die van een andere patiënt zal gemiddeld een expressieniveau voor het S100A8 gen hebben dat ongeveer -1.61% lager is (95% BI [-1.92,-1.31])%.

log2ˆμ1=23.4011.615×logESR1, log2ˆμ2=23.4011.615×logESR2 log2ˆμ2^log2μ1=1.615(log2ESR2log2ESR1) log2[ˆμ2ˆμ1]=1.615log2[ESR2ESR1] ˆμ2ˆμ1=[ESR2ESR1]1.615=1.011.615=0.9841.6%

Dit geldt voor lage tot matige waarden van β1: 10<β1<101.01β11β1100.

7 Besluitvorming over gemiddelde uitkomst

  • Regressie model kan ook worden gebruikt voor predictie

  • Besluitvorming te doen over de gemiddelde uitkomst bij een gegeven waarde x, m.a.w. ˆg(x)=ˆβ0+ˆβ1x

  • ˆg(x) een schatter van het conditionele gemiddelde E[Y|X=x]

  • Parameterschatters Normale verdeeld en onvertekend schatter ˆg(x) ook Normaal verdeeld en onvertekend.

SEˆg(x)=MSE{1n+(xˉX)2ni=1(XiˉX)2}.

T=ˆg(x)g(x)SEˆg(x)tn2

  • Gemiddelde uitkomst en betrouwbaarheidsintervallen op de gemiddelde uitkomst in R via de predict(.) functie.
  • newdata argument: predictorwaarden (x-waarden) voor het berekenen van gemiddelde uitkomsten
  • interval="confidence" argument om betrouwbaarheidsintervallen te bekomen.
  • Zonder newdata argument wordt de gemiddelde uitkomsten berekend voor alle predictorwaarden van de dataset.
grid <- 140:4000
g <- predict(
  lm2,
  newdata = data.frame(ESR1 = grid),
  interval = "confidence")
head(g)
       fit      lwr      upr
1 11.89028 10.76082 13.01974
2 11.87370 10.74721 13.00019
3 11.85724 10.73370 12.98078
4 11.84089 10.72028 12.96151
5 11.82466 10.70696 12.94237
6 11.80854 10.69372 12.92336

Merk op dat we de nieuwe data die we gespecificeerd hebben voor de ESR1 expressie niet moeten transformeren omdat we het model fitten met de lmfunctie en de transformatie hebben gespecificeerd binnen die functie met behulp van het pipe commando!

brca %>% ggplot(
  aes(
    x = ESR1 %>% log2,
    y = S100A8 %>% log2)
  ) +
  geom_point() +
  geom_smooth(method = "lm")

7.1 Terugtransformatie

newdata<-data.frame(cbind(grid,2^g))
brca %>%
  ggplot(aes(x = ESR1, y = S100A8)) +
  geom_point() +
  geom_line(aes(x=grid,y=fit),newdata) +
  geom_line(aes(x=grid,y=lwr),newdata,color="grey") +
  geom_line(aes(x=grid,y=upr),newdata,color="grey")

8 Predictie-intervallen

-We kunnen ook een voorspelling doen voor de locatie van een nieuwe waarneming die zou worden verzameld in een nieuw experiment voor een patiënt met een bepaalde waarde voor hun ESR1-expressie

  • Het is belangrijk op te merken dat dit experiment nog moet worden uitgevoerd. We willen dus de niet-waargenomen individuele expressiewaarde voor een nieuwe patiënt voorspellen.

  • Voor een nieuwe onafhankelijke waarneming Y Y=g(x)+ϵ met ϵN(0,σ2) en ϵ onafhankelijk van de waarnemingen in de steekproef Y1,,Yn.

  • We voorspellen een nieuwe log-S100A8 voor een patiënt met een gekend log2-ESR1-expressieniveau x ˆy(x)=ˆβ0+ˆβ1×x

  • De geschatte gemiddelde uitkomst en voorspelling voor een nieuwe waarneming zijn gelijk.

  • Maar hun steekproef verdelingen zijn anders!

    • Onzekerheid over de geschatte gemiddelde uitkomst onzekerheid over de geschatte modelparameters ˆβ0 en ˆβ1.
    • Onzekerheid over nieuwe waarneming onzekerheid over geschat gemiddelde en extra onzekerheid omdat de nieuwe waarneming zal afwijken rond het gemiddelde!

SEˆY(x)=ˆσ2+ˆσ2ˆg(x)=MSE{1+1n+(xˉX)2ni=1(XiˉX)2}.

ˆY(x)YSEˆY(x)tn2

  • Merk op dat een predictie-interval (PI) een verbeterde versie is van een referentie-interval wanneer de modelparameters onbekend zijn: onzekerheid over modelparameters + t-verdeling.
p <- predict(
  lm2,
  newdata = data.frame(ESR1 = grid),
  interval="prediction")

head(p)
       fit      lwr      upr
1 11.89028 9.510524 14.27004
2 11.87370 9.495354 14.25205
3 11.85724 9.480288 14.23419
4 11.84089 9.465324 14.21646
5 11.82466 9.450461 14.19886
6 11.80854 9.435698 14.18138
preddata<-data.frame(
  grid = grid%>%log2,
  p)
brca %>% ggplot(aes(x=ESR1%>%log2,y=S100A8%>%log2)) +
  geom_point() +
  geom_smooth(method="lm") +
     geom_line(aes(x=grid,y=lwr),preddata,color="blue") +
  geom_line(aes(x=grid,y=upr),preddata,color="blue")

preddata<-data.frame(cbind(grid,2^p))
brca %>% ggplot(aes(x = ESR1, y = S100A8)) +
  geom_point() +
  geom_line(
    aes(x = grid,y = fit),
    newdata) +
  geom_line(
    aes(x = grid, y = lwr),
    newdata,
    color = "grey") +
  geom_line(
    aes(x = grid, y = upr),
    newdata,
    color = "grey") +
  geom_line(
    aes(x = grid, y = lwr),
    preddata,
    color = "blue") +
  geom_line(
    aes(x = grid,y = upr),
    preddata,
    color = "blue")

8.1 NHANES voorbeeld

  • Vergelijk referentie-interval voor cholesterolgehalte met predictie interval.

  • Referentie-interval

library(NHANES)
fem <- NHANES %>%
  filter(Gender=="female"&!is.na(DirectChol))

2^(
  fem %>%
  pull(DirectChol) %>%
  log2 %>%
  mean +
    c(-1,1) *
    qnorm(0.975) *
    (fem %>%
      pull(DirectChol) %>%
      log2 %>%
      sd)
  )
[1] 0.8361311 2.4397130
  • Predictie interval
lmChol <- lm(DirectChol %>% log2 ~ 1, data=fem)
predInt <- predict(
  lmChol,
  interval="prediction",
  newdata=data.frame(noPred=1)
  )
round(2^predInt,2)
   fit  lwr  upr
1 1.43 0.84 2.44

Merk op dat het voorspellingsinterval bijna gelijk is aan het referentie-interval voor de grote steekproef. We konden de parameters inderdaad heel precies schatten.

We zullen hetzelfde doen voor een kleine steekproef van 10 patiënten.

  • Referentie interval
set.seed(1)
fem10 <- NHANES %>%
  filter(Gender=="female"&!is.na(DirectChol)) %>%
  sample_n(size=10)

2^(
  fem10 %>%
    pull(DirectChol) %>%
    log2 %>%
    mean +
      c(-1,1) *
      qnorm(0.975) *
      (fem10 %>%
        pull(DirectChol) %>%
        log2 %>%
        sd)
  )
[1] 0.8976012 2.2571645

Het referentie-interval is veel smaller dan in de grote steekproef.

  • Predictie interval
lmChol10 <- lm(DirectChol %>% log2 ~ 1, data = fem10)
predInt10 <- predict(
  lmChol10,
  interval = "prediction",
  newdata = data.frame(noPred=1)
  )
round(2^predInt10, 2)
   fit  lwr  upr
1 1.42 0.81 2.49
  • Merk op dat het PI nu onzekerheid meeneemt in parameterschatters (gemiddelde en standaard error). En dat het interval veel breder wordt! Dit is hier vooral belangrijk voor de bovengrens omdat we de gegevens terug hebben getransformeerd!

  • Het interval is bijna net zo breed als dat gebaseerd op de grote steekproef.

  • Bij kleine steekproeven is het erg belangrijk om met deze extra onzekerheid rekening te houden.

9 Kwadratensommen en Anova-tabel

9.1 Totale kwadratensom

SSTot=ni=1(YiˉY)2.

  • SStot kan worden gebruikt om de variantie van de marginale verdeling van de respons te schatten.

  • In dit hoofdstuk hebben we ons gefocused op de conditionele verdeling f(Y|X=x).

  • We weten dat MSE een goede schatting is van de variantie van de conditionele verdeling van Y|X=x.

9.2 Kwadratensom van de regressie SSR

SSR=ni=1(ˆYiˉY)2=ni=1(ˆg(xi)ˉY)2.

  • Maat voor de afwijking tussen de predicties op de geschatte regressierechte en het steekproefgemiddelde van de uitkomsten.

  • Een andere interpretatie: verschil tussen twee modellen

    • Geschatte model ˆg(x)=ˆβ0+ˆβ1x
    • Geschatte model zonder predictor (enkel intercept): g(x)=β0 β0 zal gelijk zijn aan ˉY.
  • SSR meet de grootte van het effect van de predictor

9.3 Kwadratensom van de fouten

SSE=ni=1(YiˆYi)2=ni=1{Yiˆg(xi)}2.

  • Hoe kleiner de SSE, hoe beter het model fit.

  • Kleinste kwadraten techniek!


We kunnen aantonen dat SST kan worden ontbonden in SSTot=ni=1(YiˉY)2=ni=1(YiˆYi+ˆYiˉY)2=ni=1(YiˆYi)2+ni=1(ˆYiˉY)2=SSE +SSR

  • De totale variabiliteit in de gegevens (SSTot) wordt gedeeltelijk verklaard door het regressieverband (SSR).
  • Variabiliteit die we niet kunnen verklaren met het regressiemodel is de residuele variabiliteit (SSE).

9.4 Determinatie-coëfficiënt

R2=1SSESSTot=SSRSSTot.

  • Fractie van de totale variabiliteit in de steekproef-uitkomsten die verklaard wordt door het geschatte regressieverband.

  • Grote R2 indicatie dat model potentieel tot goede predicties kan leiden (kleine SSE)

  • Slechts in beperkte mate indicatief voor de p-waarde van de test H0:β1=0 vs H1:β10.

    • p-waarde sterk beïnvloed door SSE en steekproefgrootte n, maar niet door SSTot
    • De determinatiecoëfficiënt R2 wordt door SSE en SSTot bepaald, maar niet door de steekproefgrootte n.
  • Model met lage R2 blijft wel nuttig om associatie te bestuderen, zolang het de associatie correct modelleert!

9.4.1 Borstkanker voorbeeld

summary(lm2)

Call:
lm(formula = S100A8 %>% log2 ~ ESR1 %>% log2, data = brca)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.94279 -0.66537  0.08124  0.68468  1.92714 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)     23.401      1.603   14.60 3.57e-15 ***
ESR1 %>% log2   -1.615      0.150  -10.76 8.07e-12 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.026 on 30 degrees of freedom
Multiple R-squared:  0.7942,    Adjusted R-squared:  0.7874 
F-statistic: 115.8 on 1 and 30 DF,  p-value: 8.07e-12

9.5 F-Testen in het enkelvoudig lineair regressiemodel

  • Kwadratensommen zijn basis voor F-tests F=MSRMSE

met MSR=SSR1 and MSE=SSEn2.

  • MSR wordt de gemiddelde kwadratensom van de regressie genoemd.

  • noemers 1 en n2 zijn de vrijheidsgraden van SSR en SSE.

  • onder H0:β1=0 volgt de teststatistiek H0:F=MSRMSEF1,n2,

  • F-test is altijd twee-zijdig! H1:β10 p=P0[Ff]=1FF(f;1,n2)

summary(lm2)

Call:
lm(formula = S100A8 %>% log2 ~ ESR1 %>% log2, data = brca)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.94279 -0.66537  0.08124  0.68468  1.92714 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)     23.401      1.603   14.60 3.57e-15 ***
ESR1 %>% log2   -1.615      0.150  -10.76 8.07e-12 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.026 on 30 degrees of freedom
Multiple R-squared:  0.7942,    Adjusted R-squared:  0.7874 
F-statistic: 115.8 on 1 and 30 DF,  p-value: 8.07e-12

9.6 Anova Tabel

Df Sum Sq Mean Sq F value Pr(>F)
Regressie vrijheidsgraden SSR SSR MSR f-statistiek p-waarde
Error vrijheidsgraden SSE SSE MSE
anova(lm2)
Analysis of Variance Table

Response: S100A8 %>% log2
              Df  Sum Sq Mean Sq F value   Pr(>F)    
ESR1 %>% log2  1 121.814 121.814   115.8 8.07e-12 ***
Residuals     30  31.559   1.052                     
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

10 Dummy variabelen

  • Lineaire regressiemodel voor het vergelijken van twee gemiddelden.

  • Borstkanker: verschil is in gemiddelde leeftijd van de patiënten met onaangetaste lymfeknopen en patiënten waarvan lymfeknopen werden verwijderd.

  • Hiervoor definiëren we eerst een dummy variabele xi={1aangetaste lymfeknopen0onaangetaste lymfeknopen

  • groep met xi=0 wordt de referentiegroep genoemd.

  • Het regressiemodel blijft ongewijzigd, Yi=β0+β1xi+ϵi met ϵi iid N(0,σ2)

Gezien xi slechts twee waarden kan aannemen, is het eenvoudig om het regressiemodel voor beide waarden van xi afzonderlijk te bekijken: Yi=β0+ϵionaangetaste lymfeknopen(xi=0)Yi=β0+β1+ϵi aangetaste lymfeknopen(xi=1).

Dus E[Yixi=0]=β0E[Yixi=1]=β0+β1,

waaruit direct de interpretatie van β1 volgt: β1=E[Yixi=1]E[Yixi=0]

β1 is dus het gemiddelde verschil in leeftijd tussen patiënten met aangetaste lymfeknopen en patiënten met onaangetaste lymfeknopen (referentiegroep).

Met de notatie μ0=E[Yixi=0] en μ1=E[Yixi=1] wordt dit β1=μ1μ0.

Er kan aangetoond worden dat ˆβ0=ˉY1 (steekproefgemiddelde in referentiegroep)ˆβ1=ˉY2ˉY1(schatter van effectgrootte)MSE=S2p.

De testen voor H0:β1=0 vs. H1:β10 kunnen gebruikt worden voor het testen van de nulhypothese van de two-sample t-test, H0:μ1=μ2 t.o.v. H1:μ1μ2.

brca$node <- as.factor(brca$node)
t.test(age~node,brca,var.equal=TRUE)

    Two Sample t-test

data:  age by node
t = -2.7988, df = 30, p-value = 0.008879
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -15.791307  -2.467802
sample estimates:
mean in group 0 mean in group 1 
       59.94737        69.07692 
lm3 <- lm(age~node, brca)
summary(lm3)

Call:
lm(formula = age ~ node, data = brca)

Residuals:
     Min       1Q   Median       3Q      Max 
-19.9474  -5.3269   0.0526   5.3026  18.0526 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   59.947      2.079  28.834  < 2e-16 ***
node1          9.130      3.262   2.799  0.00888 ** 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 9.063 on 30 degrees of freedom
Multiple R-squared:  0.207, Adjusted R-squared:  0.1806 
F-statistic: 7.833 on 1 and 30 DF,  p-value: 0.008879
plot(lm3)

brca %>%
  ggplot(
    aes(
      x = node %>%
        as.factor,
      y = age)
      ) +
  geom_boxplot()

  1. Simulate 9 datasets with the same number of observations as the brca dataset from a normal distribution with the same standard deviation as in the original data. Store the data of all simulations in a data frame
  2. Plot the simulated data using the ggplot function
  3. Add a boxplot layer
  4. Use facet_wrap to make a separate plot for simulated dataset
  5. Change label of y-axis
set.seed(354)
sim_df <- data.frame(
  node = rep(brca$node, 9),
  iid = rnorm(9 * nrow(brca), sd = sigma(lm3)),
  sim = rep(1:9, each = 32)
  )
sim_df %>%
  ggplot(aes(x = node, y=iid)) +
  geom_boxplot() +
  facet_wrap(.~sim) +
  ylab(paste0("iid N(0,",round(sigma(lm3)^2,2),")"))

10.1 Observationele study

  • We kunnen echter niet besluiten dat oudere personen een hoger risico hebben op aantasting van de lymfeknopen ten gevolge van hun leeftijd.

  • Mogelijks confounding: geen randomisatie groepen patiënten met aangetaste lymfeknopen en niet-aangetaste lymfeknopen kunnen nog in andere karateristieken van elkaar verschillen.

  • Enkel besluiten dat er een associatie is tussen de lymfeknoop status en de leeftijd.

  • Het is dus niet noodzakelijkerwijs een causaal verband!


  • Is ook zo voor lineair model voor de log2-S100A8-expressie.

  • Aangezien we de ESR1-expressie niet experimenteel vast hebben kunnen leggen, kunnen we niet besluiten dat een hogere ESR1-expressie de S100A8-expressie doet verlagen.

  • Enkel besluiten dat er een negatieve associatie is.

  • Om impact van gen te bestuderen op andere genen: knockout mutanten generenen in het labo


