Dataset - Onderzoeksvraag - Design?
Data-exploratie
prostate <- read_csv("https://raw.githubusercontent.com/statomics/sbc20/master/data/prostate.csv")
prostate <- prostate %>%
mutate(svi = as.factor(svi))
library(GGally)
prostate %>%
dplyr::select(-pgg45) %>%
ggpairs()

- Schatting voor parameter \(\beta_v\) mogelijks geen zuiver effect van tumor volume.
- Zelfs als lcavol niet is geassocieerd met het lpsa, dan nog kunnen patiënten met een groter tumor volume een hoger lpsa hebben omdat ze bijvoorbeeld een aantasting van de zaadblaasjes hebben (svi status 1). \(\rightarrow\) Confounding.
- Door de svi status in het model op te nemen corrigeren we voor de mogelijkse confounding.
Vertalen van onderzoeksvraag naar populatie parameters: effectgrootte
\[\text{E}\left(Y\vert X_v, X_w, X_s\right) = \beta_0 + \beta_v X_v + \beta_w X_w + \beta_s X_s\]
Schatten van effectgrootte a.d.h.v. steekproef
- Kleinste kwadratentechniek
lmV <- lm(lpsa~lcavol, prostate)
summary(lmV)
Call:
lm(formula = lpsa ~ lcavol, data = prostate)
Residuals:
Min 1Q Median 3Q Max
-1.67624 -0.41648 0.09859 0.50709 1.89672
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.50730 0.12194 12.36 <2e-16 ***
lcavol 0.71932 0.06819 10.55 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.7875 on 95 degrees of freedom
Multiple R-squared: 0.5394, Adjusted R-squared: 0.5346
F-statistic: 111.3 on 1 and 95 DF, p-value: < 2.2e-16
lmVWS <- lm(lpsa~lcavol + lweight + svi, prostate)
summary(lmVWS)
Call:
lm(formula = lpsa ~ lcavol + lweight + svi, data = prostate)
Residuals:
Min 1Q Median 3Q Max
-1.72966 -0.45767 0.02814 0.46404 1.57012
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.26807 0.54350 -0.493 0.62301
lcavol 0.55164 0.07467 7.388 6.3e-11 ***
lweight 0.50854 0.15017 3.386 0.00104 **
sviinvasion 0.66616 0.20978 3.176 0.00203 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.7168 on 93 degrees of freedom
Multiple R-squared: 0.6264, Adjusted R-squared: 0.6144
F-statistic: 51.99 on 3 and 93 DF, p-value: < 2.2e-16
De parameter bij lcavol geeft nu aan dat patiënten met een tumorvolume dat 1% hoger ligt, maar eenzelfde prostaat gewicht en svi status hebben, een prostaat antigeen concentratie zullen hebben dat gemiddeld slechts 0.55% hoger ligt.
De reden dat we eerder een verschil van meer dan 0.72% vonden, kan worden verklaard doordat patiënten met een verschil in tumorvolume vaak ook verschillen in prostaat gewicht en svi status en omdat prostaat gewicht en svi mogelijks ook een associatie vertonen met log PSA

Inferentie
Kunnen we hetgeen we zien in de steekproef vertalen naar de populatie toe?
Hiervoor moeten we rekening houden dat we maar een heel klein deel van de populatie hebben kunnen bemonsteren.
Gevens, statistieken en conclusies zijn stochastisch. Ze variëren van steekproef tot steekproef.
We moeten die variabiliteit in kunnen schatten o.b.v. één enkele steekproef!
Aannames?
Representatieve steekproef:
\(\hat\beta_j\) is een onvertekende schatter van \(\beta\) als steekproef representatief is
\[E[\hat \beta_j]=\beta_j\]
Normaliteit
\[Y_{i} \sim N(\mu_i,\sigma^2)\] \[Y_i \sim N(\beta_0+\beta_vx_{iv}+\beta_wx_{iw} + \beta_sx_{is},\sigma^2) \longrightarrow \hat \beta_j \sim N(\beta_j, \sigma^2_{\hat \beta_j})\]
en lineaire combinaties van de model parameterschatters zijn ook normaal verdeeld.
\[
\longrightarrow L^T\hat \beta \sim N(L^T\beta, \sigma^2_{L^T\hat{\boldsymbol{\beta}}})
\]
Onafhankelijkheid en gelijkheid van variantie
\[\sigma^2_{L^T\hat{\boldsymbol{\beta}}} = c_L \sigma^2 \]
\[\hat \sigma^2 = MSE = \sum\limits_{i=1} ^ n \frac{(Y_i - \hat Y_i)^2}{n-p}\]
\[SE_{L^T\hat{\boldsymbol{\beta}}} = c_L \hat \sigma \]
\[ T = \frac{L\hat{\boldsymbol{\beta}} - L\boldsymbol{\beta}}{\text{SE}_{L\hat{\boldsymbol{\beta}}}}
\sim t_{n-p}\]
BI en T-test \(H_0: L\boldsymbol{\beta} = 0\) vs \(H_1: L\boldsymbol{\beta} \neq 0\)
F statistiek volgt F-verdeling onder de \(H_0\) \[ F = \frac{MSR_2 - MSR_1}{MSE} \sim F_{p_2 - p_1,n-p_2}\]
R - output
library(car)
summary(lmVWS)
Call:
lm(formula = lpsa ~ lcavol + lweight + svi, data = prostate)
Residuals:
Min 1Q Median 3Q Max
-1.72966 -0.45767 0.02814 0.46404 1.57012
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.26807 0.54350 -0.493 0.62301
lcavol 0.55164 0.07467 7.388 6.3e-11 ***
lweight 0.50854 0.15017 3.386 0.00104 **
sviinvasion 0.66616 0.20978 3.176 0.00203 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.7168 on 93 degrees of freedom
Multiple R-squared: 0.6264, Adjusted R-squared: 0.6144
F-statistic: 51.99 on 3 and 93 DF, p-value: < 2.2e-16
Anova(lmVWS, type = "III")
Conclusie
De associaties tussen lpsa \(\leftrightarrow\) log kanker volume, lpsa \(\leftrightarrow\) log prostaat gewicht en lpsa \(\leftrightarrow\) status van de zaadblaasjes zijn respectievelijk extreem significant (\(p<<0.001\)) en sterk significant (\(p = 0.001\) en \(p = 0.002\)).
- interpretaties van de hellingen en BI!
Wat als aannames niet zijn voldaan?
- Normaliteit en heteroscedasticiteit niet voldaan: transformatie van Y
- Lineariteit niet voldaan: transformatie van X of hogere orde termen (interacties en machten \(X^2, X^3, ...\)).
- Normaliteit niet voldaan: bij grote steekproeven CLT
