PC-les 4: Enkelvoudige lineaire regressie

Enkelvoudige lineaire regressie met een continue predictor: log-transformatie

Herinner u de opgave van de gezamelijke oefeningenles:

Bij 96 vissen (dojovissen, goudvissen en zebravissen) werd de resistentie tegen het vergif EI-43,064 getest door elke vis individueel in een vat met 2 liter water en een bepaalde dosis (in mg) van het vergif te steken. Naast de overlevingstijd in minuten (de uitkomst, minsurv) werd ook het gewicht van de vis gemeten (in gram).

In deze aparte oefeningenles gaan we verder in op de onderzoeksvraag: “Wat is de associatie tussen dosis en overlevingstijd?” In de gezamelijke oefeningenles zagen we immers dat de residuen geen normale verdeling volgen en ook assumptie van homoscedasticiteit geschonden is. In deze les zullen we beroep doen op een (log-)transformatie van de afhankelijke variabele om toch aan deze assumpties te voldoen.

Lees de dataset poison.dat opnieuw in via read.table. Verander de directory naar de folder waarin je de poision.dat file hebt opgeslaan.

poison <- read.table("/Users/koenvandenberge/Dropbox/PhD/Onderwijs/Statistiek Biochemie/201819/dropboxStats1819/class4/full/poison.dat", sep = "", header = TRUE)
#We gebruiken de volgende variabelen:
soort <- poison$soort
gewicht <- poison$gewicht
dosis <- poison$dosis
minsurv <- poison$minsurv

1. Waarom een log-transformatie?

Herinner u: bij het model van vorige les hadden de residuen een korte linkse staart en een lagen rechtse staart.

model1 <- lm(minsurv~dosis) 
qqnorm(resid(model1))
qqline(resid(model1))

Een log-transformatie maakt grote waarden heel veel kleiner terwijl kleine waarden slechts een beetje kleiner zullen worden. Een log-transformatie heeft dus het potentieel om verdelingen die scheef naar rechts zijn meer symmetrisch te maken. Dit zie je ook wanneer je een histogram maakt van de uitkomstvariabele voor en na logtransformatie.

hist(minsurv, main="Histogram van de overlevingstijd")

#Log-transformatie van de afhankelijke variabele minsurv
log.minsurv <- log(minsurv)
hist(log.minsurv, main="Histogram van de log-overlevingstijd")

Herinner u ook de plot van de vierkantswortel van de absolute waarde van de residuen i.f.v. de gefitte waarden. Hieruit besloten we dat de variantie toeneemt naarmate de geschatte uitkomstvariabele groter wordt.

plot(fitted(model1),sqrt(abs(resid(model1))))
lines(lowess(x=fitted(model1),y=sqrt(abs(resid(model1)))),col="red")

Dit is een extra indicatie dat een log-transformatie zinvol kan zijn: een logtransformatie zal een additieve errorstructuur omzetten naar een multiplicatieve structuur.

2. Voer een log-transformatie uit van de afhankelijke variabele en voer een lineaire-regressieanalyse uit voor de getransformeerde variabele.

#Log-transformatie van de afhankelijke variabele minsurv
log.minsurv <- log(minsurv)
#fit een lineair regressiemodel met 'log-minsurv' als afhankelijke en 'dosis' als onafhankelijke variabele
logModel <- lm(log.minsurv~dosis)
logModel

Call:
lm(formula = log.minsurv ~ dosis)

Coefficients:
(Intercept)        dosis  
     2.1046      -0.5112  

Merk op dat de functie log in R het natuurlijk logaritme (d.w.z. het logaritme met grondtal \(e\)) berekent. Om een logaritme met een ander grondtal te berekenen, kan je het argument base = ... gebruiken. De volgende code berekent het logaritme van 100 met grondtal 10.

log(100, base=10)
[1] 2

3. Ga zelf na of de voorwaarden voor lineaire regressie nu wel voldaan zijn.

par(mfrow=c(2,2))
plot(logModel)

  1. Onafhankelijkheid

Idem als voordien: als je ervan uitgaat dat de randomisatie correct gebeurde en het selecteren van de vissen willekeurig gebeurde, kun je in principe onafhankelijkheid aannemen omdat bij een goede randomisatie observaties onafhankelijk van elkaar worden gemeten.

  1. Lineariteit

Lineariteit gaan we na op basis van de “Residuals vs Fitted” plot. Deze toont de waarden van de residuen in functie van de door het model gefitte waarden. Hier lijkt goed aan de lineariteitsassumptie voldaan te zijn, aangezien de residuen mooi rond nul verdeeld zijn over heel het bereik van de gefitte waarden. De smoother ligt daarom ook dicht rond de nul-lijn zonder duidelijke trends.

  1. Normaal verdeelde residuen

Hiervoor kijken we naar de QQ-plot. De residuen lijken niet sterk af te wijken van wat men zou verwachten als ze normaal verdeeld zouden zijn (de percentielen van de residuen komen goed overeen met de percentielen die men verwacht op basis van de normale verdeling). De iets kortere linkse staart is niet van die aard dat we ons zorgen zouden moeten maken over schendingen van normaliteit. De normaliteitsassuptie lijkt dus voldaan.

  1. Homoscedasticiteit

Hiervoor kijken we naar de plot die de gefitte waarden uitzet in functie van de vierkantswortel van de absolute waarde van de gestandaardiseerde residuen. Als de data homoscedastisch is, dan zal het gemiddelde van de absolute waarde van de gestandaardiseerde residuen altijd rond dezelfde waarde liggen, onafhankelijk van de gefitte waarde. Een smoother door de puntenwolk zal dan vrijwel horizontaal zijn en geen duidelijke trends vertonen. Er is geen patroon te zien wanneer de vierkantswortel van de gestandaardiseerde residuen wordt uitgezet in functie van de gefitte waarden. Onze smoother loopt dan ook vrijwel horizontaal, de zeer beperkte stijging is niet van die aard dat we ons zorgen moeten maken over de homoscedasticiteitsassumptie. De assumptie van homoscedasticiteit lijkt dus voldaan.

Besluit: al onze assumpties lijken voldaan te zijn. We gaan dus een correcte inferentie kunnen doen op basis van dit model.

4. Geef de nul- en alternatieve hypothese voor de t-test in de modeloutput die geassocieerd is met het dosis-effect enerzijds en de nul- en alternatieve hypothese voor de t-test in de modeloutput die geassocieerd is met het intercept anderzijds.

Nulhypothese voor het dosiseffect: er is geen verband tussen de dosis vergif die dojovissen, goudvissen en zebravissen toegediend kregen en het gemiddeld logaritme van hun overlevingstijd.

Alternatieve hypothese voor het dosiseffect: er is een lineair effect van de dosis vergif op het gemiddeld logaritme van hun overlevingstijd in minuten van dojovissen, goudvissen en zebravissen.

Nulhypothese voor het intercept: het gemiddeld logaritme van de overlevingstijd in minuten voor dojovissen, goudvissen en zebravissen die geen vergif toegediend kregen is gelijk aan 0.

Alternatieve hypothese voor het intercept: het gemiddeld logaritme van de overlevingstijd in minuten voor dojovissen, goudvissen en zebravissen die geen vergif toegediend kregen is niet gelijk aan 0.

5. Interpretatie van het dosis-effect voor het model met een log-getransformeerde uitkomstvariabele.

1. Interpretatie op de schaal van getransformeerde waarden:

\(\widehat{log(minsurv_i)} = \hat{\beta_0} + \hat{\beta_1} dosis_i\)

\(\widehat{log(minsurv_i)} = 2.105 - 0.5112*dosis_i\)

Interpretatie: als de dosis met 1 miligram stijgt, dan daalt het gemiddelde van het natuurlijk logaritme van de overlevingstijd met 0.5112.

2. Interpretatie op de originele schaal:

Vanwege de transformatie modelleren we het gemiddelde van het logaritme van de responsvariabele, en interpreteer je de parameters in deze context, zoals hierboven. Als men de exponent neemt van de geschatte parameters, gelden ze in termen van het geometrisch gemiddelde van de responsvariabele op de originele schaal. Het geometrisch gemiddelde van \(Y\) is gelijk aan:

\(e^{rekenkundig\ gemiddelde(log(y_i))} = exp(\frac{\sum_{i=1}^n log(y_i)}{n}).\)

Opmerking: “exp(…)” betekent hetzelfde als “e^…”!

Zoals reeds aangehaald duidt de log-transformatie in de statistiek typisch op het natuurlijk logaritme (i.e. met basis gelijk aan \(e\) en niet met basis \(10\)). Op deze manier interpreteren we dan ook de parameters.

\(\widehat{minsurv}_i = exp(2.105 - 0.5112*dosis_i) = \frac{e^{2.105}}{e^{0.5112*{dosis}_i}}\) (we maakten gebruik van de rekenregel: \(e^{a-b} = e^a/e^b\))

Interpretatie: als de dosis van het vergif stijgt met één miligram, dan daalt het geometrisch gemiddelde van de overlevingstijd van dojovissen, goudvissen en zebravissen met een factor van \(e^{-0.5112} = 1/e^{0.5112} = 0.60\).

Doe het volgende zelfstandig om bovenstaande interpretatie te verduidelijken:

  • Bereken het verwachte geometrische gemiddelde van de overlevingstijd voor een dosis van 1 miligram.
exp(2.105 - 0.5112*1)
[1] 4.922419
  • Doe hetzelfde voor een dosis van 2 miligram.
exp(2.105 - 0.5112*2)
[1] 2.952346
  • Vergelijk deze waarden. Wat merk je op?

\(2.952346/4.922419 = 0.5997754 = 1/e^{0.5112} = 0.60\).

6. Probeer nu zelf eens een correcte en volledige interpretatie van het effect van de dosis op de verwachte uitkomst te geven, samen met zijn bijhorende 95%-betrouwbaarheidsinterval, zowel op de log-schaal als op de originele schaal.

Interpretatie op de log-schaal

summary(logModel)

Call:
lm(formula = log.minsurv ~ dosis)

Residuals:
     Min       1Q   Median       3Q 
-1.14507 -0.38506 -0.06518  0.37175 
     Max 
 1.09357 

Coefficients:
            Estimate Std. Error
(Intercept)   2.1046     0.2396
dosis        -0.5112     0.1509
            t value Pr(>|t|)    
(Intercept)   8.782 7.13e-14 ***
dosis        -3.387  0.00103 ** 
---
Signif. codes:  
  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’
  0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.5104 on 94 degrees of freedom
Multiple R-squared:  0.1088,    Adjusted R-squared:  0.0993 
F-statistic: 11.47 on 1 and 94 DF,  p-value: 0.001032
confint(logModel)
                2.5 %     97.5 %
(Intercept)  1.628792  2.5804330
dosis       -0.810830 -0.2115505

Interpretatie van de parameter dosis op de log-schaal:

Het gemiddeld logaritme van de overlevingstijd in minuten ligt 0,51 lager voor elke 1 mg vergif extra die wordt gegeven aan dojovissen, goudvissen en zebravissen (95%-betrouwbaarheidsinterval: 0,21 tot 0,81). Dit verschil is sterk significant op het 5%-significantnieniveau (p = 0,001).

Interpretatie van het 95%-betrouwbaarheidsinterval voor dosis op de log-schaal:

Met een waarschijnlijkheid van 95% bevat het interval van 0,21 tot 0,81 het werkelijke gemiddelde verschil in logaritme van de overlevingstijd in minuten tussen vissen die 1 mg vergif minder kregen en vissen wel een extra mg vergif kregen.

Interpretatie op de originele schaal

exp(summary(logModel)$coefficients[,"Estimate"])
(Intercept)       dosis 
  8.2039216   0.5997813 
exp(confint(logModel))
               2.5 %     97.5 %
(Intercept) 5.097711 13.2028535
dosis       0.444489  0.8093284

Interpretatie van de parameter dosis op de originele schaal:

Het geometrisch gemiddelde van de overlevingstijd in minuten ligt een factor 0,60 lager voor elke 1 mg vergif extra die wordt gegeven aan dojovissen, goudvissen en zebravissen (95%-betrouwbaarheidsinterval: 0,44 tot 0,81). Dit verschil is sterk significant op het 5%-significantnieniveau (p = 0,001).

Interpretatie van het 95%-betrouwbaarheidsinterval voor dosis op de originele schaal:

Met een waarschijnlijkheid van 95% bevat het interval van 0,44 tot 0,81 de werkelijke factor waarmee het geometrisch gemiddelde van de overlevingstijd in minuten afneemt tussen vissen die 1 mg vergif extra kregen en vissen geen extra mg vergif kregen.

Gegeven een model waarvan de uitkomstvariabele log-getransformeerd is, als ik u voor een bepaalde parameter een 95%-betrouwbaarheidsinterval op de originele schaal zou geven en u zou zeggen dat de p-waarde voor die parameter kleiner is dan 0,05, welke waarde ligt er dan met zekerheid NIET in het gegeven 95%-betrouwbaarheidsinterval?

De waarde 1. De nulhypothese van onze t-test veronderstelt dat de parameter op de log-schaal gelijk is aan nul. Aangezien p < 0,05, wordt de nulhypothese verworpen op het 5%-significantieniveau. Een 95%-betrouwbaarheidsinterval voor deze parameter op de log-schaal zal dus zeker niet de waarde 0 bevatten. Als we de parameter terugtransformeren, zal de waarde e^0 = 1 dus zeker niet in het gegeven interval liggen.

Merk ook op dat de betrouwbaarheidsintervallen op een geometrisch gemiddelde (dus na terugtransformatie) niet meer symmetrisch rond de geschatte parameterwaarde liggen!

7. Geef een correcte en volledige interpretatie van het intercept met zijn bijhorende 95%-betrouwbaarheidsinterval, zowel op de log-schaal als op de originele schaal

summary(logModel)

Call:
lm(formula = log.minsurv ~ dosis)

Residuals:
     Min       1Q   Median       3Q 
-1.14507 -0.38506 -0.06518  0.37175 
     Max 
 1.09357 

Coefficients:
            Estimate Std. Error
(Intercept)   2.1046     0.2396
dosis        -0.5112     0.1509
            t value Pr(>|t|)    
(Intercept)   8.782 7.13e-14 ***
dosis        -3.387  0.00103 ** 
---
Signif. codes:  
  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’
  0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.5104 on 94 degrees of freedom
Multiple R-squared:  0.1088,    Adjusted R-squared:  0.0993 
F-statistic: 11.47 on 1 and 94 DF,  p-value: 0.001032
confint(logModel)
                2.5 %     97.5 %
(Intercept)  1.628792  2.5804330
dosis       -0.810830 -0.2115505

Interpretatie op de log-schaal

Interpretatie van het intercept op de log-schaal:

Het gemiddeld logaritme van de overlevingstijd in minuten voor dojovissen, goudvissen en zebravissen die geen vergif toegediend kregen is gelijk aan 2,1 (95%-betrouwbaarheidsinterval: 1,62 tot 2,58). Dit is extreem significant verschillend van nul op het 5%-significantnieniveau (p = 7,13e-14).

Interpretatie van het 95%-betrouwbaarheidsinterval voor het intercept op de log-schaal:

Met een waarschijnlijkheid van 95% bevat het interval van 1,62 tot 2,58 het werkelijke gemiddelde logaritme van de overlevingstijd in minuten voor vissen die geen vergif toegediend kregen.

exp(confint(logModel))
               2.5 %     97.5 %
(Intercept) 5.097711 13.2028535
dosis       0.444489  0.8093284
exp(summary(logModel)$coefficients[,"Estimate"])
(Intercept)       dosis 
  8.2039216   0.5997813 

Interpretatie op de originele schaal

Interpretatie van het intercept op de originele schaal:

Het geometrisch gemiddelde van de overlevingstijd in minuten voor dojovissen, goudvissen en zebravissen die geen vergif toegediend kregen is gelijk aan 8,20 (95%-betrouwbaarheidsinterval: 5,10 tot 13,20). Dit verschil is extreem significant op het 5%-significantnieniveau (p = 7,13e-14).

Interpretatie van het 95%-betrouwbaarheidsinterval voor het intercept op de originele schaal:

Met een waarschijnlijkheid van 95% bevat het interval van 5,10 tot 13,20 het werkelijke geometrisch gemiddelde van de overlevingstijd in minuten voor vissen die geen vergif toegediend vergif kregen.

Is deze interpretatie van het intercept biologisch relevant?

Deze interpretatie is biologisch niet relevant omdat ze buiten het modelbereik valt.

range(dosis) #print de minimale en maximale waarde van de dosis-variabele
[1] 1.0 2.1

8. Schat het geometrisch gemiddelde van de overlevingstijd bij een dosis van 2 mg. Geef een bijhorend 95%-betrouwbaarheidsinterval.

2.1046 - 0.5112*2
[1] 1.0822
 
hulpdata<-data.frame(dosis = c(2))
# predictie op log-schaal: predict mean(log(y))
predict(logModel,hulpdata, interval="confidence") 
       fit       lwr      upr
1 1.082232 0.9122891 1.252174
# interval="c" duidt aan dat we een confidence interval willen verkrijgen.

Hoe interpreteren we dit 95% betrouwbaarheidsinterval?

Het gemiddelde logaritme van de overlevingstijd in minuten van dojovissen en goudvissen bij een dosis van 2 mg vergif bedraagt 1,08. Met een waarschijnlijkheid van 95% bevat het interval van 0,91 tot 1,25 het werkelijke gemiddelde logaritme van de overlevingstijd in minuten van vissen die 2 mg vergif toegediend kregen.

exp(2.1046 - 0.5112*2)
[1] 2.951165
exp(2.1046)/exp(0.5112*2)
[1] 2.951165
# geometrisch gemiddelde: exp(mean(log(y)))
exp(predict(logModel,hulpdata, interval="confidence")) 
       fit      lwr      upr
1 2.951259 2.490016 3.497941

Merk op dat \(e^{0.9122891}=2.490016\) en \(e^{1.252174}=3.497941\).

Hoe interpreteren we het 95% betrouwbaarheidsinterval na terugtransformatie?

Het geometrische gemiddelde van de overlevingstijd van dojovissen en goudvissen bij een dosis van 2 mg vergif bedraagt 2,95 minuten. Met een waarschijnlijkheid van 95% bevat het interval van 2,49 tot 3,50 het werkelijke geometrische gemiddelde van overlevingstijd in minuten van vissen die 2 mg vergif toegediend kregen.

9. Wat kunnen we besluiten uit de waarde voor de meervoudige correlatiecoëfficiënt? Deze waarde staat in de output van het lineaire regressiemodel (als u de “summary” opvraagt) bij “multiple R-Squared”.

summary(logModel)

Call:
lm(formula = log.minsurv ~ dosis)

Residuals:
     Min       1Q   Median       3Q 
-1.14507 -0.38506 -0.06518  0.37175 
     Max 
 1.09357 

Coefficients:
            Estimate Std. Error
(Intercept)   2.1046     0.2396
dosis        -0.5112     0.1509
            t value Pr(>|t|)    
(Intercept)   8.782 7.13e-14 ***
dosis        -3.387  0.00103 ** 
---
Signif. codes:  
  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’
  0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.5104 on 94 degrees of freedom
Multiple R-squared:  0.1088,    Adjusted R-squared:  0.0993 
F-statistic: 11.47 on 1 and 94 DF,  p-value: 0.001032

De predictorvariabele “dosis” slaagt erin om 10,88% van de totale variatie in de responsvariabele “logaritme van de overlevingstijd in minuten” te verklaren.

Intuïtief: de regressielijn capteert 10,88% van de totale variatie in het natuurlijk logaritme van de overlevingstijd in minuten.

10. Uitwerken van effectgroottes, standaardfouten, T-waarden en p-waarden

In dit laatste deel zullen we zelf de effectgroottes, standaardfouten, T-waarden en p-waarden van de parameters van het lineair regressiemodel berekenen.

Voor het effect van dosis

Op basis van hoofdstuk 5.3 van de cursus weten we dat:

\[\hat{\beta}_1 = \frac{\sum_{i=1}^{n}(y_i-\bar{y})(x_i-\bar{x})}{\sum_{i=1}^{n}(x_i-\bar{x})^2}\]

Voor ons voorbeeld:

\[\hat{\beta}_1 = \frac{\sum_{i=1}^{n}(log.minsurv_i-\overline{log.minsurv_i})(dosis_i-\overline{dosis})}{\sum_{i=1}^{n}(dosis_i-\overline{dosis})^2}\]

De grootte van het dosis-effect is dus gelijk aan:

beta1 = sum((log.minsurv-mean(log.minsurv))*(dosis-mean(dosis)))/sum((dosis-mean(dosis))^2)
beta1
[1] -0.5111903
summary(logModel)$coefficients["dosis","Estimate"]
[1] -0.5111903

De geschatte variantie op het dosis-effect kunnen we als volgt berekenen:

\[\hat{\sigma}^2_{\hat{\beta_1}} = \frac{\hat{\sigma}^2}{\sum_{i=1}^{n}(x_i-\bar{x})^2}\]

De geschatte standaardfout op \(\hat{\beta_1}\) is dus:

\[\hat{\sigma}_{\hat{\beta_1}} = \frac{\hat{\sigma}}{\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2}}\]

sigma_beta1 = sigma(logModel)/sqrt(sum((dosis-mean(dosis))^2))
summary(logModel)$coefficients["dosis","Std. Error"]
[1] 0.1509122

Onze geschatte t-waarde is simpelweg:

\[t = \frac{\hat{\beta}_1}{\hat{\sigma}_{\hat{\beta_1}}}\]

tval_beta1 = beta1/sigma_beta1
tval_beta1
[1] -3.387335
summary(logModel)$coefficients["dosis", "t value"]
[1] -3.387335

De p-waarde is de kans om een even extreem of nog extremer resultaat te observeren onder de nulhypothese als ons geveven resultaat -3.3873346. We weten dat als aan al onze assumpties voldaan is, de teststatistiek onder de nulhypothese (\(\beta_1 = 0\)) een t-verdeling volgt met “# observaties - 2” = 96 - 2 = 94 vrijheidsgraden.

De kans dat een t-verdeelde variabele met 94 vrijheidsgraden kleiner is dan -3.3873346 is gelijk aan:

pt(tval_beta1, df=94, lower.tail=TRUE)
[1] 0.0005160421

Aangezien we tweezijdig testen, moeten we hier ook de kans bij optellen dat onze t-verdeelde variabele groter is dan 3.3873346. Deze kans is gelijk aan:

pt(-tval_beta1, df=94, lower.tail=FALSE)
[1] 0.0005160421

De p-waarde is dus gelijk aan de kans dat een t-verdeelde toevalsveranderlijke extremer (d.w.z. groter dan 3.38 of kleiner dan -3.38) is:

pt(tval_beta1, df=94, lower.tail=TRUE)+pt(-tval_beta1, df=94, lower.tail=FALSE)
[1] 0.001032084

Aangezien een t-verdeling symmetrisch is, kan de p-waarde ook gewoon als volgt berekend worden:

pval_beta1 = 2*pt(-abs(tval_beta1), df=94, lower.tail=TRUE) #Met -abs(tval_beta1) nemen we de absolute waarde en maken de t-waarde dan negatief, zodat je onafhankelijk van het teken van de t-waarde altijd in de linkerstaart test.
pval_beta1
[1] 0.001032084
summary(logModel)$coefficients["dosis", "Pr(>|t|)"]
[1] 0.001032084

Voor het intercept

Op basis van hoofdstuk 5.3 van de cursus weten we dat:

\(\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}\)

Voor ons voorbeeld:

\(\hat{\beta}_0 = \overline{log.minsurv} - \hat{\beta}_1 \overline{dosis}\)

beta0 = mean(log.minsurv)-beta1*mean(dosis)
beta0
[1] 2.104612
summary(logModel)$coefficients["(Intercept)","Estimate"]
[1] 2.104612

De geschatte standaardfout op het intercept kunnen we als volgt berekenen:

\[\hat{\sigma}_{\hat{\beta_0}} = \hat{\sigma}*\sqrt{\frac{\sum_{i=1}^{n}(x_i)^2}{n*\sum_{i=1}^{n}(x_i-\bar{x})^2}}\]

sigma_beta0 <- sigma(logModel)*sqrt(sum(dosis^2)/(96*sum((dosis-mean(dosis))^2)))
sigma_beta0
[1] 0.239645
summary(logModel)$coefficients["(Intercept)","Std. Error"]
[1] 0.239645

Onze geschatte t-waarde is opnieuw:

\[t = \frac{\hat{\beta}_0}{\hat{\sigma}_{\hat{\beta_0}}}\]

tval_beta0 <- beta0/sigma_beta0
tval_beta0
[1] 8.78221
summary(logModel)$coefficients["(Intercept)", "t value"]
[1] 8.78221

Onze p-waarde berekenen we opnieuw als de kans dat een t-verdeelde variabele met 94 vrijheidsgraden nog extremer is dan 8.7822095:

pval_beta0 <- 2*pt(-abs(tval_beta0), df=94)
pval_beta0
[1] 7.127514e-14
summary(logModel)$coefficients["(Intercept)", "Pr(>|t|)"]
[1] 7.127514e-14
