1 Introductie

1.1 Proefopzet (1)

  • Scope: De onderzoeker bepaalt de populatie naar waar ze de resultaten van de studie wensen te veralgemenen.
  • FinanciĆ«le and logistieke beperkingen \(\rightarrow\) representatieve steekproef van de populatie: Randomisatie!

1.2 Data analysis (2 & 3)

  • Data-Exploratie en Beschrijvende Statistiek (2):

    • exploreren,
    • visualiseren,
    • samenvatten,
    • inzicht verwerven in de data,
    • aannames nagaan
  • Statistische Besluitvorming (3) (statistical inference):

  • Veralgemeen wat we observeren in de steekproef naar de populatie zodat we algemene conclusies kunnen trekken over het proces die we bestuderen.

  • Gebruik van statistische modellen voor data analyse en om onzekerheid te kwantificeren en te rapporteren.


1.3 Voorbeeld

  • National Health and Nutrition Examination Survey (NHANES)
  • Americaanse demografische studie
  • Groot aantal van fysieke, demografische, nutritionele, gezondheids karakteristieken
ID Gender Height BMI_WHO DirectChol SexNumPartnLife
51624 male 164.7 30.0_plus 1.29 8
51625 male 105.4 12.0_18.5 NA NA
51630 female 168.4 30.0_plus 1.16 10
51638 male 133.1 12.0_18.5 1.34 NA
51646 male 130.6 18.5_to_24.9 1.55 NA
51647 female 166.7 25.0_to_29.9 2.12 20

2 Variabelen

  • We meten variabelen op subjecten in een steekproef
  • Een Variabele is een karateristiek b.v. Lengte, Direct cholesterol, Age, Gender, ā€¦
  • Het varieert van subject tot subject in de populatie en is dus ook in de steekproef en tussen steekproeven.

2.1 Types van variabelen

  1. Kwalitatieve variabelen: een beperkt aantal categorieƫn, niet numeriek.
    • nominale variabelen: geen natuurlijke ordening, v.b. Gender, blood group, ā€¦
    • ordinale variabelen: ordening, v.b. BMI class, smoking status (1: never smoked, 2: stopped smoking, 3: smoker)
  2. Numerieke variabelen:
    • discrete variabelen: tellingen v.b. number of partners in life span, ā€¦

    • continue variabelen: kunnen (in theorie) elke mogelijke waarde aannemen binnen bepaalde grenzen v.b. Age, Height, Weight, BMI, Direct Cholestorolā€¦

    • Soms dichotomiseren naar een nominale kwalitatieve variabele \(\rightarrow\) informatieverlies: BMI \(\rightarrow\) BMI class


3 Populatie

  • Doel van wetenschappelijke studie: uitspraken doen over de algemene populatie.

  • V.b. nagaan of de lengte tussen mannen en vrouwen gemiddeld verschillend is.

  • Populatie is een theoretisch concept

    • Is meestal continu in verandering
    • Vaak ook interesse in toekomstige subjecten \(\rightarrow\) dus op bepaald ogenblik niet volledig observeerbaar
    • kan als oneindig groot worden beschouwd
  • Populatie duidelijk omschrijven!

3.1 Populatie duidelijk omschrijven

Inclusiecriteria zijn karakteristieken die een subject/experimentele eenheid moet hebben om tot de populatie te behoren, b.v.

  • leeftijdscategorie 45-65
  • normaal BMI
  • ā€¦

Exclusiecriteria zijn karakteristieken die een subject/experimentele eenheid niet mag hebben om tot de populatie te behoren, b.v.

  • diabetes
  • historiek van hard drugs
  • lage gezondheidsstatus
  • slaapproblemen
  • ā€¦

4 Toevalsveranderlijken (toevallige veranderlijken)

  • Variabelen (vb Systolische bloeddruk) variĆ«ren in de populatie van subject tot subject!
  • Variabelen zijn dus random of veranderlijk aangezien hun waarde veranderlijk is in de populatie
  • Cruciale vraag: Hoe nauwkeurig zijn uitspraken over de populatie o.b.v. een groep gemeten subjecten in een steekproef!
  • We zullen dus steeds verschillen zien van steekproef tot steekproef
  • Spreiding op gegevens speelt cruciale rol

4.1 Conventie

  • Gebruik hoofdletters om aan te geven dat bestudeerde karakteristiek (vb. systolische bloeddruk) variabel is in de populatie zonder daarbij concreet over de gerealiseerde waarde voor een bepaald subject na te denken.
  • Variabele \(X\) wordt algemeen een toevalsveranderlijke genoemd: is formeel resultaat van een toevallige trekking van een bepaalde karakteristiek uit de studiepopulatie.
  • Een toevalsveranderlijke \(X\) kan men dus opvatten als onbekende veranderlijke die een meting voorstelt die we plannen te verzamelen bij een random subject, maar nog niet hebben verzameld.
  • Noodzakelijk om te kunnen redeneren hoe resultaten van steekproef tot steekproef kunnen wijzigen
  • Toevallig veranderlijken kunnen kwalitatief, kwantitatief, discreet, continu, ā€¦. zijn

5 Beschrijven van de populatie

  • Voor we een random variabele meten is het onmogelijk exact te voorspellen hoe hoog ze zal zijn.

  • Gerealiseerde waarde van \(X\) is onderhevig aan random variabiliteit

  • Als we weten hoe de variabele verdeeld is dan kunnen we probabiliteitstheorie gebruiken om de kans te berekenen dat een bepaald voorval (event) zich voordoet: vb wat is de kans dat het IQ van een random subject uit de populatie kleiner of gelijk is aan 80.

  • Notatie:

    • Event: \(X \leq 80\)
    • Probabiliteit op event: \(Pr(X \leq 80)\)

##Intermezzo probabiliteitstheorie

5.0.1 Discrete toevallig veranderlijken

  • Stel dat we een discrete random variabele meten \(X\)

  • Alle mogelijke waarden voor \(X\) worden de steekproefruimte \(\Omega\) genoemd.

    • Voor Gender is de steekproefruimte \(\Omega=(0,1)\) met 0 (vrouw) or 1 (man).
    • Voor het werpen van een dobbelsteen is de steekproefruimte \(\Omega=(1,2,3,4,5,6)\).
  • Een event \(A\) is een subset van de steekproefruimte

    - Een even getal werpen met een dobbelsteen: $A=(2,4,6)$.
    - Kan ook een specifieke waarde zijn $A=(1)$.
  • Event ruimte \(\mathcal{A}\) is de klasse van alle mogelijke events die kunnen optreden bij een bepaald experiment.

  • Twee events (\(A_1\) en \(A_2\)) zijn multueel exclusief als ze niet samen op kunnen treden.

    • v.b. event van de oneven getallen \(A_1=(1,3,5)\) en het event om \(A_2=(6)\) te gooien.
    • Dus \(A_1 \bigcap A_2=\emptyset\).
  • Probabiliteit \(Pr(A)\) is een function \(Pr: A \rightarrow [0,1]\) die voldoet aan

    1. \(Pr(A) \geq 0\) en \(Pr(A) \leq 1\) voor elke \(A \in \mathcal{A}\)
    2. \(Pr(\Omega)=1\)
    3. Voor multueel exclusieve events \(A_1, A_2, \ldots A_k\) geldt dat \(Pr(A_1 \cup A_2 \ldots \cup A_k)= Pr(A_1) + \ldots + Pr(A_k)\)
  • Dobbelsteen voorbeeld

    • oneven number \(A=(1,3,5)\): is de unie van 3 multueel exclusieve events \(A_1=1\), \(A_2=3\) en \(A_3=5\) zodat \(Pr(A)=Pr(1)+Pr(3)+Pr(5)=1/6+1/6+1/6=0.5\)
    • \(\Omega=(1,2,3,4,5,6)\): \(Pr(\Omega)=1\)
  • Als we twee subjecten (j en k) onafhankelijk trekken van de populatie dan is de gezamelijke probabiliteit \(P(X_j,X_k)= P(X_j)P(X_j)\)


5.0.1.1 Distributie of verdeling

  • De distributie of de verdeling van een discrete toevallig veranderlijke \(X\) beschrijft de kans op elke mogelijke waarde van de steekproefruimte.

  • Voorbeeld: Gender is een binaire variabele (0: vrouw, 1: man) en binaire variabelen volgen een Bernoulli verdeling. 50.8% van de subjecten in de Amerikaanse populatie zijn vrouw en 49.2% is man.

  • Laat \(\pi\) de probabiliteit zijn op een man \(\pi=0.492\). \[ X\sim \left \{ \begin{array}{lcl} P(X=0) &=& 1-\pi\\ P(X=1) &=& \pi \end{array} \right . \]

    tibble(X=c(0,1),prob=c(0.508,0.492)) %>%
      ggplot(aes(x=X,xend=X,y=0,yend=prob)) +
      geom_segment() +
      ylab("Probability")

Toevallig veranderlijke \(X\) volgt een Bernoulli verdeling \(B(\pi)\) met parameter \(\pi=0.492\), \[B(\pi)= \pi^x(1-\pi)^{(1-x)}\]


5.0.1.2 Cumulative distributie functie

  • De cumulative distributie functie F(x) geeft de probabiliteit weer om een random variable X te observeren waarvoor geldt dat \(X\leq x\): \[ F(x) = \sum\limits_{\forall X\leq x} P(x)\]

  • Gender voorbeeld \(F(0)=1-\pi\) and F(1)= P(X=0) + P(X=1)=1

    tibble(X=c(0,1),cumprob=c(0.508,1)) %>%
      ggplot(aes(x=X,xend=X,y=0,yend=cumprob)) +
      geom_segment() +
      ylab("F(x)")

  • Dobbelsteen:

    tibble(X=1:6,cumprob=cumsum(rep(1/6,6))) %>%
      ggplot(aes(x=X,xend=X,y=rep(0,6),yend=cumprob)) +
      geom_segment() +
      ylab("F(x)")


5.0.1.3 Gemiddelde

Het gemiddelde of de verwachte waarde \(E[X]\) van een discrete toevallig veranderlijke \(X\) is gegeven door:

\[E[X]=\sum\limits_{x\in\Omega} x P(X=x)\]

  • Gender voorbeeld

    • \(E[X]= 0 \times (1-\pi) + 1 \times (\pi) = \pi\)
    • The mean equals \(E[X]=0.492\).
  • Dobbelsteen:

\(E[X]= 1 \times \frac{1}{6} + 2 \times \frac{1}{6} + \ldots + 6 \times \frac{1}{6} =\) 3.5


5.0.1.4 Variantie

De variantie is een maat voor de variabiliteit van een toevallig veranderlijke en wordt gegeven door:

\[E[(X-E[X])^2]=\sum\limits_{x\in\Omega} (x-E[X])^2 P(X=x)\]

  • Gender voorbeeld \[\begin{eqnarray} E[(X-E[X])^2]&=&(0-\pi)^2\times (1-\pi)+(1-\pi)^2 \times \pi\\ &=& \pi^2 (1-\pi) + (1-\pi)^2 \pi\\ &=&\pi (1-\pi)(\pi+1-\pi)\\ &=&\pi(1-\pi) \end{eqnarray}\]

5.0.2 Continue toevallig veranderlijke

  • Een continue toevallig veranderlijke kan binnen bepaalde grenzen alle mogelijke waarden aannemen.

  • De kans om exact Ć©Ć©n bepaalde waarde aan te nemen is daarom gelijk aan 0.

  • De distributie (verdeling) wordt daarom weergegeven a.d.h.v. de densiteitsfunctie of de dichtheidsfunctie \(f(x)\)

  • Veel biologische karakteristieken zijn approximatief normaal verdeeld (lengte, bloeddruk, IQ, concentratie metingen na logaritmische transformatie) \[f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}\]

  • Dat wordt kort genoteerd als \(f(x) = N(\mu,\sigma^2)\)

  • Van het IQ is geweten dat het normale verdeling volgt met gemiddelde \(\mu=100\) en standaardafwijking \(\sigma=15\).
    \[IQ \sim N(100,15^2)\]

  • In R kunnen we de dnorm functie gebruiken om de densiteit te berekenen voor een bepaalde waarde X=x.

  • De argumenten van dnorm zijn mean (\(\mu\)) en sd (standaardafwijking \(\sigma\)).

iq <- tibble(
  IQ = seq(40,150,.1),
  Densiteit = dnorm(seq(40,150,.1),mean=100,sd=15)
  )
iq %>%
  ggplot(aes(x=IQ,y=Densiteit)) +
  geom_line()

  • Binnen bepaalde grenzen kunnen continue toevallig veranderlijken alle mogelijke waarden aannemen dus is \(\Omega\) oneindig groot.

####Cumulatieve distributie

  • Opnieuw is de cumulatieve distributie \(F(X)=Pr(X\leq x)\).

  • Omdat X continu is berekenen we deze probabiliteit a.d.h.v. een integraal \[F(x)=\int \limits_{-\infty}^x f(x) dx\]

  • Merk op dat \(f(x)=0\) als x niet tot de steekproefruimte behoord.

  • We kunnen \(F(x)\) berekenen voor een normaal verdeelde toevallig veranderlijke met de functie pnorm die opnieuw argumenten mean en sd heeft.

iq %>%
  mutate(Probability=pnorm(IQ,mean=100,sd=15)) %>%
  ggplot(aes(x=IQ,y=Probability)) +
  geom_line()

De probabiliteit dat het IQ van een random subject lager is dan 80 wordt in R berekend door

pnorm(80,mean=100,sd=15)
[1] 0.09121122

  • Voor de grootst mogelijke waarde voor \(X\) integreren we over de volledige steekproefruimte \(\Omega\) dus \[\int \limits_{x \in \Omega} f(x) dx=1\]

  • De oppervlakte onder de dichtheidsfunctie is dus 1!


5.0.2.1 Gemiddelde en variantie

  • Het gemiddelde of de verwachte waarde is

\[\int \limits_{x \in \Omega} x f(x) dx\]

  • Voor de normale distributie \[\int \limits_{-\infty}^{+\infty} x f(x) dx = \mu\]

  • De variance \(E[(X-E[X])^2]\)

\[\int \limits_{x \in \Omega} (x-E[X])^2 f(x) dx\]

  • Voor de normale distributie bekomen we

\[\int \limits_{-\infty}^{+\infty} (x-\mu)^2 f(x) dx = \sigma^2\]

  • Het is vaak moeilijk om de variantie te interpreteren gezien ze niet in de zelfde eenheden staat als het gemiddelde. Daarom werken we vaak met de standaardafwijking:

\[SD=\sqrt{E[(X-E[X])^2]}\]

DE SD voor de normale distributie, \(\sigma\) heeft de mooie interpretatie dat ongeveer 68% van de populatie een waarde heeft voor de karakteristiek X binnen het interval van 1 standaardafwijking(\(\sigma\)) rond het gemiddelde:

\[P(\mu-\sigma < X < \mu + \sigma) \approx 0.68\]

  • Voor normaal verdeelde toevallig veranderlijken heeft ongeveer 95% van de subjecten in de populatie een waarde die binnen twee standaardafwijkingen (\(2 \sigma\)) ligt van het gemiddelde.

\[P[\mu - 2 \sigma < X < \mu + 2 \sigma]\approx 0.95\]


5.1 Standardisatie

  • Normale data worden vaak gestandardiseerd.

\[z=\frac{x-\mu}{\sigma}\]

  • Na standardisatie volgen de data een standaard normaal verdeling met gemiddelde \(\mu=0\) en variantie \(\sigma^2=1\): \[z \sim N(0,1)\]

We kunnen de qnorm functie gebruiken om kwantielen \(z_{2.5\%}\) en \(z_{97.5\%}\) die respectievelijk corresponderen met \(F(z_{2.5\%})=0.025\) en \(F(z_{97.5\%})=0.975\).

qnorm(0.025)
[1] -1.959964
qnorm(0.975)
[1] 1.959964

Voor een standaard normaal verdeelde toevallig veranderlijke valt inderdaad ongeveer \(0.975 - 0.025=0.95\) van de waarden binnen het interval [-2,2], of binnen 2 standaardafwijkingen (\(\sigma=1\)) van het gemiddelde (\(\mu=0\)).


6 Steekproef

  • In echte studies kennen we de distributie van een random veranderlijke in de populatie niet!

  • Omwille van financiĆ«le en logsitieke beperkingen kunen we bijna nooit de volledige populatie bestuderen.

  • De populatie parameters (v.b. gemiddeld IQ, variantie van IQ) kunnen daardoor niet zonder onzekerheid worden bepaald.

  • We kunnen enkel een kleine subset van de populatie bestuderen: de steekproef (engels: sample)

  • Trek observaties volgens een gestructureerd design: trek de subjecten volledig at random uit de populatie zodat elk subject een gelijke kans heeft om in de steekproef te worden opgenomen \(\rightarrow\) Representatieve steekproef.

  • Steekproef \(x_1, x_2, . . . , x_{n}\) kan als \(n\) realisatie van dezelfde toevallig veranderlijke \(X\) worden beschouwd voor subjecten \(i = 1,2,...,n\).

  • De distributie in de populatie is ongekend en moet worden geschat op basis van de steekproef.

  • Als we aannemen dat de gegevens een bepaalde distributie volgen (b.v. de normale verdeling \(N(\mu,\sigma^2)\)) dan moeten we enkel de populatie parameters (\(\mu\) en \(\sigma^2\)) schatten op basis van de steekproef.

  • We noemen dit schattingen (engels: estimates) en noteren ze als volgt: \(\hat \mu\) en \(\hat \sigma^2\).


6.1 NHANES voorbeeld

  • Gender in the population

  • Selecteer \(n=10000\) subjecten at random van de Amerikaanse populatie.

  • Eens de steekproef is getrokken hebben we \(n\) realisaties geobserveerd voor de toevallig veranderlijke \(X\).

  • Conventie: Geobserveerde waarden worden met een kleine letter aangeduid \(x\).

  • \(x\) is een welbepaalde waarde die werd gemeten/geobserveerd in een uitgevoerd experiment en is niet langer een ongekende variabele.

6.2 Samenvatting

  • Voor we het experiment uitvoeren is de populatie karakteristiek voor de proefpersonen \(1,\ldots,n\) die we uit de populatie zullen trekken ongekend en zijn dat toevallig veranderlijken: \(X_1, \ldots, X_n\)
  • Dit is noodzakelijk om te kunnen redeneren over hoe de resultaten van steekproef tot steekproef kunnen wijzigen
  • In een steekproef observeren we gerealiseerde uitkomsten \(x_1, x_2, \dots, x_n\): v.b. gender of lengte van subjecten in de steekproef.

7 Gender Example

library(NHANES)
NHANES %>% ggplot(aes(x=Gender)) + geom_bar()

  • Gender is een binaire variabele.
  • Het volgt een Bernoulli distibutie.
  • De Bernoulli distributie heeft een parameter: het gemiddelde \(\pi\).
  • We kunnen \(\pi\) schatten op basis van de steekproef door het steekproefgemiddelde te berekenen \(\bar x = \sum\limits_{i=1}^n x_i\)
  • Merk op dat het steekproefgemiddelde zelf een toevallig veranderlijke is! Het wijzigt ook van steekproef tot steekproef!
NHANES %>%
  count(Gender) %>%
  mutate(probability = n/sum(n))
# A tibble: 2 x 3
  Gender     n probability
  <fct>  <int>       <dbl>
1 female  5020       0.502
2 male    4980       0.498

8 Lengte

8.1 Empirische distributie

  • We kunnen de distributie van de lengte voor volwassen vrouwen schatten aan de hand van het histogram.
NHANES %>%
  filter(Gender=="female"&!is.na(Height)&Age>18) %>%
  ggplot(aes(x=Height)) +
  geom_histogram()

  • We kunnen de cumulative distributie functie schatten door gebruik te maken van de empirische cumulatieve distributie functie.
    • Elke observatie werd Ć©Ć©n keer geobserveerd in het staal.
    • Dus empirische cumulatieve distributie functie van het staal is een discrete distributie met probabiliteit 1/n op elke observatie.
    • De empirische cumulatieve distributie functie (ECDF) is gegeven door \[ECDF(x) = \sum\limits_{x_i \leq x} \frac{1}{n} = \frac{\# (x_i \leq x)}{n}\]
NHANES %>%
  filter(Gender=="female"&!is.na(Height)&Age>18) %>%
  ggplot(aes(x=Height)) +
  stat_ecdf()

We kunnen de empische cumulatieve distributie functie gebruiken om kansen te berekenen. Wat is de kans dat een vrouw kleiner is dan 150 cm.

ecdfFem <- NHANES %>%
  filter(Gender=="female"&!is.na(Height)&Age>18) %>%
  pull("Height") %>%
  ecdf
ecdfFem(150)
[1] 0.05222073
- We illustreren dit ook voor een steekproef van grootte 10
set.seed(502)
fem10<- NHANES %>%
  filter(Gender=="female"&!is.na(Height)&Age>18) %>%
  sample_n(size=10)

fem10 %>%
  ggplot(aes(x=Height)) +
  stat_ecdf()

ecdfFem10 <- fem10 %>%
  pull(Height) %>%
  ecdf
ecdfFem10(150)
[1] 0
  • Merk op dat die kans niet goed wordt geschat o.b.v. de steekproef.

  • Merk ook op dat we die kans ook hadden kunnen schatten door te berekenen hoeveel lengtemetingen er lager zijn dan 150.

NHANES %>%
  filter(Gender=="female"&!is.na(Height)&Age>18) %>% count(Height <=150) %>%
  mutate(prob=n/sum(n))
# A tibble: 2 x 3
  `Height <= 150`     n   prob
  <lgl>           <int>  <dbl>
1 FALSE            3521 0.948 
2 TRUE              194 0.0522
ecdfFem(150)
[1] 0.05222073
fem10 %>%
  count(Height <=150) %>%
  mutate(prob=n/sum(n))
# A tibble: 1 x 3
  `Height <= 150`     n  prob
  <lgl>           <int> <dbl>
1 FALSE              10     1
ecdfFem10(150)
[1] 0

8.2 Normale benadering

  • In de introductie zagen we dat de lengte metingen een mooie klokvorm hadden.

  • We kunnen dus aannemen dat de metingen approximatief normaal verdeeld zijn.

  • We kunnen de verdeling van de lengte metingen ook benaderen d.m.v. een normale distribution.

  • We moeten hiervoor enkel twee parameters schatten:

    • gemiddelde via steekproefgemiddelde (\(\hat\mu=\bar x\))
    • variantie via steekproefvariantie (\(\hat{\sigma}^2= s^2\)) of de standaardafwijking d.m.v. steekproef standaarddeviatie (\(\hat\sigma=s\)).
HeightSum <- NHANES %>%
  filter(Gender=="female"&!is.na(Height)&Age>18) %>%
  summarize(mean=mean(Height),sd=sd(Height))
HeightSum
# A tibble: 1 x 2
   mean    sd
  <dbl> <dbl>
1  162.  7.27

We zien dat de benadering goed werkt:

NHANES %>%
  filter(Gender=="female"&!is.na(Height)&Age>18) %>%
  ggplot(aes(x=Height)) +
  geom_histogram(aes(y=..density.., fill=..count..)) +
  xlab("Lengte (cm)") +
  stat_function(
    fun=dnorm,
    color="red",
    args=list(
      mean=HeightSum$mean[1],
      sd=HeightSum$sd[1]
      )
    )

  • We doen nu hetzelfde op basis van de steekproef met de 10 vrouwen.
HeightSum10 <- fem10 %>%
  summarize(mean=mean(Height),sd=sd(Height))

HeightSum10
# A tibble: 1 x 2
   mean    sd
  <dbl> <dbl>
1  163.  8.19
fem10 %>%
  ggplot(aes(x=Height)) +
  geom_histogram(aes(y=..density.., fill=..count..),bins=10) +
  xlab("Lengte (cm)") +
  stat_function(
    fun=dnorm,
    color="red",
    args=list(
      mean=HeightSum10$mean[1],
      sd=HeightSum10$sd[1]
      )
    ) +
  xlim(130,190)

  • We kunnen de normale benadering nu ook gebruiken om de kans te berekenen dat een vrouw kleiner is dan 150 cm: Pr(X <= 150).

  • We doen dit op basis van de volledige steekproef en vergelijken dit uit wat we bekomen met de ECDF.

pnorm(150,HeightSum$mean[1],HeightSum$sd[1])
[1] 0.0484516
ecdfFem(150)
[1] 0.05222073
  • Op basis van de kleine steekproef:
pnorm(150,HeightSum10$mean[1],HeightSum10$sd[1])
[1] 0.05346615
ecdfFem10(150)
[1] 0
  • Voor kleine steekproef is geschatte kans o.b.v. empirische distributie veel minder nauwkeurig.

  • Kwantielen geschat o.b.v. kleine steekproef zijn immers vrij onzeker. Ze gebruiken immers maar een fractie van de data.

  • De schatting o.b.v. de normale verdeling laat toe om alle data te gebruiken voor het schatten van de model parameters.


8.3 Referentie intervallen

  • Normale waarden voor de lengte kunnen worden bekomen door gebruik te maken van een referentie interval.

  • Typisch wordt een 95% referentie interval gebruikt zodat we voor 95% van de subjecten in de populatie verwachten dat ze een karakteristiek hebben die in het referentie interval ligt.

  • We kunnen dat opnieuw op basis van de empirische distributie.

  • We moeten hiervoor \(\hat{F}(x_{2.5\%})=0.025\) en \(\hat{F}(x_{97.5\%})=0.975\) berekenen zodat 95% van de observaties in de steekproef vallen in het interval [x_{2.5%},x_{97.5%}].

  • Dat kan met de quantile functie.

  • Grote steekproef

NHANES %>%
  filter(Gender=="female"&!is.na(Height)&Age>18) %>%
  pull(Height) %>%
  quantile(prob=c(0.025,0.975))
 2.5% 97.5% 
147.6 176.7 
  • Op basis van de grote steekproef schatten we dat 95% van de vrouwen in de populatie een lengte heeft die ligt in het interval [147.6, 176.7].

  • Kleine steekproef

fem10 %>%
  pull(Height) %>%
  quantile(prob=c(0.025,0.975))
    2.5%    97.5% 
154.7250 178.3275 
  • Dit interval o.b.v. de kleine steekproef is een ruwe benadering.
  • We hebben immers niet voldoende observaties om een goede benadering te hebben voor extreme quantielen.

8.3.1 Normale benadering

  • We kunnen de functie qnorm gebruiken om quantielen te berekenen van de normale distributie.

  • We weten dat een 95% referentie interval ongeveer binnen twee standaard deviaties rond het gemiddelde ligt.

  • Grote steekproef

qnorm(0.025,mean=HeightSum$mean,sd=HeightSum$sd)
[1] 147.8192
HeightSum$mean - 2 * HeightSum$sd
[1] 147.528
qnorm(0.975,mean=HeightSum$mean,sd=HeightSum$sd)
[1] 176.3237
HeightSum$mean + 2 * HeightSum$sd
[1] 176.6149
  • Kleine steekproef
qnorm(0.025,mean=HeightSum10$mean,sd=HeightSum10$sd)
[1] 147.1499
qnorm(0.975,mean=HeightSum10$mean,sd=HeightSum10$sd)
[1] 179.2701

8.4 Conclusions

  • Voor de grote steekproef geven de empirische distributie en de normale benadering vergelijkbare resultaten.

  • Voor de kleine steekproef werkt de normale benadering beter dan de empirische distributie.

    • We kijken immers naar extreme quantielen 2.5% en 97.5%.
    • Er zijn inderdaad weinig gegevens in de steekproef die toelaten om deze quantielen direct te schatten.
    • Met de normale benadering kunnen we alle data gebruiken om het gemiddelde en de standaarddeviatie te schatten.
    • Als de aanname van normaliteit geldt dan krijgen we betere schattingen voor deze kwantielen.

9 Statistieken

  • Formule die we gebruiken om parameters van de distributie in de populatie te schatten op basis van een steekproef. We refereren hiernaar als statistieken of schatters.

  • Het numerieke resultaat die wordt bekomen door deze formules te evalueren worden ook statistieken of schattingen genoemd.

  • Onderzoekers wensen ongekende parameters van de distributie in de populatie te kennen en schatten deze o.b.v. de steekproef.

  • Omdat we statistieken berekenen o.b.v. de observaties in een steekproef, variĆ«ren statistieken ook van steekproef tot steekproef. Het zijn dus ook random variabelen en we noteren ze dus ook met hoofdletters (b.v. \(\bar X\) voor het steekproefgemiddelde en \(S^2\) voor de steekproefvariantie).

  • Als we data analyseren moeten we dus nadenken over hoe de statistieken variĆ«ren van steekproef tot steekproef.

  • Als een statistiek verwijst naar een numerieke waarde die werd gerealiseerd in een bepaalde steekproef dan noteren we deze met een kleine letter: \(\bar x\) en \(s^2\).


10 Conventie

  • Populatieparameters nemen vaste waarden aan maar zijn meestal ongekend \(\rightarrow\) Griekse symbolen.

  • Statistieken waarmee we deze ongekende parameters schatten o.b.v. een steekproef \(\rightarrow\) letters.

  • Vb Normale verdeling

Populatie Steekproef
\(\mu\) \(\bar X\)
\(\sigma^2\) \(S^2\)

