Uit een test die bij een groep studenten uit het 2de jaar Bachelor in de Biologie afgenomen werd, konden de volgende fictieve gegevens gehaald worden:
Als we veronderstellen dat zowel het gewicht als de lengte bij zowel de vrouwen als de mannen Normaal verdeeld is, bereken dan:
1. Indien we de variabele lengte laten overeenstemmen met \(Y\) en diens representatie voor de vrouwen met \(Y_W\), dan mogen we volgens de opgave dus veronderstellen dat \[ Y_W \sim N(169, 6.63^2) \] We willen weten wat de kans is dat een willekeurig persoon uit de populatie tussen \(157\) en \(173\) cm groot is. Om de logica in de berekening duidelijk te maken zullen we het nu in twee stappen doen: we berekenen eerst de kans dat een willekeurig persoon uit de populatie kleiner is dan \(173\) cm en vervolgens berekenen we de kans dat een willekeurig persoon uit de populatie kleiner is dan \(157\) cm. Indien we deze laatste kans aftrekken van de eerste kans bekomen we het gewenste antwoord.
Men kan dit ook visualiseren als volgt. In deze visualisatie zal ik werken met een willekeurig steekproef uit de vooropgestelde normale distributie.
# we zetten een 'seed' om reproduceerbare trekkingen te kunnen doen in de simulatie.
set.seed(1)
# we simuleren data uit de vooropgestelde normale distributie
x <- rnorm(n=1e4, mean=169, sd=6.63)
# de vector x bevat nu tien duizend observaties afkomstig uit een N(169, 6.63^2) distributie
head(x)
## [1] 164.8466 170.2176 163.4598 179.5767 171.1846 163.5603
# we plotten een histogram van x. Aan de hand van het argument 'breaks' specifieren we hoeveel balken we ongeveer willen in het histogram.
hist(x, breaks=50)
# we zijn geinteresseerd in deze twee grenzen:
abline(v=173, col="red", lwd=2)
abline(v=159, col="green", lwd=2)
# dit correspondeert met de oppervlakte links van de groene lijn af te trekken van de oppervlakte links van de rode lijn.
We zullen dus tweemaal de theoretische oppervlakte van de distributie berekenen tot een bepaalde grens. Dit kunnen we ook wiskundig voorstellen als
\[ P(157 \le Y_w \le 173) = P(Y_w \le 173) - P(Y_w \le 157) = \int_{-\infty}^{173} f(Y_W) - \int_{-\infty}^{157} f(Y_W) \] waarbij \(f(Y_W)\) de vooropgestelde distributie voor variabele \(Y_W\) voorstelt. Hieronder berekenen we de oplossing.
Zoals we reeds gezien hebben kunnen we dit in R
bekomen aan de hand van de pnorm
functie. Voor meer informatie over de pnorm
(of eender welke) functie, typ je ?pnorm
in je RStudio console.
# Wat is de kans dat een willekeurige vrouw uit de populatie kleiner is dan 173 cm?
phi173 <- pnorm(q=173, mean=169, sd=6.63)
phi173
## [1] 0.7268515
# Wat is de kans dat een willekeurige vrouw uit de populatie kleiner is dan 157 cm?
phi157 <- pnorm(q=157, mean=169, sd=6.63)
phi157
## [1] 0.0351514
# Wat is de kans dat een willekeurige vrouw uit de populatie tussen 157 en 173cm groot is?
sol <- phi173 - phi157
sol
## [1] 0.6917001
De kans dat een willekeurige vrouw uit de populatie dus tussen de \(157\) en \(173\) cm groot is bedraagt 69.17%.
2. Indien we de variabele gewicht laten overeenstemmen met \(X\) en diens representatie voor de mannen met \(X_M\), dan mogen we volgens de opgave dus veronderstellen dat \[ X_M \sim N(68.73, 8.36^2) \] Volgens dezelfde rationale als de eerste opgave, berekenen we de kans dat een willekeurige persoon uit de populatie minder weegt dan \(70\)kg en de kans dat een willekeurige persoon uit de populatie minder weegt dan \(65\)kg, en trekken we die van elkaar af.
# Wat is de kans dat een willekeurige man uit de populatie minder weegt dan 70kg?
phi70 <- pnorm(q=70, mean=68.73, sd=8.36)
phi70
## [1] 0.5603726
# Wat is de kans dat een willekeurige vrouw uit de populatie minder weegt dan 65kg?
phi65 <- pnorm(q=65, mean=68.73, sd=8.36)
phi65
## [1] 0.3277364
# Wat is de kans dat een willekeurige man uit de populatie tussen 65kg en 70kg weegt?
sol2 <- phi70 - phi65
sol2
## [1] 0.2326362
De kans dat een willekeurige man uit de populatie dus tussen de \(157\) en \(173\) kg weegt bedraagt 23.26%.
Beschouw onderstaande tabel met betrekking tot de maximum dagelijkse pollutieniveaus per stad in 1986 tot 1989.
City | Carbon Monoxide | Nitrogen Dioxide | Sulfur Dioxide |
---|---|---|---|
Los Angeles | \(4.206\pm2.640\) | \(0.070\pm0.028\) | \(0.010\pm0.005\) |
Chicago | \(2.510\pm1.002\) | \(0.045\pm0.013\) | \(0.025\pm0.011\) |
Milwaukee | \(1.794\pm0.984\) | \(0.040\pm0.014\) | \(0.017\pm0.013\) |
Indien \(X \sim N(\mu, \sigma^2)\), wat is dan \(P(\mu - \sigma \le X \le \mu + \sigma)\)?
Voor onze data kan men dit bekomen door de theoretische percentielen te berekenen op basis van de vooropgestelde distributie
p1 <- pnorm(4.206+2.64,mean=4.206,sd=2.64)
p2 <- pnorm(4.206-2.64,mean=4.206,sd=2.64)
p1-p2
## [1] 0.6826895
Deze kans is ook gelijk aan \[ P(- \sigma \le X - \mu \le \sigma) = P(-1 \le \frac{X - \mu}{\sigma} \le 1) \] Merk op dat \(\frac{X - \mu}{\sigma}\) een standaard normale distributie volgt, dit is gestandaardiseerde normale distributie met gemiddelde nul en variantie 1: \(\frac{X - \mu}{\sigma} \sim N(0,1)\). Indien we de cumulatieve distributie functie van een standaard normale verdeling voorstellen met \(\phi\), dan kunnen we bovenstaande vergelijking herschrijven als
\[ \phi(1) - \phi(-1) = \phi(1) - \{ 1 - \phi(1) \} = 2 \phi(1) -1 \] Ga dit zelf (visueel) na! De oplossing bekomen we in R:
2*pnorm(1)-1
## [1] 0.6826895
Het resultaat is inderdaad identiek aan de theoretische \(68\)% die vermeld staat in de slides.
We zullen de variabele \(X\) gebruiken om de CO concentratie in LA voor te stellen. We zoeken de kans \(P(X>9)\), gegeven dat \(X \sim N(4.206,2.64^2)\). Merk op dat we ons dit visueel kunnen voorstellen als de oppervlakte onder de veronderstelde distributie van \(X\) voor \(x\)-waarden groter dan \(9\). We zullen dit eerst voorstellen adhv een histogram van random observaties uit de veronderstelde distributie:
x <- rnorm(1e4, mean=4.206, sd=2.64)
hist(x, breaks=50)
abline(v=9, col="red", lwd=2)
Deze kans kunnen we makkelijk berekenen aan de hand van de pnorm
functie in R.
pr <- 1-pnorm(q=9,mean=4.206,sd=2.64)
pr
## [1] 0.03469216
De kans dat CO de het kritisch niveau zal overschreiden in LA bedraagt dus 3.47%.
Dit kunnen we ook neerschrijven als \(P(X-c >9) = 0.01\), waarbij we op zoek zijn naar het getal \(c\). Merk op dat het \(99 \%\) kwantiel van \(X\) gelijk is aan
qnorm(.99,mean=4.206, sd=2.64)
## [1] 10.34756
Met andere woorden, \(P(X > 10.35) = 0.01\). Dit kunnen we ook schrijven als \[ P(X > 9+1.35) = 0.01 \iff P(X-1.35 > 9) =0.01 \] We besluiten dus dat \(c=1.35\), of, men zou van alle metingen \(1.35\) moeten aftrekken opdat men slechts \(1%\) kans zou hebben om de kritische waarde van \(9.0\) te overschrijden, of, de gemiddelde CO concentratie in LA zou moeten dalen tot \(4.206-1.35=2.856\) opdat men slechts een kans van \(1\%\) zou hebben om de kritische waarde van \(9.0\) te overschrijden.
Merk op dat een concentratie van een stof nooit onder nul kan gaan, maar de standaarddeviatie is relatief groot voor een laag gemiddelde (bvb. het gemiddelde min twee maal de standaarddeviatie ligt reeds onder nul). Indien de concentratie voor ‘Sulfur Dioxide’ in Milwaukee een normale verdeling zou volgen, dan zou een redelijke concentratie van de data onder nul moeten liggen:
pnorm(0,mean=0.017,sd=0.013)
## [1] 0.09548885
Met andere woorden, indien de variabele ‘Sulfur Dioxide’ in Milwaukee een normale verdeling zou volgen, dan verwachten we dat 9.55% van de observaties negatief zouden zijn, wat onmogelijk is.