4  Verteilungen

4.1 Lernsteuerung

4.1.1 Position im Modulverlauf

Abbildung 1.1 gibt einen Überblick zum aktuellen Standort im Modulverlauf.

4.1.2 Lernziele

Nach Absolvieren des jeweiligen Kapitels sollen folgende Lernziele erreicht sein.

Sie können …

  • den Begriff der Zufallsvariablen erläutern
  • die Begriffe von Wahrscheinlichkeitsdichte und Verteilungsfunktion erläutern
  • den Begriff einer Gleichverteilung erläutern
  • den Begriff einer Binomialverteilung erläutern
  • die Parameter einer Normalverteilung nennen und erläutern
  • zentrale Konzepte in R umsetzen

4.1.3 Begleitliteratur

Der Stoff dieses Kapitels deckt sich (weitgehend) mit Bourier (2011), Kap. 6.1 und 6.3 sowie 7.1 und und 7.2.

4.1.4 Vorbereitung im Eigenstudium

Dieses Kapitel setzt einige Grundbegriffe voraus, wie im Buch Statistik1 vorgestellt, insbesondere im Kapitel “Rahmen”. Benötigt wird auch der Begriff der Normalverteilung sowie der Begriff der Quantile.

Lesen Sie selbständig, zusätzlich zum Stoff dieses Kapitels, noch in Bourier (2011) folgende Abschnitte:

  • Kap. 6.1 (Zum Begriff Zufallsvariable)
  • Kap. 6.3 (Stetige Zufallsvariablen)
  • Kap. 7.1.1 (Binomialverteilung)
  • Kap. 7.2.1 (Gleichverteilung)
  • Kap. 7.2.3 (Normalverteilung)

Lösen Sie auch die Übungsaufgaben dazu.

Weitere Übungsaufgaben finden Sie im dazugehörigen Übungsbuch, Bourier (2022).

4.1.5 Prüfungsrelevanter Stoff

Beachten Sie, dass neben den Inhalten des Kapitels auch stets der vorzubereitende Stoff prüfungsrelevant ist.

4.1.6 Benötigte R-Pakete

Code

4.1.7 Zentrale Begriffe

4.1.7.1 Eigenschaften von Zufallsvariablen

  • Zufallsvariable (random variable)
  • Diskret vs. stetig
  • Wahrscheinlichkeitsdichte (Dichte, (probability) density, f)
  • Wahrscheinlichkeitsfunktion (kumulierte Wahrscheinlichkeit, Wahrscheinlichkeitsmasse)

4.1.7.2 Verteilungen

  • Gleichverteilung
  • Normalverteilung
  • Standardnormalverteilung

4.1.8 Begleitvideos

4.2 Zufallsvariable

Beispiel 4.1 Schorsch sucht eine Betreuerin für seine Abschlussarbeit. An die ideale Betreuerin setzt er 4 Kriterien an: a) klare, schriftliche fixierte Rahmenbedingungen, b) viel Erfahrung, c) guten Ruf und d) interessante Forschungsinteressen. Je mehr dieser 4 Kriterien erfüllt sind, desto besser. Schorsch geht davon aus, dass die 4 Kriterien voneinander unabhängig sind (ob eines erfüllt ist oder nicht, ändert nichts an der Wahrscheinlichkeit eines anderen Kriteriums). Schorsch interessiert sich also für die Anzahl der erfüllten Kriterien, also eine Zahl von 0 bis 4. Er schätzt die Wahrscheinlichkeit für einen “Treffer” in jedem seiner 4 Kriterien auf 50%. Viel Glück, Schorsch! Sein Zufallsexperiment hat 16 Ausgänge (Knoten 16 bis 31), s. Abbildung 4.1 und Tabelle 4.1. Ganz schön komplex. Eigentlich würden ihm ja eine Darstellung mit 5 Ergebnissen, also der “Gutachter-Score” von 0 bis 4 ja reichen. Wie können wir es übersichtlicher für Schorsch?\(\square\)

Abbildung 4.1: Ein Baumdiagramm mit 16 Ausgängen, analog zur 4 Münzwürfen. Jede Münze ist in einer anderen Farbe dargestellt. Der Knoten ‘1’ ist der Start, da ist noch keine Münze geworfen.
Tabelle 4.1: Schorschs Zufallsexperiment, Auszug der Elementarereignisse
i Elementarereignis Pr(EE) Trefferzahl Pr(Trefferzahl)
1 NNNN 1/16 0 1/16
2 NNNT 1/16 1 1/4
3 NNTN 1/16 1 1/4
4 NTNN 1/16 1 1/4
5 TNNN 1/16 1 1/4
6 NNTT 1/16 2

Schorsch braucht also eine übersichtlichere Darstellung; die Zahl der Treffer und ihre Wahrscheinlichkeit würde ihm ganz reichen. In vielen Situationen ist man an der Anzahl der Treffer interessiert. Die Wahrscheinlichkeit für eine bestimmte Trefferanzahl bekommt man einfach durch Addieren der Wahrscheinlichkeiten der zugehörigen Elementarereignisse, s. Tabelle 4.1. Hier kommt die Zufallsvariable ins Spiel. Wir nutzen sie, um die Anzahl der Treffer in einem Zufallsexperiment zu zählen.

Definition 4.1 (Zufallsvariable) Die Zuordnung der Elementarereignisse eines Zufallsexperiments zu genau einer Zahl \(\in \mathbb{R}\) nennt man Zufallsvariable.\(\square\)

Die den Elementarereignissen zugewiesenen Zahlen nennt man Realisationen oder Ausprägungen der Zufallsvariablen.

Beispiel 4.2 (Lotto) Ein Lottospiel hat ca. 14 Millionen Elementarereignisse. Die Zufallsvariable “Anzahl der Treffer” hat nur 7 Realisationen: 0,1,…,6.\(\square\)

Es hat sich eingebürgert, Zufallszahlen mit \(X\) zu bezeichnen (oder anderen Buchstaben weit hinten aus dem Alphabet).

Man schreibt für eine Zufallsvariable kurz: \(X: \Omega \rightarrow \mathbb{R}\). “X ist eine Zufallsvariable, die jedem Elementarereignis \(\omega\) eine reelle Zahl zuordnet.” Um die Vorschrift der Zuordnung genauer zu bestimmen, kann man folgende Kurzschreibweise nutzen:

\({\displaystyle X(\omega )={\begin{cases}1,&{\text{wenn }}\omega ={\text{Kopf}},\\[6pt]0,&{\text{wenn }}\omega ={\text{Zahl}}.\end{cases}}}\)

Abbildung 4.2 stellt diese Abbildung dar.

flowchart LR
  subgraph A[Ereignis]
    Kopf
    Zahl
  end
  subgraph B[Realisation]
    null[0]
    eins[1]
  end
  subgraph C[Wahrscheinlichkeit]
    half[50%]
  end
  
  Kopf --> null
  Zahl --> eins
  null --> half
  eins --> half
Abbildung 4.2: Eine Zufallsvariable ist eine Abbildung eines Ereignisses im Ereignisraum zu den Realisationen der Zufallsvariable. Außerdem sieht man, wie diskrete Wahrscheinlichkeitsfunktionen genutzt werden, um den numerischen Ausgängen eines Zufallsexperiments eine Wahrscheinlichkeit zuzuordnen, d.h. um Wahrscheinlichkeiten zu bestimmen.

Zufallsverteilungen kann im zwei Artein einteilen:

  1. diskrete Zufallsvariablen
  2. stetige Zufallsvariablen

4.2.1 Diskrete Zufallsvariable

4.2.1.1 Grundlagen

Eine diskrete Zufallsvariable ist dadurch gekennzeichnet, dass nur bestimmte Realisationen möglich sind, zumeist natürliche Zahlen, wie 0, 1, 2,…, . Abbildung 4.3 versinnbildlicht die Zufallsvariable des “Gutachter-Scores”, s. Beispiel 4.1.

Abbildung 4.3: Sinnbild einer diskreten Zufallsvariablen X für Schorschs Suche nach einer Betreuerin seiner Abschlussarbeit. X gibt den Score der Gutachterin wider.

Beispiel 4.3 (Diskrete Zufallsvariablen)  

  • Anzahl der Bewerbungen bis zum ersten Job-Interview
  • Anzahl Anläufe bis zum Bestehen der Statistik-Klausur
  • Anzahl der Absolventen an der HS Ansbach pro Jahr
  • Anzahl Treffer beim Kauf von Losen
  • Anzahl Betriebsunfälle
  • Anzahl der Produkte in der Produktpalette\(\square\)

Beispiel 4.4 Der zweifache Würfelwurf ist ein typisches Lehrbuchbeispiel für eine diskrete Zufallsvariable. 1 Hier ist \(S\)2 die Augensumme des zweifachen Würfelwurfs und \(S\) ist eine Zahl zwischen 2 und 12. Für jede Realisation \(X=x\) kann man die Wahrscheinlichkeit berechnen, Abbildung 4.4 versinnbildlicht die Wahrscheinlichkeit für jede Realisation von \(X\).\(\square\)

Abbildung 4.4: Augensumme des zweifachen Würfelwurfs; für jede Realisation von S ist die zugehörige Wahrscheinlichkeit dargestellt. Bildquelle: Tim Stellmach, Wikipedia, PD

Wahrscheinlichkeitsverteilungen dienen dazu, den Realisationen einer Zufallsvariablen eine Wahrscheinlichkeit zuzuordnen.

Definition 4.2 (Diskrete Wahrscheinlichkeitsverteilung) Eine diskrete Wahrscheinlichkeitsverteilung der (diskreten) Zufallsvariablen \(X\) ordnet jeder der \(k\) Ausprägungen \(X=x\) eine Wahrscheinlichkeit \(p\) zu.\(\square\)

Beispiel 4.5 (Wahrscheinlichkeit des Geschlechts bei der Geburt) So hat die Variable Geschlecht eines Babies die beiden Ausprägungen Mädchen und Junge mit den Wahrscheinlichkeiten \(p_M = 51.2\%\) bzw. \(p_J = 48.8\%\), laut einer Studie (Gelman et al., 2021).\(\square\)

Zwischen der deskriptiven Statistik und der Wahrscheinlichkeitstheorie bestehen enge Parallelen, Tabelle 4.2 stellt einige zentrale Konzepte gegenüber.

Tabelle 4.2: Gegenüberstellung von Wahrscheinlichkeitstheorie und deskriptiver Statistik
Wahrscheinlichkeitstheorie Desktiptive.Statistik
Zufallsvariable Merkmal
Wahrscheinlichkeit relative Häufigkeit, Anteil
Wahrscheinlichkeitsfunktion einfache relative Häufigkeitsverteilung
Verteilungsfunktion kumulierte relative Häufigkeitsverteilung
Erwartungswert Mittelwert
Varianz Varianz

Eine Verteilung zeigt, welche Ausprägungen eine Variable aufweist und wie häufig bzw. wahrscheinlich diese sind. Einfach gesprochen veranschaulicht eine Balken- oder Histogramm eine Verteilung. Man unterscheidet Häufigkeitsverteilungen (s. Abb. Abbildung 4.6) von Wahrscheinlichkeitsverteilungen (Abb. Abbildung 4.5).

Abbildung 4.5: Wahrscheinlichkeitsverteilung der Zufallsvariable “Augenzahl im zweifachen Würfelwurf”
Abbildung 4.6: (relative und absolute) Häufigkeiten des zweifachen Würfelwurfs, 1000 Mal wiederholt

Beispiel 4.6 (Wahrscheinlichkeitsfunktion eines Würfels) Abbildung 4.7 zeigt die Wahrscheinlichkeitsfunktion eines einfachen Würfelwurfs.\(\square\)

Abbildung 4.7: Wahrscheinlichkeitsfunktion eines einfachen Würfelwurfs, Bildrechte: Olex Alexandrov, Wikipedia, PD

Die Häufigkeitsverteilung eines diskreten Merkmals \(X\) mit \(k\) Ausprägungen zeigt (vgl. Tabelle 4.3), wie häufig die einzelnen Ausprägungen sind. So hat die Variable Zylinder (in einem Datensatz) etwa die Ausprägungen 4,6 und 8.\(\square\)

Abbildung 4.8: Häufigkeitsverteilung von cyl und hp (diskretisiert in 10 Körbe oder Gruppen)
Tabelle 4.3: Eine diskrete Häufigkeitsverteilung, dargestellt in einer Häufigkeitstabelle

Abb. Abbildung 4.8, links, visualisiert die Häufigkeitsverteilung von cyl. Ein stetiges Merkmal, wie hp (PS-Zahl), lässt sich durch Klassenbildung in ein diskretes umwandeln (diskretisieren), s. Abb. Abbildung 4.8, rechts.

4.2.1.2 Wahrscheinlichkeitsfunktion

Definition 4.3 (Wahrscheinlichkeitsfunktion) Die Funktion \(f\), die den möglichen Realisationen \(x_i\) der diskreten Zufallsvariablen \(X\) die Eintrittswahrscheinlichkeiten zuordnet, heißt Wahrscheinlichkeitsfunktion.\(\square\)

Beispiel 4.7 Die Wahrscheinlichkeitsfunktion für \(X\) “Augensumme im zweifachen Würfelwurf” ist in Abbildung 4.5 visualisiert.\(\square\)

Beispiel 4.8 Die Wahrscheinlichkeitsfunktion für \(X\) “Treffer im einfachen Münzwurf, mit Zahl ist Treffer” ist \(Pr(X=1)=1/2.\), vgl. Abbildung 4.2.\(\square\)

💡 Einfach gesprochen gibt die Wahrscheinlichkeitsfunktion die Wahrscheinlichkeit einer bestimmten Realisation einer Zufallsvariable an.

4.2.1.3 Verteilungsfunktion

Definition 4.4 (Verteilungsfunktion) Die Verteilungsfunktion \(F\) gibt die Wahrscheinlichkeit an, dass die diskrete Zufallsvariable \(X\) eine Realisation annimmt, die kleiner oder gleich \(x\) ist.\(\square\)

Die Berechnung von \(F(x)\) erfolgt, indem die Wahrscheinlichkeiten aller möglichen Realisationen \(x_i\), die kleiner oder gleich dem vorgegebenen Realisationswert \(x\) sind, addiert werden:

\(F(x) = \sum_{x_ \le x} Pr(X=x_i).\)

Die Verteilungsfunktion ist das Pendant zur kumulierten Häufigkeitsverteilung, vgl. Abbildung 4.9 und Abbildung 4.10: Was die kumulierte Häufigkeitsverteilung für Häufigkeiten ist, ist die Verteilungsfunktion für Wahrscheinlichkeiten.

Abbildung 4.9: Verteilungsfunktion \(F(X \le x_i)\) für die Zufallsvariable “Augenzahl im zweifachen Würfelwurf”
Abbildung 4.10: Empirische Verteilungsfunktion (kumulierte Häufigkeitsverteilung) \(F(X \le x_i)\) von 1000 zweifachen Münzwürfen

4.2.2 Stetige Zufallsvariablen

📺 Verteilungen metrischer Zufallsvariablen

Abbildung 4.11 versinnbildlicht die stetige Zufallsvariable “Körpergröße”, die (theoretisch, in Annäherung) jeden beliebigen Wert zwischen 0 und (vielleicht) 3m annehmen kann.

Abbildung 4.11: Sinnbild für eine stetige Zufallsvariable X “Körpergröße”

Definition 4.5 (Stetige Zufallsvariable) Eine stetige Zufallsvariable gleicht einer diskreten, nur dass alle Werte im Intervall erlaubt sind.\(\square\)

Beispiel 4.9  

  • Spritverbrauch
  • Körpergewicht von Professoren
  • Schnabellängen von Pinguinen
  • Geschwindigkeit beim Geblitztwerden\(\square\)

Übungsaufgabe 4.1 (Warten auf den Bus, 42 Sekunden) Sie stehen an der Bushaltestellen und warten auf den Bus. Langweilig. Da kommt Ihnen ein Gedanken in den Sinn: Wie hoch ist wohl die Wahrscheinlichkeit, dass Sie exakt 42 Sekunden auf den Bus warten müssen, s. Abbildung 4.13? Weiterhin überlegen Sie, dass davon auszugehen ist, dass jede Wartezeit zwischen 0 und 10 Minuten gleich wahrscheinlich ist. Spätestens nach 10 Minuten kommt der Bus, so ist die Taktung (extrem zuverlässig). Exakt heißt exakt, also nicht 42.1s, nicht 42.01s, nicht 42.001s, etc. bis zur x-ten Dezimale.\(\square\)

Nicht so einfach (?). Hingegen ist die Frage, wie hoch die Wahrscheinlichkeit ist, zwischen 0 und 5 Minuten auf den Bus zu warten (\(0<x<5\)), einfach: Sie beträgt 50%, wie man in Abbildung 4.12 gut sehen kann.

Abbildung 4.12: Wie groß ist die Wahrscheinlichkeit, zwischen 0 und 5 Minuten auf den Bus zu warten? 50 Prozent!
Abbildung 4.13: Wie groß ist die Wahrscheinlichkeit, genau 42 Sekunden auf den Bus zu warten? Hm.

Vergleicht man Abbildung 4.13 und Abbildung 4.12 kommt man (vielleicht) zu dem Schluss, dass die Wahrscheinlichkeit exakt 42s auf den Bus zu warten, praktisch Null ist. Der Grund ist, dass die Fläche des Intervalls gegen Null geht, wenn das Intervall immer schmäler wird. Aus diesem Grund kann man bei stetigen Zufallszahlen nicht von einer Wahrscheinlichkeit eines bestimmten Punktes \(X=x\) sprechen. Für einen bestimmten Punkt \(X=x\) kann man aber die Dichte der Wahrscheinlichkeit angeben.

Was gleich ist in beiden Situationen (\(Pr(X=.42)\) und \(Pr(0<x<0.5)\)) ist die Wahrscheinlichkeitsdichte, \(f\). In Abbildung 4.13 und Abbildung 4.12 ist die Wahrscheinlichkeitsdichte gleich, \(f=1/10=0.1\).

Definition 4.6 (Wahrscheinlichkeitsdichte) Die Wahrscheinlichkeitsdichte \(f(x)\) gibt an, wie viel Wahrscheinlichkeitsmasse pro Einheit von \(X\) an an der Stelle \(x\) ist.\(\square\)

Die Wahrscheinlichkeitsdichte zeigt an, an welchen Stellen \(x\) die Wahrscheinlichkeit besonders “geballt” oder “dicht” sind, s. Abbildung 4.14.

Abbildung 4.14: Die Wahrscheinlichkeit, dass eine Zufallsvariable einen Wert zwischen und annimmt, entspricht dem Inhalt der Fläche unter dem Graph der Wahrscheinlichkeitsdichtefunktion. Bildrechte: 4C, Wikipedia, CC-BY-SA .

Definition 4.7 (Verteilungsfunktion) Die Verteilungsfunktion einer stetigen Zufallsvariablen gibt wie im diskreten Fall an, wie groß die Wahrscheinlichkeit für eine Realisation kleiner oder gleich einem vorgegebenen Realisationswert \(x\) ist.\(\square\)

Die Verteilungsfunktion \(F(x)\) ist analog zur kumulierten Häufigkeitsverteilung zu verstehen, vgl. Abbildung 4.15. \(\square\)

Abbildung 4.15: Verteilungsfunktion F für X=“Wartezeit auf den Bus”

Definition 4.8 (Stetige Wahrscheinlichkeitsverteilung) Bei stetigen Zufallsvariablen \(X\) geht man von unendlich vielen Ausprägungen aus; die Wahrscheinlichkeit einer bestimmten Ausprägung ist (praktisch) Null: \(Pr(X=x_j)=0, \quad j=1,...,+\infty \square\).

Beispiel 4.10 (Wahrscheinlichkeitsverteilung für die Körpergröße) So ist die Wahrscheinlichkeit, dass eine Person exakt 166,66666666… cm groß ist, (praktisch) Null. Man gibt stattdessen die Dichte der Wahrscheinlichkeit an: Das ist die Wahrscheinlichkeit(smasse) pro Einheit von \(X\).\(\square\)

Für praktische Fragen berechnet man zumeist die Wahrscheinlichkeit von Intervallen, s. Abbildung 4.14.

4.3 Wichtige Verteilungen

Im Folgenden sind einige wichtige Verteilungen aufgeführt, die in diesem Skript (und in der Statistik und Wahrscheinlichkeitstheorie) eine zentrale Rolle spielen.

📺 Einstieg in Verteilungen

4.4 Gleichverteilung

4.4.1 Indifferenz als Grundlage

Eine Gleichverteilung nimmt an, dass jeder Wert im Ergebnisraum der zugehörigen Zufallsvariable gleichwahrscheinlich ist. Wenn man keinen hinreichenden Grund hat, eine Realisation einer Zufallsvariablen für plausibler als einen anderen zu halten, ist eine Gleichverteilung eine passende Verteilung. Gleichverteilungen gibt es im diskreten und im stetigen Fall.

Abb. Abbildung 4.16 zeigt ein Beispiel für eine (stetige) Gleichverteilung.

(a) Beispiel a: Gleichverteilung min=-1, max=1. Dichte: 1/2
(b) Beispiel b: Gleichverteilung min=0, max=3. Dichte: 1/3
Abbildung 4.16: Stetige Gleichverteilung; man beachte jeweils die Y-Achse

Abbildung 4.16, links: Bei \(X=0\) hat eine Einheit von \(X\) (d.h. von -0.5 bis +0.5) die Wahrscheinlichkeitsmasse von 50%, da der Bereich \([-0.5, +0.5]\) die Hälfte (50%) der Wahrscheinlichkeitsmasse der Verteilung beinhaltet. Bei jedem anderen Punkt \(x\) ist die Dichte gleich. Abbildung 4.16, rechts: Bei \(X=0\) hat eine Einheit von \(X\) die Wahrscheinlichkeitsmasse von ca. 33%, da der Bereich \([-0.5, +0.5]\) ein Drittel der Wahrscheinlichkeitsmasse der Verteilung beinhaltet. Bei jedem anderen Punkt \(x\) ist die Dichte gleich. Definierendes Kennzeichen einer Gleichverteilung ist die konstante Dichte.

4.4.2 Simulation

Möchte man die Verteilungsfunktion einer stetigen Zufallsvariablen berechnen, kann die Mathe ganz schön kompliziert werden, schließlich muss man Integrale lösen. Aber es gibt einen Trick, wie man die Sache stark vereinfachen kann: man simuliert die Verteilung. Was bedeutet das?

Angenommen, die Wartezeit auf einen Bus ist gleichverteilt (engl. uniform distribution); der Bus kommt regelmäßig und pünktlich alle 10 Minuten. Die minimale Wartezeit beträgt also 0 Minuten und die maximale 10 Minuten. Nennen wir die zugehörige Zufallsvariable \(X\), das ist schön kurz zu schreiben.

Eine gleichverteilte Zufallsvariable \(X\) mit Min \(m_0\) und Maximum \(m_1\) schreibt man auch wie folgt in Kurzschreibweise:

\[X \sim Unif(m_0,m_1).\]

Ja, das sieht fancy aus, ist aber dafür schön kurz, aber wo ist der versprochene Trick zum Vereinfachen? Kommt gleich, Moment.

Eine Frage könnte nun lauten, wie groß ist die Wahrscheinlichkeit, dass man zwischen 3 und 5 Minuten auf den Bus warten muss? Achtung: Hier ist der Trick. Nämlich, dass wir Integralrechnung gegen stumpfes Zählen eintauschen.

Computer (und damit R) haben eingebaute Funktionen, die eine beliebige Zufallszahl ziehen können, zum Beispiel gleichverteilte. Auf Errisch heißt das Zauberwort runif(): Mit dieser Funktion kann man gleichverteilte Zufallszahlen ziehen. Einfach gesprochen: Der Computer greift in eine Säckchen mit Murmeln, die mit verschiedenen Zahlen beschriftet sind, wobei alle Zahlen gleich häufig sind, und greift eine heraus.

Code
set.seed(42)  # Zufallszahl festlegen, nur für Reproduzierbarkeit
# "r" wie random, "unif" wie "uniform" (gleich):
runif(n = 1, min = 0, max = 10) 

Auf Deutsch heißt das:

👨‍🏫 “Hey R, ich hätte gerne eine (daher n = 1) Zufallszahl (r wie random), die gleichverteilt ist (uniform) mit min = 0 und max = 10.

🤖 Jawohl, oh herrliches Leberwesen

(Zu) anschaulich gesprochen: R hat den Bus kommen lassen und es hat gut 9.1 Minuten gedauert, bis er da war. Achtung, jetzt kommt’s: Jetzt lassen wir R mal \(10^5\) (1e5 auf Computersprech) Busse vorfahren. R soll jedes Mal notieren, wie lange man auf den Bus warten musste.3

Code
x_simu <- runif(n = 1e5, min = 0, max = 10)

Schauen wir uns die Verteilung an, s. Abbildung 4.17.4

Code
library(ggpubr)
gghistogram(x_simu_df, x = "x_simu", fill = "grey20")
Abbildung 4.17: Simulation einer gleichverteiluten Zufallsvariablen

Okay, unsere Verteilung sieht nicht exakt gleichverteilt, aber einigermaßen. Gut genug für unsere Zwecke!

So, und jetzt kommt das Ernten. Wir können jetzt nämlich einfach zählen (count()), um die Antwort auf unsere Frage (der Wartezeit 3-5 Min.) zu erhalten, s. Tabelle 4.4.

Code
x_simu_df %>% 
  count(Schnittmenge = x > 3 & x < 5)
Tabelle 4.4: Häufigkiten auslesen anstelle von Integralen berechnen

Das Zeichen & ist das logische UND, also die Schnittmenge der zwei Mengen \(A\) (\(X\) ist größer als 3) und \(B\) (\(X\) ist kleiner als 5), d.h. \(A := \{x|x>3\}\) und \(B := \{x|x<5\}\), also \(A \cap B\).

Wie man sieht, fallen ca. 20% der Stichproben in den entsprechenden Bereich.

Da viele Probleme, wenn sie komplexer werden, kaum noch “analytisch” (d.h. wie Ausrechnen von Integralen) lösbar sind, greift man in der modernen (Analyse-)Welt oft lieber auf Simulationsverfahren zurück - Dank sei den schnellen Rechnern. Für uns Menschen ist damit die Aufgabe des Integrierens auf schnödes Zählen zurückgeführt.

4.5 Binomialverteilung

4.5.1 Grundlagen

Definition 4.9 (Binomialverteilung) Die Binomialverteilung dient zur Darstellung der Wahrscheinlichkeit der Ergebnisse eines \(n\)-fach wiederholten binomialen Zufallexperiments, eines Zufallsexperiments mit zwei5 Ergebnissen bzw. Elementarereignissen also. Dabei interessiert die Anzahl der \(k\) Treffer (aber nicht die Reihenfolge). Typisches Beispiel ist ein (wiederholter) Münzwurf.6\(\square\)

Für eine binomialverteilte Zufallsvariable \(X\) schreibt man kurz (s. Gleichung 4.1):

\[X \sim \text{Bin}(n, k) \tag{4.1}\]

Beispiel 4.11 Anwendungsbeispiele: Wie viele defekte Teile sind in einer Stichprobe von produzierten Schrauben zu erwarten? Wie wahrscheinlich ist es, dass das neue Blutdruck-Medikament einer bestimmten Anzahl von Menschen hilft? Wie viele Personen stimmen in einer Umfrage der Frage “Ich halte die öffentlich-rechtlichen Sender für wichtig.” zu? \(\square\)

Stellen wir uns eine Kistchen7 mit sehr vielen8 Losen vor, darunter 2/5 Treffer (Gewinn) und 3/5 Nieten, s. Abb. Abbildung 4.18. Der Versuch läuft so ab: Wir ziehen ein Los, schauen ob es ein Treffer ist oder nicht, legen es zurück und ziehen erneut.9 Jetzt ziehen wir z.B. drei Lose. Wie groß ist die Wahrscheinlichkeit, davon 2 Treffer zu erzielen (egal in welcher Reihenfolge)?

Abbildung 4.18: Ein Loskästchen mit 2/5 Treffer und 3/5 Nieten

Praktischerweise ist die Binomialverteilung in R eingebaut,
hier ist Pseudocode für Ihre Anwendung, s. Listing 4.1.

Listing 4.1: R-Pseudocode für die Binomialverteilung
dbinom(x = <Anzahl der Treffer>, 
       size = <Anzahl der Würfe>, 
       prob = <Wahrscheinlichkeit>)

4.5.2 Möglichkeiten zählen

Beispiel 4.12 (Drei Lose gekauft, davon zwei Treffer?) Wie groß ist die Wahrscheinlichkeit bei \(n=3\) Zügen \(k=2\) Treffer zu erzielen (und \(n-k=1\) Niete)? (Nennen wir dieses Ereignis der Kürze halber \(A^{\prime}\) ). De Trefferwahrscheinlichkeit ist (bei jedem Zug) \(p=2/5\) und die Nietenwahrscheinlichkeit \(1-p=3/5\).\(\square\)

Code
df_binom <-
  tibble(
    k = 0:3,
    p = dbinom(0:3, size = 3, prob = 2/5))

Mit Blick auf Beispiel 4.12: Wir könnten jetzt ein Baumdiagramm zeichnen und pro Pfad die Wahrscheinlichkeit ausrechnen (Multiplikationssatz, Gleichung 3.12), vgl. Abbildung 4.20. Die Summe der Wahrscheinlichkeiten der Pfade ist dann die gesuchte Wahrscheinlichkeit (Additionssatz, Gleichung 3.3). Diagramme zeichnen ist einfach, dauert aber.

Beachtet man die verschiedenen Reihenfolgen nicht (in Abbildung 4.20), so zählt man 3 günstige Pfade (vgl. Abbildung 4.19):

  1. TTN
  2. TNT
  3. NTT.
Abbildung 4.19: Wie viele Möglichkeiten gibt es, 3 Lose zu sortieren, von denen 2 Treffer sind und 1 Niete?

Wir haben also die Möglichkeiten (2 Treffer und 1 Niete zu erhalten)

  • ohne Beachtung der Reihenfolge und
  • ohne Zurücklegen (der Möglichkeiten)

gezählt.

flowchart LR
  A[Start] -->B[Zug 1 - T]
  A -->C[Zug 1 - T]
  A -->D[Zug 1 - N]
  B -->E[Zug 2 - T]
  B -->F[Zug 2 -  N]
  C -->G[Zug 2 - T]
  C -->H[Zug 2 - N]
  D -->I[Zug 2 - T]
  D -->J[Zug 2 - T]
  E -->K[Zug 3 - N]
  F -->L[Zug 3 - T]
  G -->M[Zug 3 - N]
  H -->N[Zug 3 - T]
  I -->O[Zug 3 - T]
  J -->P[Zug 3 - T]
  K -->Q[TTN]
  L -->R[TNT]
  M -->S[TTN]
  N -->T[TNT]
  O -->U[NTT]
  P -->V[NTT]
  
Abbildung 4.20: Baumdiagramm für das Ziehen von 2 Treffern und 1 Niete

Schneller geht es, wenn man rechnet. Wir könnten auch R auffordern, die Anzahl der günstigen Pfade zu berechnen, s. Gleichung 4.4:

Code
choose(3,2)
## [1] 3

4.5.3 Anzahl Pfade mal Pfad-Wahrscheinlichkeit

In diesem Fall ist die Wahrscheinlichkeit eines (günstigen) Pfades, \(A\):

\(Pr(A) = Pr(T)^2 \cdot Pr(N)^1 = \left( \frac{2}{5} \right)^2 \cdot \left( \frac{3}{5} \right)^1\).

Code
p_a = (2/5)^2 * (3/5)^1
p_a
## [1] 0.096

Damit ist die Wahrscheinlichkeit des gesuchten Ereignisses \(A^{\prime}\) (2 Treffer bei 3 Zügen) gleich der Anzahl der günstigen Pfade mal der Wahrscheinlichkeit eines Pfades, , s. Gleichung 4.2:

\(Pr(A^{\prime}) = 3 \cdot Pr(A)\).

Code
p_a_strich = 3 * p_a
p_a_strich
## [1] 0.288

Die Wahrscheinlichkeit, bei 3 Zügen 2 Treffer zu erzielen, beträgt also ca. 29%.

\[Pr(A^{\prime}) = k \cdot Pr(A) \tag{4.2}\]

Dabei steht \(k\) für die Anzahl der günstigen Pfade und \(Pr(A)\) für die Wahrscheinlichkeit eines günstigen Pfades (d.h. 2 Treffer und 1 Nieten) und alle Pfade haben die gleiche Wahrscheinlichkeit.

4.5.4 Rechnen mit der Binomialverteilung

Die Binomialverteilung ist in R eingebaut; man kann sich leicht entsprechende Wahrscheinlichkeiten ausrechnen lassen. Das ist komfortabler als selber rechenn.

Code
dbinom(x = 2, size = 3, prob = 2/5)
## [1] 0.288

Die Wahrscheinlichkeit, 2 Treffer bei 3 Zügen zu erzielen mit \(p=2/5\), beträgt ca. 29%.

Dabei gehen wir davon aus, dass die Wahrscheinlichkeit eines Treffers stets \(p=2/5\) beträgt.

Beispiel 4.13 (Lotto) Wie viele Zahlenkombinationen gibt es im Lotto für 6 Richtige? Der Binomialkoeffizient verrät es uns: \(\tbinom{49}{6}= 13\,983\,816\square\)

Beispiel 4.14 Wie viele Möglichkeiten gibt es, 2 Treffer bei 4 Zügen zu erzielen?

  1. TTNN, 2. TNTN, 3. TNNT, 4. NTTN ,5. NTNT, 6. NNTT.

\(\tbinom{4}{2} = \frac{4!}{2! \cdot (4-2)!} \overset{\text{kürzen}}= \frac{2\cdot 3}{1}=6\)

Es sind also 6 Möglichkeiten.

Code
anzahl_pfade_2_aus_4 <- 
  factorial(4) / (factorial(2) * factorial(4-2))
anzahl_pfade_2_aus_4
## [1] 6

Der R-Befehl choose berechnet den Binomialkoeffizienten.10

Code
choose(4, 2)
## [1] 6

\(\square\)

Beispiel 4.15 Hier sind die 10 Kombinationen, um aus 5 Losen genau 2 Treffer und 3 Nieten zu ziehen:

TTNNN, TNTNN, TNNTN, TNNNT, NTTNN, NTNTN, NTNNT, NNTTN, NNTNT, NNNTT

Code
choose(5, 2)
## [1] 10
Code
anzahl_pfade_2_aus_5 <- 
  factorial(5) / (factorial(2) * factorial(5-2))
anzahl_pfade_2_aus_5
## [1] 10

\(\square\)

Beispiel 4.16 (Beförderung) Aus einem Team mit 25 Personen sollen 11 Personen befördert werden. Wie viele mögliche Kombinationen (von beförderten Personen) können gebildet werden?

\(\tbinom{25}{11} = \frac{25!}{11!\cdot(25-11)!} = 4\,457\,400\)

Code
choose(n = 25, k = 11)
## [1] 4457400

Es gibt 4457400 Kombinationen von Teams; dabei ist die Reihenfolge der Ziehung nicht berücksichtigt.\(\square\)

Beispiel 4.17 (Pumpstation-Beispiel zur Binomialverteilung) In einer Pumpstation arbeiten 7 Motoren, die wir als identisch annehmen. Mit einer Wahrscheinlichkeit von 5% fällt ein Motor aus und ist für den Rest des Tages nicht einsatzbereit. Der Betrieb kann aufrecht erhalten werden, solange mindestens 5 Motoren arbeiten. Wie groß ist die Wahrscheinlichkeit, dass die Pumpstation aus dem Betrieb fällt?

\(Pr(X=k)\) (oder kurz: \(Pr(k)\)) gibt die Wahrscheinlichkeit (Wahrscheinlichkeitsfunktion) an für das Ereignis, dass k Motoren arbeiten.

Lassen wir R mal \(Pr(X=5)\) ausrechnen.

Code
dbinom(x = 5, size = 7, prob = .95)
## [1] 0.0406235

Es gilt also \(Pr(X=5) \approx .04\). Die Wahrscheinlichkeit, dass (nur) 5 Motoren laufen an einem beliebigen Tag ist relativ gering11. Die Wahrscheinlichkeit, dass \(k=0 \ldots 7\) Motoren laufen, ist in Abbildung 4.21 dargestellt.

dbinom() steht für die Wahrscheinlichkeitsdichte (im diskreten Fall, wie hier, Wahrscheinlichkeitsfunktion genannt) und binom für die Binomialverteilung. x gibt die Anzahl der Treffer an (das gesuchte Ereignis, hier 5 Motoren arbeiten); size gibt die Stichprobengröße an (hier 7 Motoren).

Damit gilt:

\(Pr(X\ge 5) = Pr(X=5) + Pr(X=6) + Pr(X=7)\)

Berechnen wir zunächst die Wahrscheinlichkeit, dass 5,6 oder 7 Motoren laufen mit Hilfe der Binomialverteilung.

Code
p_5 <- dbinom(x = 5, size = 7, prob = .95)
p_6 <- dbinom(x = 6, size = 7, prob = .95)
p_7 <- dbinom(x = 7, size = 7, prob = .95)

p_5
## [1] 0.0406235
p_6
## [1] 0.2572822
p_7
## [1] 0.6983373

Das sind 0.04, 0.26, 0.7.

Die gesuchte Wahrscheinlichkeit, p_mind_5, ist die Summe der drei Einzelwahrscheinlichkeiten.

Code
p_mind_5 <- p_5 + p_6 + p_7

p_mind_5
## [1] 0.996243

Die Wahrscheinlichkeit, dass mind. 5 Motoren arbeiten beträgt also 0.9962.

Das komplementäre Ereignis zu diesem Ereignis ist, dass nicht mind. 5 Motoren arbeiten, also höchstens 4 und es daher zu einem Ausfall kommt. Es gilt also \(Pr(\bar{X}) = 1- Pr(X)\).

Code
p_weniger_als_4 <- 1 - p_mind_5
p_weniger_als_4
## [1] 0.003757043

Das sind also 0.0038 oder 0.0003, also 0.03% Wahrscheinlichkeit, dass die Pumpstation ausfällt.

(a) In ‘normaler’ Wahrscheinlichkeit, 0<p<1
(b) In Log-Einheiten (Basis 2), ‘Halbierungen’
Abbildung 4.21: Wahrscheinlichkeit, dass genau k = 0..7 Motoren laufen

Alternativ kann man mit der Verteilungsfunktion pbinom() rechnen, die \(Pr(X \le 4)\) berechnet.

In R kann man die Funktion pbinom() nutzen (p für (kumulierte) Wahrscheinlichkeit), um die Verteilungsfunktion der Binomialverteilung zu berechnen:

Code
pbinom(q = 4, size = 7, prob = .95)
## [1] 0.003757043

q = 4 steht für \(X \le 4\), also für höchstens 4 Treffer (arbeitende Motoren); size = 7 meint die Stichprobengröße, hier 7 Motoren; prob gibt die Trefferwahrscheinlichkeit an. \(\square\)

Wichtig

Die Funktion, die die Wahrscheinlichkeit dafür angibt, dass die diskrete Zufallsvariable \(X\) eine Realisation annimmt, die kleiner oder gleich (höchstens) einem Wert \(X=x\) ist, heißt Verteilungsfunktion.

\(F(X=x) = Pr(X \le x)\)

4.5.4.1 Formel der Binomialverteilung

Gleichung 4.3 zeigt die mathematische Definition der Binomialverteilung. Dabei liegt immer ein Zufallsversuch mit \(n\) Durchgängen und \(k\) Treffern zugrunde. Jeder Durchgang hat die Trefferwahrscheinlichkeit \(p\) und jeder Durchgang ist unabhängig von allen anderen.

\[Pr(X=k|p,n) = \frac{n}{k!(n-k)!}p^k(1-p)^{n-k} \tag{4.3}\]

Gleichung 4.3 kann wie folgt auf Deutsch übersetzen:

Die Wahrscheinlichkeit für das Ereignis \(X\) gegeben \(p\) und \(n\) berechnet als Produkt von zwei Termen. Der erste Term ist der Quotient von der Fakultät von n im Zähler und im Nenner das Produkt von erstens der Fakultät von k mit zweitens der Fakultät von (n-k). Der zweite Term ist das Produkt von p hoch k mal der komplementären Wahrscheinlichkeit von p hoch (n-k).

Oder noch kürzer:

Die Wahrscheinlichkeit für das Ereignis “X” gegeben p und k berechnet als Produkt von zwei Termen. Erstens der Anzahl der günstigen Pfade, k und zweitens der Wahrscheinlichkeit für einen günstigen Pfad, P(A).

Die Anzahl der (günstigen) Pfade kann man mit dem Binomialkoeffizient ausrechnen, den man so darstellt, s. Gleichung 4.4.12

Definition 4.10 (Binomialkoeffizient) Der Binomialkoeffizient gibt an, auf wie vielen verschiedenen Arten man aus einer Menge von \(n\) verschiedenen Objekten \(k\) Objekte ziehen kann (ohne Zurücklegen und ohne Beachtung der Reihenfolge).

\[k = \tbinom{n}{k}= \frac{n!}{k!(n-k)!} \tag{4.4}\]

Lies: “Wähle aus \(n\) möglichen Ereignissen (Pfade im Baum) \(k\) günstige Ereignisse (günstige Pfade) oder kürzer”k aus n”.

Puh, Formeln sind vielleicht doch ganz praktisch, wenn man sich diese lange Übersetzung der Formel in Prosa duchliest. Noch praktischer ist es aber, dass es Rechenmaschinen gibt, die die Formel kennen und für uns ausrechnen.

Beispiel 4.18 (Klausur mit 20-Richtig-Falsch-Fragen) Ei Professi stellt einen Klausur mit 20 Richtig-Falsch-Fragen. Wie groß ist die Wahrscheinlichkeit, durch bloßes Münze werfen genau 15 Fragen richtig zu raten?13

Code
# Wskt für genau 15 Treffer bei 20 Versuchen mit einer fairen Münze:
dbinom(x = 15, size = 20, prob = .5)
## [1] 0.01478577

Um höchstens 15 Treffer zu erzielen, müssten wir die Wahrscheinlichkeiten von 0 bis 15 Treffern addieren.

Praktischerweise gibt es einen R-Befehl, der das für uns übernimmt: pbinom.

Code
pbinom(q = 15, size = 20, prob = .5)
## [1] 0.994091

Die Wahrscheinlichkeit 0, 1, 2, … oder 15 Treffer zu erzielen, liegt laut Binomialverteilung mit pbinom bei gut 99%.

Beispiel 4.19 (3 Münzwürfe mit 3 Treffern) Was ist die Wahrscheinlichkeit bei 3 Münzwürfen (genau) 3 Treffer (Kopf) zu erzielen, s. Abbildung 4.22?

Das ist eine Frage an die Binomialverteilung; in R kann man das mit der Funktion dbinom beantworten.

Code
dbinom(x = 3, size = 3, prob = 1/2)
## [1] 0.125

Die Lösung lautet also \(p=1/8 = .125.\qquad \square\)

Man kann sich auch vor Augen führen, dass es genau 1 günstigen Pfad gibt, nämlich TTT. Nach dem Multiplikationssatz gilt also: \(Pr(X=3) = 1 \cdot \left( \frac{1}{2} \right)^3 = \frac{1}{8} = .125\).

Code
loesung <- (1/2)^3
loesung
## [1] 0.125
(a) n=3, p=1/2
(b) n=9, p=.7
Abbildung 4.22: Verschiedene Binomialverteilungen

Übungsaufgabe 4.2 🏋️️ Was fällt Ihnen bei der Binomialverteilung auf? Ist sie symmetrisch? Verändert sich die Wahrscheinlichkeit linear?

4.5.5 Vertiefung

4.5.5.1 Logarithmus

Ein Logarithmus ist die Umkehrung der Potenzierung.

Der Logarithmus beantwortet folgende Frage: Mit welchem Exponenten muss ich eine bestimmte Zahl (die Basis) potenzieren, um eine andere Zahl zu erhalten? Die Antwort auf diese Frage ist der Logarithmus.

Formal ausgedrückt:

Definition 4.11 Der Logarithmus von einer Zahl \(a\) zur Basis \(b\) ist die Zahl \(x\), mit der man \(b\) potenzieren muss, um \(a\) zu erhalten. \(\square\)

Der Logarithmus zur Basis 214 gibt die “Verdopplungen” bzw. “Halbierungen” der Wahrscheinlichkeit an, wobei \(ld(1/2) = -1.\square\)

Beispiel 4.20 \(ld(1/2) = -1:\)

Code
log(.5, base = 2)
## [1] -1

1/2 ist genau “minus 1 Verdopplung” von 1 entfernt, d.h. eine Halbierung.

\(ld(1/4) = -2:\)

Code
log(1/4, base = 2)
## [1] -2

1/4 ist genau “minus 2 Verdopplungen” von 1 entfernt, d.h. zwei Halbierungen.

\(ld(1/8) = -3:\)

Code
log(1/8, base = 2)
## [1] -3

1/8 (0.125) ist 3 Halbierungen von 1 entfernt.\(\square\)

4.5.5.2 Simulieren wir eine Binomialverteilung

Die Binomialverteilung lässt sich gut als “Münzwurf-Verteilung” auffassen.

Werfen wir eine Münze und sehen wir, was passiert.

Code
sample(x = c(0, 1), size = 1)
## [1] 0

Mit sample() ziehen wir eine Stichprobe aus dem Ereignisraum x, hier 0 und 1. Dabei vereinbaren wir (willkürlich), dass 0 für “Kopf” steht und 1 für “Zahl”. size = 1 bedeutet, wir werfen die Münze ein Mal (d.h. Stichprobengröße size ist 1).

Okay, noch an Bord? Dann werfen wir die Münze 10 Mal:

Code
sample(x = c(0, 1), size = 10, replace = TRUE)
##  [1] 1 0 1 1 0 0 0 0 0 1

replace = TRUE heißt, wir legen die Münze wieder zurück auf den Tisch, wenn wir sie geworfen haben. Oder anders ausgedrückt: Ziehen mit Zurücklegen.

R, mach dich bereit, wirf die Münze 1000 (\(n=10^3\) oder 1e3) Mal15:

Code
n <- 1e3

muenze_oft <- 
  sample(x = c(0, 1), size = n, replace = TRUE) 


muenze_oft %>% 
  sum()
## [1] 515

Mit sum() nach dem Pfeifensymbol %>% haben wir aus dem Vektor muenze_oft, der aus der ersten Zeile resultiert, die Summe ausgerechnet.

Jetzt wissen wir, wie oft die Münze “Zahl” gezeigt hat, nämlich 515 Mal.

Hinweis

Wenn Sie einen Zufallsversuch wiederholen, muss nicht jedes Mal das gleiche Ergebnis resultieren. Entsprechend wird bei wiederholten Ausführung der Funktion sample() nicht immer das gleiche Ergebnis resultieren. Wundern Sie sich also nicht, wenn bei Ihrem Computer eine ähnliche, aber nicht gleiche, Zahl herauskommt.

Visualisieren wir mal unsere Münzwürfe. Dazu erstellen wir zuerst eine geeignete Tabelle, Tabelle 4.5.

Code
muenz_tab <-
  tibble(
    id = 1:n,
    x = muenze_oft,
    x_cumsum = cumsum(x) / id  # gibt Anteil von "Zahl" wieder
  )
Tabelle 4.5: Die kumulierte Summe beim Münzwurf (nur die ersten paar Zeilen)

Und hier der Anteil von “Zahl” im Verlauf unserer Münzwürfe, s. Abbildung 4.23.16

Abbildung 4.23: Das Gesetz der großen Zahl am Beispiel der Stabilisierung des Trefferanteils beim wiederholten Münzwurf

Grob gesagt scheint sich ein Münzwurf nach, naja, vielleicht 500 Würfen “einigermaßen” zu stabilisieren.17

Das Gesetz der großen Zahl

Zieht man (zufällig) immer mehr Werte aus einer Verteilung (mit endlichem Mittelwert), nähert sich der Mittelwert der Stichprobe immer mehr mit dem Mittelwert (oft als Erwartungswert bezeichnet) der Verteilung an.

4.6 Normalverteilung

4.6.1 Grundlagen

Definition 4.12 (Normalverteilung) Normalverteilungen haben eine charakteristische Glockenform; sie sind symmetrisch18. Normalverteilungen können sich unterscheiden in ihrem Mittelwert \(\mu\) und ihrer Streuung, \(\sigma\). Diese beiden Größen (“Parameter”) determinieren den Graphen einer bestimmten Normalverteilungsfunktion, s. Abbildung 4.24. Sind diese beiden Parameter bekannt, so ist die Dichte jedes beliebigen Datenpunkts (aus dieser Normalverteilung) bestimmt.\(\square\)

Eine normalverteilte Zufallsvariable \(X\) mit einem bestimmten Mittelwert und einer bestimmten Streuung schreibt man kurz so:

\[X \sim \mathcal{N}(\mu, \sigma)\]

Definition 4.13 (Parameter) Ein Parameter (einer Verteilung) legt die “Varianten” einer Verteilung fest. Durch die Wahl der Parameterwerte nimmt eine Verteilung eine genaue Form an.\(\square\)

Abbildung 4.24: Beispiele von Normalverteilungen mit verschiedenen Mittelwerten und Streuungen, Quelle: Wikipedia

Beispiel: Wie groß sind Studentis (Quelle des Datensatzes)?

Das Quantil von z.B. 25% zeigt die Körpergröße der 25% kleinsten Studentis an, analog für 50%, 75%, vgl. Tabelle 4.6.

Tabelle 4.6: Quantile der Körpergrößen von Studentis
q25 q50 q75
160.02 167.64 175.26

Abbildung 4.25 zeigt eine Visualisierung der Quantile.

Abbildung 4.25: Quantile verschieden visualisiert
Hinweis

Das 25%-Quantil nennt man 1. Quartil, das 50%-Quantil auch 2. Quartil, das 75%-Quantil das 3. Quartil, und das 100%-Quantil (Maximalwert) das 4. Quartil.

Verwechseln Sie die Normalverteilung nicht mit der Paranormalverteilung, s. Abbildung 4.26.

Abbildung 4.26: Die Paranormalverteilung

4.6.2 IQ-Verteilung

Die Verteilung der Zufallsvariablen IQ ist normalverteilt mit einem Mittelwert von 100 und einer Streuung von 15, s. Abbildung 4.27:

\(IQ \sim \mathcal{N}(100,15)\)

Übungsaufgabe 4.3 (Wie schlau muss man (nicht) sein?)  

  • Wie schlau muss man sein, um zu den unteren 75%, 50%, 25%, 5%, 1% zu gehören?
  • Anders gesagt: Welcher IQ-Wert wird von 75%, 50%, … der Leute nicht überschritten?\(\square\)
Abbildung 4.27: Visualisierung der theoretischen IQ-Verteilung

Quelle:: John Kruschke.

Ziehen wir zufällig \(1e4\) (10000) Stichproben aus \(\mathcal{N}(100,15)\) und berechnen die Quantile mit dem R-Befehl quantile(), s. Tabelle 4.7.

Code
d <-
  tibble(
  iq = rnorm(n = 1e4, 
             mean = 100, 
             sd = 15))

probs <- c(0.75,.5,.25,.05,.01)

d_summary <- d %>% 
  summarise(p = probs,
            q = quantile(iq, probs))
Tabelle 4.7: Quantile der IQ-Verteilung
p q
0.75 110
0.50 100
0.25 90
0.05 75
0.01 65

Das Quantil \(q\) zur kumulierten Wahrscheinlichkeit \(p=75\) ist 110, etc.

Umgekehrt können wir uns auch fragen: Gegeben einer Realisation der Zufallsvariablen (z.B. IQ), was ist die zugehörige Wahrscheinlichkeit (Wert der Verteilungsfunktion?)

Übungsaufgabe 4.4 (Wie schlau muss man (nicht) sein, Teil 2)  

  • Welcher Anteil der Fläche unter der Kurve \(p\) gehört zu den IQ-Werten 75, 100, 115, 130?
  • Anders gesagt: Welcher Anteil der Wahrscheinlichkeitsmasse der Verteilung liegt unter IQ=75, IQ=100, etc.?\(\square\)

Ziehen wir Stichproben aus \(\mathcal{N}(100,15)\). Was ist die Wahrscheinlichkeit für eine iq < 100?

Code
d <-
  tibble(
    iq = rnorm(1e4, 
               mean = 100, 
               sd = 15)) %>% 
  mutate(iq = round(iq))

qs <- c(75,100,115,130)

d %>% 
  count(p_100 = iq < 100) %>% 
  mutate(prop = n / sum(n)) 

Tabelle 4.8 zeigt uns die Antwort.

Hinweis

Wir schätzen die wahre, “theoretische” Wahrscheinlichkeit durch einfaches Ausprobieren: Wir führen das Zufallsexperiment einfach häufig durch. Dann zählen wir den Anteil der Treffer. Nennt man auch “Simulieren”; klingt cooler als “Ausprobieren”.🤓\(\square\)

Tabelle 4.8: Wahrscheinlichkeit für iq < 100
p_100 n prop
FALSE 5059 0.51
TRUE 4941 0.49

Anstelle von iq < 100 kann man iq < 115 einsetzen, etc.

Die Verteilungsfunktion (der Anteil der Wahrscheinlichkeitsmasse), p, für IQ-Werte nicht größer als 100, \(IQ\le100\), ist 50%, etc.

4.6.3 Quantile der Normalverteilung

💡 Zur Erinnerung: Quantile teilen eine Verteilung so ein, dass ein Anteil \(p\) kleiner oder gleich und der andere Teil \(1-p\) größer dem Quantil \(q\) ist.

Beispiel 4.21 “50%-Quantil = 100” meint, dass 50% der Elemente der Verteilung einen Wert kleiner oder gleich als 100 haben. Man schreibt auch: q(.5) = 100.

💡 Zur Erinnerung: Die Verteilungsfunktion F (für einen Wert \(x\) der Zufallsvariable \(X\)) gibt die Wahrscheinlichkeit an, dass \(X\) einen Wert höchstens so groß wie \(x\) annimmt. Sie zeigt also die kumulierte Wahrscheinlichkeit \([-\infty, q)\).

Beispiel 4.22 “F(100) = 50%” meint: Die Wahrscheinlichkeit für eine Ausprägung von höchstens als 100 beträgt 50%.\(\square\)

Schauen wir uns die Quantile der Normalverteilung einmal näher an. Wir gehen von einer Normalverteilung aus, wie sie zur Beschreibung von Intelligenz (IQ) verwendet wird, s. Abbildung 4.28.

Abbildung 4.28: Quantile der IQ-Verteilung (normalverteilt mit MW=100 und SD=15)

\[IQ \sim \mathcal{N}(100, 15)\] Mit R kann man sich die beiden Größen komfortabel berechnen lassen:

Code
qnorm(.50, mean = 100, sd = 15)  # 50%-Quantil
pnorm(100, mean = 100, sd = 15)  # Verteilungsfunktion für IQ=100

Betrachten wir einige häufig verwendete Quantile für die IQ-Verteilung, s. Abbildung 4.29.

Abbildung 4.29: Verschiedene Quantil der Normalverteilung
Abbildung 4.30: Die Quantile einer Standardnormalverteilung für 10%, 20%, … 100% (die Dezile) visualisiert

4.6.4 Standardnormalverteilung

Bei einer Standardnormalverteilung gilt, s. Gleichung 4.5:

\[X \sim \mathcal{N}(0, 1) \tag{4.5}\]

Abbildung 4.31: Normalverteilung mit Mittelwert 0 und SD 1, auch Standard-Normalverteilung genannt

Bei \(X=0\) einer Standard-Normalverteilung (s. Abbildung 4.31) gilt:

  • hat eine Einheit von \(X\) die Wahrscheinlichkeitsmasse von 40% (Wahrscheinlichkeitsdichte)
  • sind 50% der Wahrscheinlichkeitsmasse (Fläche unter der Kurve) kleiner als dieser Wert (Verteilungsfunktion).

In Summe liegen 100% der Wahrscheinlichkeitsmasse unter der Kurve.

Man kann jeder Normalverteilung in eine Standardnormalverteilung überführen mit der z-Transformation.

Ein z-Wert ist das Ergebnis einer z-Transformation, die definiert ist als der Abstand in SD-Einheiten,
den ein Wert vom Mittelwernt entfernt ist, s. Gleichung 4.6.

\[z = \frac{x - \mu}{\sigma} \tag{4.6}\]

4.6.5 Vertiefung

4.6.5.1 Normal auf dem Fußballfeld

Sie und 100 Ihrer besten Freunde stehen auf der Mittellinie eines Fußballfelds. Auf Kommando werfen alle jeweils eine Münze; bei Kopf geht man einen Schritt nach links, bei Zahl nach rechts. Das wird 16 Mal wiederholt. Wie wird die Verteilung der Positionen wohl aussehen?

(McElreath, 2020)

4.6.5.2 Normal durch Addieren

Die Summe vieler (gleich starker) Zufallswerte (aus der gleichen Verteilung) erzeugt eine Normalverteilung; egal aus welcher Verteilung die Zufallswerte kommen (Zentraler Grenzwertsatz), vgl. Abbildung 4.32.

Abbildung 4.32: Entstehen einer Normalverteilung durch Addition vieler unabhgängiger Ereignisse

4.6.5.3 Normalverteilung als konservative Wahl

Dem Mathematiker Carl Friedrich Gauss (s. Abbildung 4.33) wird die Ehre zuerkannt, die Normalverteilung eingeführt zu haben.

Abbildung 4.33: Zehn-Mark-Geldschein mit Gauss und Normalverteilung

Quelle: Uni Greifswald, Public domain, via Wikimedia Commons

Hinweis

Ontologische Begründung

  • Wirken viele, gleichstarke Einflüsse additiv zusammen, entsteht eine Normalverteilung (McElreath, 2020), Kap. 4.1.4.

Epistemologische Begründung

  • Wenn wir nur wissen, dass eine Variable über einen endlichen Mittelwert und eine endliche Varianz verfügt und wir keine weiteren Annahmen treffen bzw. über kein weiteres Vorwissen verfügen, dann ist die Normalverteilung die plausibelste Verteilung (maximale Entropie) (McElreath, 2020), Kap. 7 und 10.

4.6.5.4 Normalverteilung vs. randlastige Verteilungen

Bei randlastigen Verteilungen (“fat tails”) kommen Extremereignisse viel häufiger vor als bei Normalverteilungen. Deshalb ist es wichtig sein, zu wissen, ob eine Normalverteilung oder eine randlastige Verteilung vorliegt. Viele statistische Methoden sind nicht zuverlässig bei (stark) randlastigen Methoden. Abbildung 4.34 grenzt eine Normalverteilung von einer “Fat-Tail-Verteilung” ab.

Abbildung 4.34: Normalverteilung vs. randlastige Verteilungen

Beispiel 4.23 (Beispiele für Normal- und randlastige Verteilungen)  

Normal verteilt:

  • Größe
  • Münzwürfe
  • Gewicht
  • IQ
  • Blutdruck
  • Ausschuss einer Maschine

Randlastig verteilt:

  • Vermögen
  • Verkaufte Bücher (Anzahl)
  • Ruhm (z.B. Anzahl Follower auf Instagram)
  • Aktienkurse (Kurswert)
  • Erdbeben (Stärke)
  • Anzahl von Todesopfern in Pandemien
  • Anzahl von Todesopfern in Kriege
  • Erfolg auf Tinder (Anzahl erfolgreicher Matches)
  • Meteroritengröße (Volumen)
  • Stadtgrößen (Einwohnerzahl)

4.6.5.5 Formel der Normalverteilung

Vereinfacht ausgedrückt lässt die Normalverteilung \(\mathcal{N}\) durch Exponenzieren einer Quadratfunktion beschreiben:

\[\mathcal{N} \propto e^{-x^2}\]

mit \(e=2.71...\), der Eulerschen Zahl.19

Wie man sieht (Abbildung 4.35) ergibt sich eine Normalverteilung.

Abbildung 4.35: Wir basteln uns eine Normalverteilung

Eine Normalverteilung mit \(\mu=0\) und \(\sigma=1\) nennt man auch Standardnormalverteilung und man schreibt:

\[IQ \sim \mathcal{N}(0,1)\]

Die Normalverteilung wird auch Gauss-Verteilung oder Glockenkurve genannt.

4.6.5.6 Simulation einer Normalverteilung

R hat eine Funktion eingebaut zur Erzeugung von Zufallszahlen (Zufallszahlengenerator), z.B. normalverteilte. Man übergibt dieser Funktion den gewünschten Mittelwert und die gewünschte Streuung und die Funktion zieht dann zufällig Werte aus dieser Verteilung.

Diesen Zufallszahlengenerator kann man mit einem Duschkopf vergleichen, s. Abbildung 4.36. An diesem Duschkopf kann man einen Schwenker einstellen, der den Duschkopf ausrichtet, also steuert, ob die Wassertropfen weit in die eine oder die andere Richtugn fallen. Zweitens hat unser Duschkopf noch einen Streuregler, der den Wasserstrahl entweder eng bündelt20 oder weit auseinanderfächert. Im ersten Fall fällt der Wasserstrahl eng und schmal aus. Im zweiten Fall fällt der Wasserstrahl breit aus.

Abbildung 4.36: Zufallszahlengenerator als Duschkopf

Quelle: John Kruschke.

Eine Zufallszahl (random number), die normalverteilt ist, mit \(\mu=0\) und \(\sigma=1\) kann man in R so erzeugen:

Code
rnorm(n = 1, mean = 0, sd = 1)
## [1] 0.2664096

Ein Fallbeispiel: Der Inhalt einer Tüte mit Zucker, \(X\), sei normalverteilt mit \(\mu = 10002\) g und \(\sigma=1.5\) g. Aus vertragsrechtlichen Gründen darf das Füllgewicht von 1000g nicht unterschritten werden, sonst drohen Konventionalstrafen.

Wie groß ist die Wahrscheinlichkeit, dass 1000g unterschritten werden?

Simulieren wir uns 1e5 (100000) Zuckertüten!

Code
n <- 1e5
d <- 
  tibble(
    id = 1:n,
    x = rnorm(n = n, mean = 1002, sd = 1.5)
  )

head(d)

Zählen wir, viele der Zuckertüten ein Gewicht von weniger als 1000g aufweisen:

Code
d %>% 
  count(x < 1000)

Ein ziemlich21 kleiner Anteil. Rechnen wir uns noch die Anteile (proportion) aus:

Code
d %>% 
  count(x < 1000) %>% 
  mutate(prop = n/1e4)

4.7 Vertiefung

Bourier (2011), Kap. 6.2 und 7.1 erläutert einige (grundlegende) theoretische Hintergründe zu diskreten Zufallsvariablen und Wahrscheinlichkeitsverteilungen. Wichtigstes Exemplar für den Stoff dieses Kapitels ist dabei die Binomialverteilung.

Mittag & Schüller (2020) stellen in Kap. 12 und 13 Zufallsvariablen vor; zum Teil geht die Darstellung dort über die Lernziele bzw. Inhalte dieses Kurses hinaus.

4.8 Aufgaben

Zusätzlich zu den Aufgaben in der genannten Literatur sind folgende Aufgaben zu empfehlen.

4.8.1 Paper-Pencil-Aufgaben

4.8.2 Aufgaben, für die man einen Computer braucht

4.9


  1. da einfach und deutlich↩︎

  2. S wie Summe↩︎

  3. Machen Sie das mal ohne Computer, wenn Sie ein Wochenende lang Langeweile haben.↩︎

  4. Alternativ kann man z.B. auch ggplot verwenden: ggplot(x_simu_df, aes(x = x_simu)) + geom_histogram(bins = 50).↩︎

  5. von lat. bis “zweimal”↩︎

  6. Bei jeder Wiederholung des Zufallexperiments bleibt die Wahrscheinlichkeit der Ergebnisse gleich: Die Münze verändert sich nicht durch die Würfe (Ziehen mit Zurücklegen, ZmZ). Außerdem hat ein bestimmtes Ergebnis im ersten Wurf keinen Einfluss auf die Wahrscheinlichkeit eines bestimmten Ergebnisses im zweiten Wurf, etc., sog. “iid”: independent and identically distributed.↩︎

  7. In den Lehrbüchern häufig als Urne bezeichnet, was den bösen Spott von “Friedhofstatistik” nach sich zog.↩︎

  8. praktisch unendlich vielen↩︎

  9. Da sehr viele Lose im Kästchen liegen, ist es praktisch egal, ob wir das Los wieder zurücklegen. Die Wahrscheinlichkeit für einen Treffer ändert sich (so gut wie) nicht.↩︎

  10. Bei Taschenrechnern ist das oft als “nCr” zu finden.↩︎

  11. wobei “gering” subjektiv ist, die Betreiberfirma findet diese Wahrscheinlichkeit, dass 2 Pumpen ausfallen, wohl viel zu hoch.↩︎

  12. wobei gelten muss \(n \ge k\)↩︎

  13. Hey, endlich mal was für echte Leben!↩︎

  14. als “Logarithmus Dualis”, ld, bezeichnet↩︎

  15. R meckert nicht bei langweiligen Aufgaben.↩︎

  16. library(ggpubr); ggline(muenz_tab, x = "id", y = "x_cumsum")↩︎

  17. Was “einigermaßen” bedeuten soll, ist kein statistischer Begriff, sondern einer, der im echten Leben von den Menschen beantwortet werden muss, die eine Entscheidung zu treffen haben.↩︎

  18. d.h. die Schiefe (skewness) ist 0↩︎

  19. Das Zeichen \(y \propto x\) bedeutet “x ist proportional zu y”, also \(y = mx\).↩︎

  20. Massagedusche, behauptet der Hersteller↩︎

  21. “Ziemlich” ist natürlich subjektiv; je nach Situation kann es zu viel oder nicht zu viel sein.↩︎