5 Bayes-Globus

5.1 Lernsteuerung

5.1.1 Position im Modulverlauf

Abbildung 1.1 gibt einen Überblick zum aktuellen Standort im Modulverlauf.

5.1.2 Überblick

In diesem Kapitel übersetzen wir eine Problemstellung (Forschungsfrage) in ein (mathematisches) Modell, das uns dann mit Hilfe der Bayes-Formel Antworten auf die Problemstellung gibt.

5.1.3 Lernziele

Nach Absolvieren des jeweiligen Kapitels sollen folgende Lernziele erreicht sein.

Sie können …

Unterschiede zwischen Modellen und der Realität erläutern
die Binomialverteilung heranziehen, um geeignete (einfache) Modelle zu erstellen (für binomial verteilte Zufallsvariablen)
die weite Einsetzbarkeit anhand mehrerer Beispiele exemplifizieren
das Bayes-Modell anhand bekannter Formeln herleiten
Post-Wahrscheinlichkeiten anhand der Bayesbox berechnen

5.1.4 Begleitliteratur

Der Stoff dieses Kapitels deckt einen Teil aus McElreath (2020), Kap. 2, ab. McElreath (2020) stellt das Globusmodell mit mehr Erläuterung und etwas mehr theoretischem Hintergrund vor, als es in diesem Kapitel der Fall ist.

5.1.5 Vorbereitung im Eigenstudium

Statistik 1, Kap. “Daten Einlesen”

5.1.6 Begleitvideos

📺 Globusversuch

5.1.7 Benötigte R-Pakete

Code

library(tidyverse)
library(ggpubr)  # komfortable Visualisierung

5.2 Von Welten und Golems

5.2.1 Kleine Welt, große Welt

Bekanntlich segelte Kolumbus 1492 los, und entdeckte Amerika¹. Das war aber ein glücklicher Zufall, denn auf seinem Globus existierte Amerika gar nicht. Vielleicht sah sein Globus so aus wie der von Behaim, s. Abb Abbildung 5.1.

Abbildung 5.1: Behaims Globus: Kein Amerika

Quelle: Ernst Ravenstein, Wikimedia, Public Domain

Die kleine Welt des Modells entsprach hier nicht der großen Welt, der echten Erdkugel.

Das ist ein Beispiel, das zeigt, wie Modellieren schiefgehen kann. Es ist aber auch ein Beispiel für, sagen wir, die Komplexität wissenschaftlicher (und sonstiger) Erkenntnis. Einfach gesagt: Glück gehört halt auch dazu.

Hinweis

Behaims Globus ist nicht gleich der Erde. Die kleine Welt von Behaims Globus ist nicht die große Welt, ist nicht die Erde.

Was in der kleinen Welt funktioniert, muss nicht in der großen Welt funktionieren. Modelle zeigen immer nur die kleine Welt: Vorsicht vor schnellen Schlüssen und vermeintlicher Gewissheit.

🏋 Nennen Sie ein Beispiel, in dem ein Modell nicht (exakt) der Wirklichkeit entspricht! \(\square\)

5.2.2 Der Golem von Prag

Quelle

Der Golem von Prag, die Legende einer vom Menschen geschaffene Kreatur mit gewaltiger Kraft, die Befehle wörtlich ausführt, s. Abbildung 5.2. Die Geschichte besagt, dass ein Rabbi mit Zauberkräften den Golem aus Lehm erschuf, um die jüdische Bevölkerung der Stadt zu schätzen. Bei kluger Führung kann ein Golem Nützliches vollbringen. Bei unüberlegter Verwendung wird er jedoch großen Schaden anrichten.

5.2.3 Wissenschaftliche Modelle sind wie Golems

Golem

Eigenschaften des Golems:

Besteht aus Lehm
Belebt durch “Wahrheit”
Mächtig
dumm
Führt Befehle wörtlich aus
Missbrauch leicht möglich
Märchen

Modell

Eigenschaften eines Modells:

Besteht aus ~~Lehm~~Silikon
Belebt durch Wahrheit (?)
Manchmal mächtig
simpler als die Realität
Führt Befehle wörtlich aus
Missbrauch leicht möglich
Nicht einmal falsch

Hinweis

Wir bauen Golems.

Abbildung 2.5 stellt ein Sinnbild von Modellen dar.

Vergleichen wir die kleine Welt unserer Modellen (Tabelle 5.1), wie z.B. Behaims Globus, mit der Großen Welt, die Kolumbus und wir befahren.

Tabelle 5.1: Kleine Welt vs. große Welt

Kleine Welt	Große Welt
Die Welt, wie sie der Golem sieht	Die Welt, wie sie in Wirklichkeit ist
ist das Modell, aber nicht (zwangsläufig) die Wirklichkeit	entspricht nicht (zwangsläufig) dem Modell
Verwenden wir beim Modellieren	Ist das, was wir modellieren

5.2.4 Die Bayes-Formel und Lernen

🏋 Bayes-Inferenz ähnelt dem Lernen von Menschen. Geben Sie ein Beispiel von Lernen bei Menschen, das oben dargestelltem Prozess ähnelt!\(\square\)

5.3 Ein erster Versuch: Wir werfen den Globus

5.3.1 Welcher Anteil der Erdoberfläche ist mit Wasser bedeckt?

Beispiel 5.1 (Wasseranteil auf der Erdoberfläche) Unsere Forschungsfrage lautet, mit welchem Anteil die Erde wohl mit Wasser bedeckt ist (Abbildung 5.3)? Um möglichst wenig schreiben zu müssen, schreiben wir für “angenommener Wasseranteil auf der Erdoberfläche” kurz \(p\) oder \(\pi\) (p wie proportion, Anteil). \(\square\)

Abbildung 5.3: Die Erde. Schön! Und mit viel Wasser, ca. 70% der Erdoberfläche sind mit Wasser bedeckt. Quelle, Lizenz: CC 4.0 BY-NC

Analog können wir uns vorstellen, 11 Wissenschaftlis haben jeweils eine andere Hypothese zum Wasseranteil, \(\pi\), der Erde. Die erste Person hat die Hypothese \(\pi_1 = 0\), die zweite Person geht von \(\pi_2 = 0.1\) aus … die 11. Person von \(\pi_{11} = 1\).

Um die Forschungsfage zu beantworten, werfen Sie einen Globus-Ball in die Luft und fangen in wieder auf. Sie notieren dann, ob die Stelle unter Ihrem Zeigefinger Wasser zeigt (W) oder Land (L). Den Versuch wiederholen Sie, bis Sie den Globusball insgesamt 9 Mal geworfen haben.²

So sah mein³ Ergebnis aus:

\[W \quad L \quad W \quad W \quad W \quad L \quad W \quad L \quad W\]

Also \(W=6\) (Wasser, d.h. “Treffer”) und \(L=3\) (Land) (\(n=9\) Versuche).

Übungsaufgabe 5.1 (Spin the Globe) 🏋️️ Besorgen Sie sich einen Globus (zur Not eine Münze) und stellen Sie den Versuch nach!\(\square\)

5.3.2 Bayes-Updates

Der Golem denkt eigentlich ganz vernünftig: Zuerst hat er ein Vorwissen zum Wasseranteil, die dazugehörige Wahrscheinlichkeitsverteilung nennt man Priori-Verteilung (s. Definition 5.1). In unserem Beispiel ist das Vorwissen recht bescheiden: Jeder Wasseranteil ist ihm gleich plausibel. Als nächstes beschaut sich der Golem die Daten und überlegt, wie wahrscheinlich die Daten sind, wenn man von einer bestimmten Hypothese ausgeht, z.B. dass der Wasseranteil 50% beträgt. Die zugehörige Wahrscheinlichkeit der Daten unter Annahme einer Hypothese nennt man die⁴ Likelihood⁵, s. Definition 5.2. Als letztes bildet sich der Golem eine abschließende Meinung zur Wahrscheinlichkeit jeder Hypothese. Diese Wahrscheinlichkeitsverteilung nennt man Posteriori-Verteilung, s. Definition 5.3. Sie berechnet als Gewichtung des Vorwissen mit den neuen Daten. Anders gesagt: Das Vorwissen wird anhand der Erkenntnisse (der Daten) aktualisiert oder “geupdatet”, s. Abbildung 5.4.

graph LR
A[Priori-Vert.]-->B[Likelihood]-->C[Post-Vert.]-->A

Abbildung 5.4: Updating mit Bayes

Definition 5.1 (Priori-Verteilung) Für jede Hypothese haben wir ein Vorab-Wissen, das die jeweilige Plausibilität der Hypothese angibt: Priori-Verteilung (synonym: Apriori-Verteilung).\(\square\)

Definition 5.2 (Likelihood) Für jede Hypothese (d.h. jeden Parameterwert \(\pi\)) möchten wir wissen, wie wahrscheinlich die Daten sind (unter der Annahme, dass die Hypothese richtig ist). Kurz: Wir suchen die Likelihood. Anders gesagt: Die Likelihood sagt uns, wie gut die Daten zu einer bestimmten Hypothese passen.\(\square\)

Definition 5.3 (Posteriori-Verteilung) Dann gewichten wir den Likelihood mit dem Vorabwissen, so dass wir die Posteriori-Verteilung⁶ bekommen.\(\square\)

Übungsaufgabe 5.2 (Wie gut passen die Daten zur Hypothese, dass die Erde komplett trocken ist?) Wir haben in unseren Versuch \(W=6\) und \(L=3\) erzielt. Diese Daten passen überhaupt nicht zur Hypothese, dass die Erdoberfläche komplett trocken ist. Die Likelihood, \(L\) für \(\pi=0\) ist also Null. Analog ist die Likelihood für \(\pi=1\) auch Null.\(\square\)

5.3.3 Wie wahrscheinlich ist ein Wasseranteil von 90%?

Wie wahrscheinlich ist es, einen bestimmten Wasseranteil, z.B. 6 Treffer (bei 9 Würfen) zu erhalten, wenn man eine bestimmte Hypothese (einen bestimmten Wasseranteil, z.B. 90%) annimmt? Diese Wahrscheinlichkeit nennt man die Likelihood, \(L\) oder \(L\).

Wenn wir eine Binomialverteilung annehmen, dann gehen wir davon aus, dass die Daten unabhängig voneinander entstehen und sich der Parameterwert nicht zwischenzeitlich ändert ⁷. Der Wasseranteil der Erde bleibt während des Versuchs gleich (durchaus plausibel).

Lassen Sie uns im Folgenden die Wahrscheinlichkeit (\(Pr\)), \(W\) mal Wasser und \(L\) mal Land zu beobachten, wenn die Wahrscheinlichkeit für Wasser \(\pi\) beträgt, so bezeichnen: \(Pr(W,L | \pi))\) oder auch (synonym) so: \(Pr(W|\pi, n)\). Diese Wahrscheinlichkeit, \(Pr(W,L | \pi)\), kann man im Fall des Globusversuchs mit der Binomialverteilung berechnen.

Möchte man die Wahrscheinlichkeit ansprechen für das Ereignis “6 mal Wasser und 3 mal Land, wenn wir von einem Wasseranteil von 70% ausgehen”, so würden wir kurz schreiben: \(Pr(W=6, L=3 | \pi=.7)\). Oder man könnte (synonym) schreiben: \(Pr(W=6 | \pi=.7, n=9)\).

Zur Erinnerung: Die Binomialverteilung zeigt die Verteilung der Wahrscheinlichkeit der Ereignisse (z.B. 2 Mal Kopf) beim wiederholten Münzwurf (und allen vergleichbaren Zufallsexperimenten): “Münzwurfverteilung”, s. Kap. Kapitel 4.5.

5.3.4 Likelihood berechnen

Was ist der Anteil der gültigen Pfade in einem Baumdiagramm (d.h. die Wahrscheinlichkeit), um 2 mal \(W\) bei \(n=W+L=3\) Würfen zu bekommen, wenn wir von \(\pi=1/2\) ausgehen? ⁸, s. Listing 5.1, Abbildung 5.5 und Gleichung 5.1.

Listing 5.1: Binomialverteilung mit R für x=2, n=3, p=1/2

loesung <- dbinom(x = 2, size = 3, prob = 1/2)
loesung
## [1] 0.375

Oder von Hand gerechnet:

\[\begin{aligned} Pr(W=2 | \pi=1/2, n=3) &=\\ \tbinom{3}{2} \cdot (1/2)^2 \cdot (1/2)^1 &=\\ \frac{3!}{2!1!} \cdot (1/2)^3 &= \\ 3 \cdot 1/8 = 3/8 &= 0.375 \end{aligned} \tag{5.1}\]

Wenn man sich den entsprechenden Baum anschaut (s. Abbildung 5.5): Von den 8 Endkonten bzw. Pfaden sind 3 günstig. Demnach ist die Wahrscheinlichkeit des gesuchten Ereignis (2 Treffer bei 3 Würfen, binomialverteilt) gleich 3 von 8 (alle Pfade sind gleich wahrscheinlich); 3/8 sind 0.375.

flowchart TD
  A[A - Start] -. 1/2 .-> B[B - 0]
  A -. 1/2 .-> C[C - 1]
  B -. 1/2 .-> D[D - 0]
  B -. 1/2 .-> E[E - 1]
  C -. 1/2 .-> F[F - 0]
  C -. 1/2 .-> G[G - 1]
  D -. 1/2 .-> H[H - 0]
  D -. 1/2 .-> J[I - 1]
  E -. 1/2 .-> K[K - 0]
  E -. 1/2 .-> L[L - 1]
  F -. 1/2 .-> M[M - 0]
  F -. 1/2 .-> N[N - 1]
  G -. 1/2 .-> O[O - 0]
  G -. 1/2 .-> P[P - 1]

Abbildung 5.5: Wir werfen den Globus (oder eine Münze) 3 Mal. Die Knoten sind der Übersicht halber mit fortlaufenden Buchstaben (von A bis P) bezeichnet

Abb. Abbildung 5.5 stellt einen einfachen Baum für 3 Globuswürfe mit je zwei möglichen Ereignissen (W vs. L) dar. In der ersten (obersten) Zeile (Knoten A; “Start”) ist Ausgangspunkt dargestellt: Der Globus ruht wurfbereit in unserer Hand. Jetzt Achtung: Sie werfen den Globusball hoch. Die Pfeile zeigen zu den (zwei) mögliche Ergebnissen. Die zweite Zeile (Knoten B und C) stellt die beiden Ergebnisse des Wurfes dar. Die Ergebnisse sind hier mit 0 und 1 bezeichnet (das eine eine einfache und weiteinsetzbare Notation). Die dritte Zeile (Knoten D bis G) stellt die Ergebnisse des des zweiten Wurfes dar. Die vierte Zeile (Knoten H bis P) stellt die Ergebnisse des des dritten Wurfes dar.

Für mehr Würfe würde das Diagramm irgendwann unübersichtlich werden.

Abbildung 5.6 zeigt die Binomialverteilung \(X \sim Bin(9, 1/2)\): Die jeweilige Wahrscheinlichkeit für \(k=0,1,\ldots, 9\) Treffer bei \(n=9\) Versuchen mit Trefferwahrscheinlichkeit \(\pi=1/2\).

Abbildung 5.6: Ein Beispiel für eine Binomialverteilung mit Parametern N=9 und p=1/2.

Abb Abbildung 5.7 ist ein vergeblicher Versuch, so einen großen Baum (\(n=9\)) darzustellen.

Hinweis

Visualisierungen wie Baumdiagramme sind eine praktische Hilfe zum Verständnis, kommen aber bei größeren Daten schnell an ihre Grenze.

Abbildung 5.7: Wir werfen den Globus (oder eine Münze) 9 Mal, es resultieren 512 Endknoten. Nicht gerade übersichtlich.

Jetzt folgen einige Beispiele.

Beispiel 5.2 (Globus mit 6 Treffern bei 9 Würfen, p=1/2) Was ist der Anteil der gültigen Pfade in einem Baumdiagramm (Wahrscheinlichkeit), um 6 mal \(W\) bei \(N=W+L=9\) Würfen zu bekommen, wenn wir von \(p=1/2\) ausgehen?

Code

dbinom(x = 6, size = 9, prob = 1/2)
## [1] 0.1640625

Oder, synonym, wenn man einen Taschenrechner (oder R als Taschenrechner) benutzt:

Code

choose(9, 6) * (1/2)^6 * (1/2)^3
## [1] 0.1640625

\(\square\)

Beispiel 5.3 (Globus mit 9 Treffern bei 9 Würfen, p=1/2) Was ist die Wahrscheinlichkeit, gegeben \(W=9\) bei \(n=9\) und \(\pi=1/2\)?

Code

dbinom(x = 9, size = 9, prob = 1/2)
## [1] 0.001953125

Das ist 1 günstiger Pfad von 512 Pfaden, also \(Pr(W=9|\pi=1/2, n=9)=1/512\).

Beispiel 5.4 (Globus mit 6 Treffern bei 9 Würfen, p=70%) Was ist die Wahrscheinlichkeit für \(W=6\), gegeben \(n=9\) und \(p=.7\)?

Code

dbinom(x = 6, size = 9, prob = .7)
## [1] 0.2668279

Mit Taschenrechner gerechnet:

Code

anz_pfade <- choose(9,6) 
wskt_pro_pfad <- (.7)^6 * (.3)^3
gesamt_wkst <- anz_pfade * wskt_pro_pfad
gesamt_wkst
## [1] 0.2668279

(Fast) von Hand gerechnet, mit R als Taschenrechner:

Code

factorial(9)/(factorial(6)*factorial(3)) * (.7)^6 * (.3)^3
## [1] 0.2668279

Als Formel, s. Gleichung 5.2:

\[\begin{aligned} Pr(W=6 | \pi=.7, n=9) &=\\ \tbinom{9}{6} \cdot (.7)^6 \cdot (.3)^3 &=\\ \frac{9!}{6!3!} \cdot (.7)^6 \cdot (.3)^3 &=\\ 84 \cdot .003 = .27. \end{aligned} \tag{5.2}\]

\(\square\)

Zur Erinnerung: Die Funktion dbinom gibt uns die Wahrscheinlichkeit von x Treffern, bei size Versuchen zurück, wobei eine Binomialverteilung angenommen wird mit Trefferwahrscheinlichkeit prob.

Es gibt Taschenrechner(-Apps), die die Binomialverteilung oder den Binomialkoeffizienten berechnen können.⁹

5.3.5 Unser Modell ist geboren

Ein Modell (in der Bayes-Statistik) besteht aus mind. zwei Komponenten:

Die Likelihood (die Wahrscheinlichkeit der Daten unter Annahme der Hypothese), s. Gleichung 5.3
Die Priori-Verteilung(en) (die Wahrscheinlichkeit der Hypothese vor den Daten), a. Gleichung 5.4
Die Posteriori-Verteilung (die Wahrscheinlichkeit der Hypothese nach den Daten), s. Abbildung 6.1

5.3.6 Likelihood

Im Globusversuch verwenden wir die Binomialverteilung zur Berechnung der Likelihood, s. Gleichung 5.3.

\[W \sim \text{Bin}(n,\pi) \tag{5.3}\]

Lies: “W ist binomial verteilt mit den Parametern \(n\) und \(\pi\)”. \(n\) gibt die Anzahl der Globuswürfe an: \(n=W+L\).

Mit einem konkretes Beispiel: \(W \sim \text{Bin}(9, 0.7)\) bedeutet, dass wir von 9 Würfen ausgehen und eine Wahrscheinlichkeit für Wasser von 70% annehmen.

Die Verwendung der Binomialvertielung ist an einige Annahmen geknüpft:

Die Züge sind unabhängig voneinander (Die Würfe des Globusballs beeinflussen sich einander nicht).
Der Parameterwert \(\pi\) bleibt konstant (Der Wasseranteil der Erde ändert sich nicht während des Versuchs).

Übungsaufgabe 5.3 🏋 Welche Annahmen würden Sie ändern? Welche könnte man wegnehmen? Welche hinzufügen? Was wären die Konsequenzen?\(\square\)

5.3.7 Priori-Verteilung

Unser Vorab- bzw. Apriori-Wissen zu \(p\) sei, dass uns alle Werte gleich (“uniform”) plausibel erscheinen, s. Gleichung 5.4.

\[\pi \sim \text{Unif}(0,1). \tag{5.4}\]

Lies: “\(\pi\) ist gleich (uniform) verteilt mit der Untergrenze 0 und der Obergrenze 1”.

Man könnte auch sagen: Wir haben praktisch kein Vorwissen, wir sind erstmal (aprior) indifferent, jeder Parameterwert erscheint uns erstmal gleich wahrscheinlich, s. Abbildung 5.8.

Abbildung 5.8: Gleichverteilung mit Parametern min=0 und max=1

5.3.8 Posteriori-Verteilung

die Posteriori-Verteilung quantifiziert unser Wissen nach Kenntnis der Daten, aufbauend auf unserem Vorwissen (Priori-Wissen). Die Posteriori-Verteilung ist das Ergebnis des Bayes-Updates, s. ?eq-post-globus1.

Die Wahrscheinlichkeit bestimmter Hypothesen nennt man Posteriori-Wahrscheinlichkeit und bezeichnet sie kurz mit \(Pr(H|D)\). Lies: “Die Wahrscheinlichkeit der Hypothese H gegeben der Daten D”. Dabei nimmt man stillschweigend an, dass die Daten anhand eines gewissen Modells generiert wurden.

5.4 Bayes’ Theorem

5.4.1 Wozu wird Bayes in der Praxis genutzt?

In der Praxis nutzt man Bayes häufig, wenn man Daten \(D\) gesammelt hat, und wissen möchte, wie wahrscheinlich eine Hypothese \(H\) ist, im Lichte dieser gesammelten Daten, s. Gleichung 5.5.

\[Pr(H|D) = \frac{ Pr(H) \cdot Pr(D|H) }{Pr(D)} \tag{5.5}\]

Bayes’ Theorem (Gleichung 5.5) fragt nach \(Pr(H|D)\):

Was ist die Wahrscheinlichkeit der Hypothese H, jetzt wo wir die Daten haben (und ein Modell?)

Und antwortet so (Gleichung 5.5):

Diese Wahrscheinlichkeit entspricht der Grundrate (Apriori-Wahrscheinlichkeit) der Hypothese mal der Plausibilität (Likelihood) der Daten unter Annahme (gegeben) der Hypothese. Aus Standardisierungsgründen dividiert man noch die totale Wahrscheinlichkeit der Daten über alle Hypothesen.

Für unser Globusbeispiel:

Wie wahrscheinlich ist denn jetzt ein bestimmter Wasseranteil auf der Erde, \(\pi\), (gegeben den Daten, \(W=6\) und \(L=3\))? Also, wie wahrscheinlich ist z.B. ein Wasseranteil von 70% oder von 50%?

5.4.2 Bayes als bedingte Wahrscheinlichkeit

Bayes’ Theorem wird häufig verwendet, um die Wahrscheinlichkeit einer Hypothese, gegeben einer bestimmten Datenlage, zu berechnen, also \(Pr(H|D)\). Also zeigt Bayes’ Theorem nichts anderes als eine normale bedingte Wahrscheinlichkeit.

\(Pr(H| D)\) kann man umformen (vgl. Gleichung 3.5 und Definition 3.20), dann erhält man Bayes’ Theorem, s. Gleichung 5.6:

\[\begin{aligned} Pr(H|D) &=\frac{\overbrace{ Pr(H\cap D)}^\text{umformen}}{Pr(D)} \\ &= \frac{\overbrace{Pr(H)}^\text{Apriori-Wahrscheinlichkeit} \cdot \overbrace{Pr(D|H)}^\text{Likelihood}}{\underbrace{Pr(D)}_\text{Evidenz}} \end{aligned} \tag{5.6}\]

5.4.3 Die Evidenz zur Standardisierung

Die Aufgabe der Evidenz ist nur dafür zu sorgen, dass der Wert von \(Pr(H|D)\) insgesamt nur Werte zwischen 0 und 1 annehmen kann, also eine brave, normale Wahrscheinlichkeit ist. Würde man in Gleichung 5.6 nicht durch die Evidenz teilen, so wäre die Posteriori-Wahrscheinlichkeit nicht normiert, d.h. sie könnte Werte >1 annehmen.

Definition 5.4 (Evidenz) \(Pr(D)\) nennt man die Evidenz. Die Evidenz berechnet sich als Summe der Likelihoods für alle Parameterwerte \(H_i\), d.h. als die totale Wahrscheinlichkeit von \(D\), s. Gleichung 5.7, vgl. auch Definition 3.22:

\[\begin{aligned} Pr(D) = \sum_{i=1}^n Pr(D|H_i) \cdot Pr(H_i) \end{aligned} \tag{5.7}\]

Die verschiedenen Parameterwerte kann man auch als die verschiedenen Hypothesen \(H_i\) auffassen. Falls es nur zwei Hypothesen bzw. Parameterwerte gibt, vereinfacht sich Gleichung 5.7 zu Gleichung 5.8.

\[\begin{aligned} Pr(D) = Pr(D|H_1) \cdot Pr(H_1) + Pr(D|H_2) \cdot Pr(H_2) \end{aligned} \tag{5.8}\]

Beispiel 5.5 In Beispiel 5.7 betrug der Wert der Evidenz \(0.03 + 0.002 + 0.012 = 0.044\), also ca. 4%. \(\square\)

5.4.4 Bayes’ Theorem als Formel

Schauen wir uns die Bestandteile von Bayes’ Theorem (Gleichung 5.6) noch etwas näher an:

(standardisierte) Posteriori-Wahrscheinlichkeit: \(Pr_{Post} := Pr(H|D)\)
Likelihood: \(L := Pr(D|H)\)
Apriori-Wahrscheinlichkeit: \(Pr_{Priori} := Pr(H)\)
Evidenz: \(E := Pr(D)\)

Bayes’ Theorem gibt die \(Pr_{Post}\) an, wenn man die Gleichung mit der \(Pr_{Priori}\) und dem \(L\) füttert. Bayes’ Theorem wird verwendet, um die \(Pr_{Post}\) zu quantifizieren. Die \(Pr_{Post}\) ist proportional zu \(L \times Pr_{Priori}\).

5.4.5 Posteriori als Produkt von Priori und Likelihood

Die unstandardisierte Post-Wahrscheinlichkeit \(Pr_{\text{unPost}}\) ist einfach das Produkt von Likelihood und Priori, s. Gleichung 5.9.

\[Pr_{\text{unPost}} = L \times \text{Priori} \tag{5.9}\]

Abb. Abbildung 5.9 visualisiert, dass die Post-Verteilung eine Gewichtung von Priori und Likelihood ist. Mathematisch gesprochen beruht diese Gewichtung auf einer einfachen Multiplikationen der beiden genannten Terme.

Abbildung 5.9: Prior mal Likelihood = Post

Standardisiert man die unstandardisierte Post-Verteilung, so erhält man die standardisierte Post-Verteilung. Das Standardisieren dient nur dazu, einen Wert zwischen 0 und 1 zu erhalten. Dies erreichen wir, indem wir durch die Summe aller Post-Wahrscheinlichkeiten dividieren. Die Summe der Post-Wahrscheinlichkeiten bezeichnet man (auch) als Evidenz, vgl. Gleichung Gleichung 5.10.

\[\text{Posteriori} = \frac{\text{Likelihood} \times \text{Priori}}{\text{Evidenz}} \tag{5.10}\]

5.4.6 Wissen updaten: Wir füttern Daten in das Modell

Golems können lernen?! Abbildung 5.10 zeigt die Post-Verteilung, nach \(n=1, 2, ...,n=9\) Datenpunkten, d.h. Würfen mit dem Globusball. Man sieht: Am Anfang, apriori, also bevor die Daten haben, vor dem ersten Wurf also, ist jeder Parameterwert gleich wahrscheinlich für den Golem (das Modell). Je nach Ergebnis des Wurfes verändert sich die Wahrscheinlichkeit der Parameterwerte, kurz gesagt, die Post-Verteilung verändert sich in Abhängigkeit von den Daten.

Insofern kann man sagen: Unser Golem (das Modell) lernt. Ob das Modell nützlich ist (präzise Vorhersagen liefert), steht auf einem anderen Blatt.

5.5 Bayes berechnen mit mit der Bayes-Box

Wir erstellen uns eine kleine Tabelle, die man “Bayes-Box” nennen könnte.¹⁰ Dazu gehen wir so vor:

5.5.1 Die Idee der Bayes-Box

Teile den Wertebereich des Parameters in ein “Gitter” auf, z.B. \(0.1, 0.2, ..., 0.9, 1\).
Wähle den Priori-Wert des Parameters für jeden Parameterwert, z.B. 1/11 bei einer Gleichverteilung von 0 bis 1.
Berechne den Likelihood für jeden Parameterwert.
Berechne den unstandardisierten Posteriori-Wert für jeden Parameterwert (Produkt von Priori und Likelihood).
Standardisiere den Posteriori-Wert durch teilen anhand der Summe alle unstand. Posteriori-Werte.

Für jeden Parameterwert berechnen wir eine (Post-)Wahrscheinlichkeit.¹¹ Häufig entspricht eine Hypothese einem Parameterwert, etwa wenn man sagt: “Ich glaube, die Münze ist fair”, was auf einen Parameterwert von 50% herausläuft. Dazu geben wir an, für wie wahrscheinlich wie apriori¹² – also bevor wir irgendwelche Daten erheben – jeden einzelnen Parameterwert halten. Wir machen es uns hier einfach und halten jeden Parameterwert für gleich wahrscheinlich. Tatsächlich ist der konkrete Wert hier egal, entscheidend ist das Verhältnis der Apriori-Werte zueinander: Geben wir einigen Parameterwerten den Wert 2, aber anderen den Wert 1, so halten wir Erstere für (apriori) doppelt so plausibel wie Letztere. Der Likelihood wird in diesem Beispiel mit der Binomialverteilung berechnet (da wir ein binäres Ereignis, \(W\) oder \(L\), haben). Der Likelihood gibt an, wie wahrscheinlich ein Parameterwert ist gegeben einem bestimmten apriori gewählten Parameterwert. Die “End-Wahrscheinlichkeit”, die unstandardisierte Post-Wahrscheinlichkeit, die “hinten rauskommt” ist das Produkt von Priori-Wert und Likelihood. Anschaulich gesprochen: Die Priori-Werte werden mit den Likelihoodwerten gewichtet¹³. Da wir letztlich eine Wahrscheinlichkeitverteilung bekommen möchten, teilen wir jeden Posteriori-Wert durch die Summe aller Posteriori-Werte. Dadurch ist gerantiert, dass sich die Posteriori-Werte zu eins aufaddieren. Damit haben wir dann die Ansprüche an eine Wahrscheinlichkeitsverteilung erfüllt (vgl. Kapitel 3.3.4).

5.5.2 Bayes-Box in R berechnen

Legen wir uns ein Gitter mit Parameterwerten (\(\pi\)) an, um deren Posteriori-Wahrscheinlichkeit zu berechnen. Konkret gesprochen: Wir listen jeden für uns interessanten Wasseranteil (\(\pi\)) auf, also \(\pi=0, 0.1, 0.2, ..., 1\). Diese Parameterwerte sind die Hypothesen, die wir testen wollen, s. Listing 5.2.

Listing 5.2: Parameterwerte (Gitter) für Wasseranteile: 0, 0.1, 0.2, …, 1

wasseranteile <- seq(from = 0, to = 1, by = 0.1)  # Parameterwerte
wasseranteile
##  [1] 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

Dann berechnen wir schon mal die Wahrscheinlichkeit der Daten (6 W bei 9 Würfen) gegeben jeweils eines Wasseranteils.

Code

Likelihood <- dbinom(6, size = 9, prob = wasseranteile)
Likelihood
##  [1] 0.000000000 0.000061236 0.002752512 0.021003948 0.074317824 0.164062500
##  [7] 0.250822656 0.266827932 0.176160768 0.044641044 0.000000000

Schließlich packen wir das alles in eine Tabelle, die “Bayes-Box”, s. Tabelle 5.2 und Listing 5.3.

Listing 5.3: Wir basteln uns eine Bayes-Box

d <-
  tibble(
    # definiere die Hypothesen (die Parameterwerte, p): 
    p = wasseranteile,
    # Lege den Priori-Wert fest:
    Priori  = 1/11) |> 
    mutate(
      # berechne Likelihood für jeden Wasseranteil (Parameterwert):
      Likelihood = Likelihood,
      # berechne unstand. Posteriori-Werte:
      unstd_Post = Likelihood * Priori,
      # berechne Evidenz, d.i. die Summe aller unstand. Post-Werte:
      Evidenz = sum(unstd_Post),
      # berechne stand. Posteriori-Werte (summiert zu 1):
      Post = unstd_Post / Evidenz)

Die Bayes-Box (Tabelle 5.2) zeigt, wie sich die Post-Verteilung berechnet.

Tabelle 5.2: Die Bayes-Box für den Globusversuch, k=6 Treffer, n=9 Versuche, Apriori-Wahrscheinlichkeit Pr(H)=9%, und Wasseranteile p von 0 bis 1

id	p	Priori	Likelihood	unstd_Post	Evidenz	Post
1	0.0	0.091	0.000	0.000	0.091	0.000
2	0.1	0.091	0.000	0.000	0.091	0.000
3	0.2	0.091	0.003	0.000	0.091	0.003
4	0.3	0.091	0.021	0.002	0.091	0.021
5	0.4	0.091	0.074	0.007	0.091	0.074
6	0.5	0.091	0.164	0.015	0.091	0.164
7	0.6	0.091	0.251	0.023	0.091	0.251
8	0.7	0.091	0.267	0.024	0.091	0.267
9	0.8	0.091	0.176	0.016	0.091	0.176
10	0.9	0.091	0.045	0.004	0.091	0.045
11	1.0	0.091	0.000	0.000	0.091	0.000

Für jede Hypothese (Spalte id) berechnen wir die unstandardisierte Posteriori-Wahrscheinlichkeit als Produkt von Priori und Likelihood, s. Gleichung 5.11.

\[\text{Post}_{\text{unstand}} = \text{Priori} \cdot \text{Likelihood} \tag{5.11}\]

Um zur standardisierten Posteriori-Wahrscheinlichkeit zu gelangten, teilen wir in jeder Zeile der Bayesbox (also für jede Hypothese) die unstandardisierte Post-Wahrscheinlichkeit durch die Summe der unstandardisierten Post-Wahrscheinlichkeiten, s. Gleichung 5.12.

\[\text{Post} = \frac{\text{Post}_{\text{unstand}}}{\text{Evidenz}} = \frac{Pr(H) \cdot Pr(H|D)}{Pr(D)} \tag{5.12}\]

Dabei haben wir die Priori-Wahrscheinlihkeit für alle Parameterwerte als gleich angenommen, da wir keinerlei Vorwissen hatten, \(Pr(H_i) = 1/11\). Die Evidenz berechnet sich als Summe der unstandardisierten Post-Wahrscheinlichkeiten, \(Pr(D) = 0.09\).

Hinweis

Wenn der Priori-Wert für jeden Parameterwert gleich ist, dann ist der Likelihood gleich der unstandardisierten Post-Wahrscheinlichkeit.\(\square\)

Beispiel 5.6 (Post-Wahrscheinlichkeit im Globusversuch für p=.7) In Beispiel 5.4 haben wir die Wahrscheinlichkeit für 6 Treffer bei 9 Würfen gegeben einer Trefferwahrscheinlichkeit von \(\pi = .7\) berechnet. Damit haben wir die Likelihood \(L = Pr(D|H) =.25\) berechnet.

Auf dieser Basis können wir die Posteriori-Wahrscheinlichkeit \(Pr_{Post}\) berechnen, zunächst die unstandardisierte. Dazu haben wir die Priori-Wahrscheinlichkeit mit der Likelihood multipliziert, s. Gleichung 5.13:

\[\text{Post}_{\text{unstand}} = Pr(H) \cdot Pr(D|H) = 0.09 \cdot 0.25 = 0.025 \tag{5.13}\]

Jetzt standardisieren wir die unstandardisierte Post-Wahrscheinlichkeit, indem wir durch die Evidenz dividieren, s. Gleichung 5.14.

\[\text{Post} = \frac{\text{Post}_{\text{unstand}}}{\text{Evidenz}} = \frac{0.025}{0.1} =0.25 \tag{5.14}\]

Gleichung 5.15 fasst die Schritte der Berechnung zusammen.

\[\begin{aligned} Pr(H_{\pi=0.7}|D) = \frac{Pr(D|H) \cdot Pr(H)}{Pr(D)} &= \\ \frac{\text{Likelihood} \cdot \text{Priori-Wahrscheinlichkeit}}{\text{Evidenz}} &= \\ \frac{0.25 \cdot 0.1}{0.1} &= 0.25 \end{aligned} \tag{5.15}\] \(\square\)

Fazit: Nach dem Versuch, d.h. nachdem wir die Daten in Betracht gezogen haben, hat sich unsere Meinung über den Wasseranteil geupdatet von 0.1 auf 0.25.\(\square\)

Übungsaufgabe 5.4 🏋️ Was wohl mit Post passiert, wenn wir Priori ändern?\(\square\)

Abbildung 6.1 zeigt eine Visualisierung der Post-Verteilung mit Hilfe der Funktion ggline(x, y) aus dem Paket ggpubr. Wie man sieht, ist die Post-Wahrscheinlichkeit am höchsten bei \(\pi=0.7\). Wobei der Bereich von 0.6 bis 0.8 auch recht wahrscheinlich ist.

Abbildung 5.11: Die Post-Verteilung visualisiert. Die Post-Wahrscheinlichkeit ist am höchsten bei p=0.7

5.5.3 Was sagt die Post?

Die Posteriori-Verteilung (Kurz: “Post-Verteilung”, oder “Post”), \(Pr_{Post}\), zeigt, wie plausibel wir jeden Wert von \(p\) halten, jetzt, nachdem wir die Daten des Versuchs kennen. Die Post-Wahrscheinlichkeit updatet unser Apriori-Wissen mit dem Wissen, das wir durch die Daten erhalten haben.

Abbildung 5.12 zeigt die Post-Wahrscheinlichkeit für 5, 10 und 20 Parameterwerte. Das mittlere Teilbild (10 Gitterwerte) entspricht unserer Tabelle oben. Man sieht: Je mehr Parameterwerte, desto genauer wird die Verteilung wiedergegeben.

Abbildung 5.12: Je mehr Parameterwerte, desto genauer wird die Verteilung wiedergegeben.

Hinweis

Unter sonst gleichen Umständen gilt:

Mehr Gitterwerte glätten die Annäherung.
Je größer die Stichprobe (\(N\)), desto zuverlässiger wird unsere Berechnung. \(\square\)

Die Post-Verteilung ist sowas wie das Ziel all Ihrer Träume (falls Sie es noch nicht gewusst haben): Aus der Post-Verteilung können Sie ablesen, wie wahrscheinlich Ihre Hypothese (Ihr Lieblings-Parameterwert) ist. Und noch einiges mehr, aber das ist Thema des nächsten Kapitels. \(\square\)

5.6 Abschluss

5.6.1 Zusammenfassung

📺 Übung zum Globusversuch

In unserem Modell haben wir Annahmen zu \(Pr_{Priori}\) und \(L\) getroffen.
Auf dieser Basis hat der Golem sein Wissen geupdated zu \(Pr_{Post}\).
Mit der Gitter-Methode haben wir viele Hypothesen (Parameterwerte) untersucht und jeweils die \(Pr_{Post}\) berechnet.
Unser Modell bildet die kleine Welt ab; ob es in der großen Welt nützlich ist, steht auf einem anderen Blatt.

Übungsaufgabe 5.5 🏋️ Wenn Sie auf einen Prozentwert für \(W\) tippen müssten, welchen würden Sie nehmen, laut dem Modell (und gegeben der Daten)? \(\square\)

5.6.2 Der Globusversuch als Modell für zweiwertige Zufallsversuche

Der Globusversuch ist kein prototypisches Beispiel für Statistik in der Praxis, zumindest nicht auf dem ersten Blick. Er hat aber aber den Vorteil, dass es ein einfaches, gut greifbares Beispiel ist, und damit zum Lernen gut geeignet ist. Bei näherer Betrachtung ist der Globusversuch prototypisch für ganz viele Fragestellungen:

Von einem neuen Produkt von von \(n\) Exemplaren \(k\) verkauft. Auf welchen Wert \(p\) kann die Akzeptanzrate dieses Produkts geschätzt werden?
Ein Chat-Bot hat von \(n\) Fragen \(k\) richtig beantwortet. Wie hoch kann die Verständnisrate \(p\) dieses Programms geschätzt werden?
Eine neue Krebstherapie hat von \(n\) “austherapierten” Patientis \(k\) geheilt. Auf wie hoch kann die Erfolgsrate dieser Therapie geschätzt werden?

Kurz: Der Globusversuch ist ein Muster für zweiwertige Zufallsversuche. Und solche sind häufig im Leben, im Business und in der Wissenschaft.

5.7 Vertiefung

5.7.1 Bayes-Video von 3b1b

Das “Bayes-Paradox-Video” von 3b1b präsentiert eine gut verständliche Darstellung des Bayes-Theorem aus einer zwar nicht gleichen, aber ähnlichen Darstellung wie in diesem Kapitel.

5.7.2 Bayes als Baum

Bayes’ Theorem kann man sich als als Baumdiagramm vor Augen führen, Abbildung 5.13.

Gesucht sei \(Pr(M_1|A)\), also: die Wahrscheinlichkeit, dass das Teil von Maschine 1 produziert wurde, gegeben, dass es Ausschuss ist. Gegeben sind die Wahrscheinlichkeiten, dass Machine \(i\) das Teil produziert hat, \(Pr(M_i)\). Außerdem sind die Wahrscheinlichkeiten, dass das Teil Ausschuss ist, \(Pr(A|M_i)\), bekannt.

Das Diagramm löst die Aufgabe für uns; es zeigt damit die Anwendung von Bayes’ Theorem auf.

Um \(Pr(M_1|A)\) zu erhalten, setzt man die Wahrscheinlichkeit des günstigen Asts ins Verhältnis zur Wahrscheinlichkeit aller relevanten Äste, \(Pr(A)\).

Beispiel 5.7 (Maschine produziert Ausschuss) Die drei Maschinen \(M_1, M_2, M_3\) produzieren den gleichen Artikel. Ihr jeweiliger Anteil, an der Produktion liegt bei 60%, 10% bzw. 30%. Die jeweilige Ausschussquote liegt bei 5, 2, bzw. 4%, s. Abbildung 5.13.

Aufgabe: Wie groß ist die Wahrscheinlichkeit, dass ein defektes Teil von Maschine 1 produziert wurde? Berechnen Sie diese Wahrscheinlichkeit.\(\square\)

Der günstige (gesuchte) Ast, \(Pr(M1 \cap A)\), ist hier fett gedruckt, s. Abbildung 5.13. In Abbildung 5.13 zeigen die runden Kästchen am Ende der Pfade die Wahrscheinlichkeiten des jeweiligen Pfades an.

flowchart LR
  A[Start] ==>|0.60|B[M1]
  A --->|0.10|C[M2]
  A --->|0.30|D[M3]
  B ==>|0.05|E[A]
  B -->|0.95|F[Nicht-A]
  C --->|0.02|G[A]
  C --->|0.98|H[Nicht-A]
  D --->|0.04|I[A]
  D --->|0.96|J[Nicht-A]
  E --- K((0.030))
  F --- L((0.570))
  G --- M((0.002))
  H --- N((0.098))
  I --- O((0.012))
  J --- P((0.288))

Abbildung 5.13: Günstige Pfade

\[Pr(M1|A) = \frac{Pr(M1 \cap A)}{Pr(A)} = \frac{0.6 \cdot 0.05}{0.03 + 0.002 + 0.012} = \frac{0.03}{0.044} \approx 0.68\]

\(Pr(M1|A)\) beträgt also ca. 68%.

Zur Erinnerung: \(Pr(A)\) ist die totale Wahrscheinlichkeit (dass ein produziertes Teil Ausschuss ist).

5.7.3 Weitere Herleitung der Bayes-Formel

Man kann sich Bayes’ Theorem auch wie folgt herleiten:

\(Pr(D\cap H) = Pr(D \cap H) = Pr(D) \cdot Pr(H|D) = Pr(H) \cdot Pr(D|H)\)

Dann lösen wir nach P\((H|D)\) auf, s. Gleichung 5.16.

\[Pr(H|D) = \frac{\overbrace{Pr(H)}^\text{Apriori-Wahrscheinlichkeit} \cdot \overbrace{Pr(D|H)}^\text{Likelihood}}{\underbrace{Pr(D)}_\text{Evidenz}} \tag{5.16}\]

5.7.4 Zusammengesetzte Hypothesen

Das ist vielleicht ein bisschen fancy, aber man kann Bayes’ Theorem auch nutzen, um die Wahrscheinlichkeit einer zusammengesetzten Hypothese zu berechnen: \(H = H_1 \cap H_2\). Ein Beispiel wäre: “Was ist die Wahrscheinlichkeit, dass es Regen (\(R\)) und Blitzeis (\(B\)) gibt, wenn es kalt (\(K\)) ist?”.

Das sieht dann so aus, Gleichung 5.17:

\[ \begin{aligned} Pr(R \cap B |K) &= \frac{ Pr(R \cap B) \cdot Pr(K|R \cap B) }{Pr(D)} \\ &= \frac{ Pr(R ) \cdot Pr(B) \cdot Pr(K|R \cap B) }{Pr(D)} \end{aligned} \tag{5.17}\]

Hier haben wir \(Pr(R \cap B)\) aufgelöst in \(Pr(R) \cdot Pr(B)\), das ist nur zulässig, wenn \(R\) und \(B\) unabhängig sind.

5.8 Aufgaben

Tipp

Einige der folgenden Aufgaben sind in englischer Sprache. Wenn Ihnen eine andere Sprache (z.B. Deutsch) lieber ist, nutzen Sie einfach die Übersetzungsfunktion Ihres Browsers. Das sind meist nur zwei Klicks. \(\square\)

5.8.1 Papier-und-Bleistift-Aufgaben

5.8.2 Aufgaben, für die man einen Computer braucht

5.9 —

wenn auch nicht als Erster↩︎
Warum gerade 9 Mal? Tja, dann hat das Handy geklingelt… Auch in wissenschaftlichen Versuchen ist (leider?) nicht immer alles genau geregelt.↩︎
Ihr Ergebnis kann anders aussehen, schließlich ist es ja Zufall.↩︎
oder den?↩︎
zu Deutsch etwa: “Mutmaßlichkeit”↩︎
Anstatt von Priori liest man auch Prior; anstatt Posteriori auch Posterior↩︎
Die sog. “iid-Annahme”, independently and identically distributed: Jeder Wurf der Globusballes ist eine Realisation der gleichen Zufallsvariablen. Jeder Wurf ist unabhängig von allen anderen: Das Ergebnis eines Wurfes hat keinen (stochastischen) Einfluss auf ein Ergebnis anderer Würfe. Die Wahrscheinlichkeitsverteilung ist bei jedem Wurf identisch.↩︎
Allgemeiner spricht man auch von 2 Treffern bei 3 Würfen (d.h. 1 “Nicht-Treffer”, den wir als “Niete” bezeichnen). Treffer werden oft mit 1 und Nieten mit 0 bezeichnet↩︎
https://www.geogebra.org/scientific?lang=de ↩︎
Auch Gitter-Methode oder Grid-Methode genannt.↩︎
Ein Parameterwert ist eine mögliche Ausprägung des Parameters.↩︎
synonym: priori↩︎
synonym: Die Likelihoodwerte werden mit den Apriori-Werten gewichtet.↩︎