6 Bayes-Versuch
6.1 Lernsteuerung
6.1.1 Position im Modulverlauf
Abbildung 1.1 gibt einen Überblick zum aktuellen Standort im Modulverlauf.
6.1.2 Überblick
In diesem Kapitel übersetzen wir eine Problemstellung (Forschungsfrage) in ein (mathematisches) Modell, das uns dann mit Hilfe der Bayes-Formel Antworten auf die Problemstellung gibt.
6.1.3 Lernziele
Nach Absolvieren des jeweiligen Kapitels sollen folgende Lernziele erreicht sein.
Sie können …
- Unterschiede zwischen Modellen und der Realität erläutern
- die Binomialverteilung heranziehen, um geeignete (einfache) Modelle zu erstellen (für binomial verteilte Zufallsvariablen)
- die weite Einsetzbarkeit anhand mehrerer Beispiele exemplifizieren
- das Bayes-Modell anhand bekannter Formeln herleiten
- Post-Wahrscheinlichkeiten anhand der Bayesbox berechnen
6.1.4 Begleitliteratur
Der Stoff dieses Kapitels deckt einen Teil aus McElreath (2020), Kap. 2, ab. McElreath (2020) stellt das Globusmodell mit mehr Erläuterung und etwas mehr theoretischem Hintergrund vor, als es in diesem Kapitel der Fall ist.
6.1.5 Vorbereitung im Eigenstudium
6.1.6 Begleitvideos
6.1.7 Benötigte R-Pakete
6.2 Von Welten und Golems
6.2.1 Kleine Welt, große Welt
Bekanntlich segelte Kolumbus 1492 los, und entdeckte Amerika1. Das war aber ein glücklicher Zufall, denn auf seinem Globus existierte Amerika gar nicht. Vielleicht sah sein Globus so aus wie der von Behaim, s. Abb Abbildung 6.1.
Quelle: Ernst Ravenstein, Wikimedia, Public Domain
Die kleine Welt des Modells entsprach hier nicht der großen Welt, der echten Erdkugel.
Das ist ein Beispiel, das zeigt, wie Modellieren schiefgehen kann. Es ist aber auch ein Beispiel für, sagen wir, die Komplexität wissenschaftlicher (und sonstiger) Erkenntnis. Einfach gesagt: Glück gehört halt auch dazu.
Behaims Globus ist nicht gleich der Erde. Die kleine Welt von Behaims Globus ist nicht die große Welt, ist nicht die Erde.
Was in der kleinen Welt funktioniert, muss nicht in der großen Welt funktionieren. Modelle zeigen immer nur die kleine Welt: Vorsicht vor schnellen Schlüssen und vermeintlicher Gewissheit.
🏋 Nennen Sie ein Beispiel, in dem ein Modell nicht (exakt) der Wirklichkeit entspricht!
6.2.2 Der Golem von Prag
Bildquelle: Mikoláš Aleš, Wikimedia, Gemeinfrei
Der Golem von Prag, die Legende einer vom Menschen geschaffene Kreatur mit gewaltiger Kraft, die Befehle wörtlich ausführt, s. Abbildung 6.2. Die Geschichte besagt, dass ein Rabbi mit Zauberkräften den Golem aus Lehm erschuf, um die jüdische Bevölkerung der Stadt zu schätzen. Bei kluger Führung kann ein Golem Nützliches vollbringen. Bei unüberlegter Verwendung wird er jedoch großen Schaden anrichten.
6.2.3 Wissenschaftliche Modelle sind wie Golems
Golem
Eigenschaften des Golems:
- Besteht aus Lehm
- Belebt durch “Wahrheit”
- Mächtig
- dumm
- Führt Befehle wörtlich aus
- Missbrauch leicht möglich
- Märchen
Modell
Eigenschaften eines Modells:
- Besteht aus
LehmSilikon - Belebt durch Wahrheit (?)
- Manchmal mächtig
- simpler als die Realität
- Führt Befehle wörtlich aus
- Missbrauch leicht möglich
- Nicht einmal falsch
Wir bauen Golems.
Abbildung 2.7 stellt ein Sinnbild von Modellen dar.
Vergleichen wir die kleine Welt unserer Modellen (Tabelle 6.1), wie z.B. Behaims Globus, mit der Großen Welt, die Kolumbus und wir befahren.
6.2.4 Die Bayes-Formel und Lernen
🏋 Bayes-Inferenz ähnelt dem Lernen von Menschen. Geben Sie ein Beispiel von Lernen bei Menschen, das oben dargestelltem Prozess ähnelt!
Beispiel 6.1 (Ein Regressionsmodell ist aus der kleinen Welt) Ein wissenschaftliches Modell, etwa auf Basis eines Regressionsmodell ist Teil der kleinen Welt. Man muss sich bei der Interpretation eines Regressionsmodell vor Augen halten: “Die Ergebnisse des Modell sind nur richtig unter der Annahme, dass sich der Zusammenhang X und Y durch eine Gerade beschreiben lasssen und unter der Annahme, dass meine Daten in Ordnung sind.”
6.3 Ein erster Versuch: Wir werfen den Globus
6.3.1 Welcher Anteil der Erdoberfläche ist mit Wasser bedeckt?
Beispiel 6.2 (Wasseranteil auf der Erdoberfläche) Unsere Forschungsfrage lautet, mit welchem Anteil die Erde wohl mit Wasser bedeckt ist (Abbildung 6.3)? Um möglichst wenig schreiben zu müssen, schreiben wir für “angenommener Wasseranteil auf der Erdoberfläche” kurz
Analog können wir uns vorstellen, 11 Wissenschaftler haben jeweils eine andere Hypothese zum Wasseranteil,
Um die Forschungsfage zu beantworten, werfen Sie einen Globus-Ball in die Luft und fangen in wieder auf. Sie notieren dann, ob die Stelle unter Ihrem Zeigefinger Wasser zeigt (W) oder Land (L). Den Versuch wiederholen Sie, bis Sie den Globusball insgesamt 9 Mal geworfen haben.2
So sah mein3 Ergebnis aus:
Also
Übungsaufgabe 6.1 (Spin the Globe) 🏋️️ Besorgen Sie sich einen Globus (zur Not eine Münze) und stellen Sie den Versuch nach!
6.3.2 Bayes-Updates
Der Bayes-Golem denkt eigentlich ganz vernünftig: Zuerst hat er ein Vorwissen zum Wasseranteil, die dazugehörige Wahrscheinlichkeitsverteilung nennt man Priori-Verteilung (s. Definition 6.1). In unserem Beispiel ist das Vorwissen recht bescheiden: Jeder Wasseranteil ist ihm gleich plausibel. Als nächstes beschaut sich der Golem die Daten und überlegt, wie wahrscheinlich die Daten sind, wenn man von einer bestimmten Hypothese ausgeht, z.B. dass der Wasseranteil 50% beträgt. Die zugehörige Wahrscheinlichkeit der Daten unter Annahme einer Hypothese nennt man die4 Likelihood5, s. Definition 6.2. Als letztes bildet sich der Golem eine abschließende Meinung zur Wahrscheinlichkeit jeder Hypothese. Diese Wahrscheinlichkeitsverteilung nennt man Posteriori-Verteilung, s. Definition 6.3. Sie berechnet als Gewichtung des Vorwissen mit den neuen Daten. Anders gesagt: Das Vorwissen wird anhand der Erkenntnisse (der Daten) aktualisiert oder “geupdatet”, s. Abbildung 6.4.
Definition 6.1 (Priori-Verteilung) Für jede Hypothese haben wir ein Vorab-Wissen, das die jeweilige Plausibilität der Hypothese angibt: Priori-Verteilung (synonym: Apriori-Verteilung).
Definition 6.2 (Likelihood) Für jede Hypothese (d.h. jeden Parameterwert
Definition 6.3 (Posteriori-Verteilung) Dann gewichten wir den Likelihood mit dem Vorabwissen, so dass wir die Posteriori-Verteilung6 bekommen.
Übungsaufgabe 6.2 (Wie gut passen die Daten zur Hypothese, dass die Erde komplett trocken ist?) Wir haben in unseren Versuch
6.3.3 Was ist die Wahrscheinlichkeit von 6 mal Wasser bei 9 Würfen?
Wie wahrscheinlich ist es, einen bestimmten Wasseranteil, z.B. 6 Treffer (bei 9 Würfen) zu erhalten, wenn man eine bestimmte Hypothese (einen bestimmten Wasseranteil, z.B. 90%) annimmt? Diese Wahrscheinlichkeit nennt man die Likelihood,
Wenn wir eine Binomialverteilung annehmen, dann gehen wir davon aus, dass die Daten unabhängig voneinander entstehen und sich der Parameterwert nicht zwischenzeitlich ändert 7. Der Wasseranteil der Erde bleibt während des Versuchs gleich (durchaus plausibel).
Lassen Sie uns im Folgenden die Wahrscheinlichkeit (
Möchte man die Wahrscheinlichkeit ansprechen für das Ereignis “6 mal Wasser und 3 mal Land, wenn wir von einem Wasseranteil von 70% ausgehen”, so würden wir kurz schreiben:
Zur Erinnerung: Die Binomialverteilung zeigt die Verteilung der Wahrscheinlichkeit der Ereignisse (z.B. 2 Mal Kopf) beim wiederholten Münzwurf (und allen vergleichbaren Zufallsexperimenten): “Münzwurfverteilung”, s. Kap. Kapitel 5.4.
6.3.4 Likelihood berechnen
Was ist der Anteil der gültigen Pfade in einem Baumdiagramm (d.h. die Wahrscheinlichkeit), um 2 mal
Code
loesung <- dbinom(x = 2, size = 3, prob = 1/2)
loesung
## [1] 0.38
Oder von Hand gerechnet:
Wenn man sich den entsprechenden Baum anschaut (s. Abbildung 6.5): Von den 8 Endkonten bzw. Pfaden sind 3 günstig. Demnach ist die Wahrscheinlichkeit des gesuchten Ereignis (2 Treffer bei 3 Würfen, binomialverteilt) gleich 3 von 8 (alle Pfade sind gleich wahrscheinlich); 3/8 sind 0.375.
Abb. Abbildung 6.5 stellt einen einfachen Baum für 3 Globuswürfe mit je zwei möglichen Ereignissen (W vs. L) dar. In der ersten (obersten) Zeile (Knoten A; “Start”) ist Ausgangspunkt dargestellt: Der Globus ruht wurfbereit in unserer Hand. Jetzt Achtung: Sie werfen den Globusball hoch. Die Pfeile zeigen zu den (zwei) mögliche Ergebnissen. Die zweite Zeile (Knoten B und C) stellt die beiden Ergebnisse des Wurfes dar. Die Ergebnisse sind hier mit 0
und 1
bezeichnet (das eine eine einfache und weiteinsetzbare Notation). Die dritte Zeile (Knoten D bis G) stellt die Ergebnisse des des zweiten Wurfes dar. Die vierte Zeile (Knoten H bis P) stellt die Ergebnisse des des dritten Wurfes dar.
Für mehr Würfe würde das Diagramm irgendwann unübersichtlich werden.
Abbildung 6.6 zeigt die Binomialverteilung
Abb Abbildung 6.7 ist ein vergeblicher Versuch, so einen großen Baum (
Visualisierungen wie Baumdiagramme sind eine praktische Hilfe zum Verständnis, kommen aber bei größeren Daten schnell an ihre Grenze.
Jetzt folgen einige Beispiele.
Beispiel 6.3 (Globus mit 6 Treffern bei 9 Würfen, p=1/2) Was ist der Anteil der gültigen Pfade in einem Baumdiagramm (Wahrscheinlichkeit), um 6 mal
Code
dbinom(x = 6, size = 9, prob = 1/2)
## [1] 0.16
Oder, synonym, wenn man einen Taschenrechner (oder R als Taschenrechner) benutzt:
Code
choose(9, 6) * (1/2)^6 * (1/2)^3
## [1] 0.16
Beispiel 6.4 (Globus mit 9 Treffern bei 9 Würfen, p=1/2) Was ist die Wahrscheinlichkeit, gegeben
Code
dbinom(x = 9, size = 9, prob = 1/2)
## [1] 0.002
Das ist 1 günstiger Pfad von 512 Pfaden, also
Beispiel 6.5 (Globus mit 6 Treffern bei 9 Würfen, p=70%) Was ist die Wahrscheinlichkeit für
Code
dbinom(x = 6, size = 9, prob = .7)
## [1] 0.27
Mit Taschenrechner gerechnet:
Code
anz_pfade <- choose(9,6)
wskt_pro_pfad <- (.7)^6 * (.3)^3
gesamt_wkst <- anz_pfade * wskt_pro_pfad
gesamt_wkst
## [1] 0.27
(Fast) von Hand gerechnet, mit R als Taschenrechner:
Als Formel, s. Gleichung 6.2:
Zur Erinnerung: Die Funktion dbinom
gibt uns die Wahrscheinlichkeit von x
Treffern, bei size
Versuchen zurück, wobei eine Binomialverteilung angenommen wird mit Trefferwahrscheinlichkeit prob
.
Es gibt Taschenrechner(-Apps), die die Binomialverteilung oder den Binomialkoeffizienten berechnen können.9
Übungsaufgabe 6.3 (Peer Instruction: Welche Anzahl von Wasser ist am plausibelsten?) Wir führen wieder den Globusversuch durch (
- 0 Wasser
- 1 Wasser
- 3 Wasser
- 6 Wasser
- 9 Wasser
6.3.5 Unser Modell ist geboren
Ein Modell (in der Bayes-Statistik) besteht aus mind. drei Komponenten:
- Die Likelihood (die Wahrscheinlichkeit der Daten unter Annahme der Hypothese), s. Gleichung 6.3
- Die Priori-Verteilung(en) (die Wahrscheinlichkeit der Hypothese vor den Daten), a. Gleichung 6.4
- Die Posteriori-Verteilung (die Wahrscheinlichkeit der Hypothese nach den Daten), s. Abbildung 6.11
6.3.6 Likelihood
Im Globusversuch verwenden wir die Binomialverteilung zur Berechnung der Likelihood, s. Gleichung 6.3.
Lies: “W ist binomial verteilt mit den Parametern
Mit einem konkretes Beispiel:
Die Verwendung der Binomialvertielung ist an einige Annahmen geknüpft:
- Die Züge sind unabhängig voneinander (Die Würfe des Globusballs beeinflussen sich einander nicht).
- Der Parameterwert
bleibt konstant (Der Wasseranteil der Erde ändert sich nicht während des Versuchs).
Übungsaufgabe 6.4 🏋 Welche Annahmen würden Sie ändern? Welche könnte man wegnehmen? Welche hinzufügen? Was wären die Konsequenzen?
6.3.7 Priori-Verteilung
Unser Vorab- bzw. Apriori-Wissen zu
Lies: “
Man könnte auch sagen: Wir haben praktisch kein Vorwissen, wir sind erstmal (apriori) indifferent, jeder Parameterwert erscheint uns erstmal gleich wahrscheinlich, s. Abbildung 6.8.
6.3.8 Posteriori-Verteilung
die Posteriori-Verteilung quantifiziert unser Wissen nach Kenntnis der Daten, aufbauend auf unserem Vorwissen (Priori-Wissen). Die Posteriori-Verteilung ist das Ergebnis des Bayes-Updates.
Die Wahrscheinlichkeit bestimmter Hypothesen nennt man Posteriori-Wahrscheinlichkeit und bezeichnet sie kurz mit
6.4 Bayes’ Theorem
6.4.1 Wozu wird Bayes in der Praxis genutzt?
In der Praxis nutzt man Bayes häufig, wenn man Daten
Theorem 6.1 (Bayes’ Theorem)
Bayes’ Theorem (Theorem 6.1) fragt nach
Was ist die Wahrscheinlichkeit der Hypothese H, jetzt wo wir die Daten haben (und ein Modell?)
Und antwortet so (Theorem 6.1):
Diese Wahrscheinlichkeit entspricht der Grundrate (Apriori-Wahrscheinlichkeit) der Hypothese mal der Plausibilität (Likelihood) der Daten unter Annahme (gegeben) der Hypothese. Aus Standardisierungsgründen dividiert man noch die totale Wahrscheinlichkeit der Daten über alle Hypothesen.
Für unser Globusbeispiel:
Wie wahrscheinlich ist denn jetzt ein bestimmter Wasseranteil auf der Erde,
, (gegeben den Daten, und )? Also, wie wahrscheinlich ist z.B. ein Wasseranteil von 70% oder von 50%?
6.4.2 Bayes als bedingte Wahrscheinlichkeit
Bayes’ Theorem wird häufig verwendet, um die Wahrscheinlichkeit einer Hypothese, gegeben einer bestimmten Datenlage, zu berechnen, also
Theorem 6.2 (Bayes’ Theorem 2)
6.4.3 Die Evidenz zur Standardisierung
Die Aufgabe der Evidenz ist nur dafür zu sorgen, dass der Wert von
Definition 6.4 (Evidenz)
Theorem 6.3 (Evidenz)
Die verschiedenen Parameterwerte kann man auch als die verschiedenen Hypothesen
Theorem 6.4 (Evidenz 2)
Beispiel 6.6 In Beispiel 6.8 betrug der Wert der Evidenz
6.4.4 Bayes’ Theorem als Formel
Schauen wir uns die Bestandteile von Bayes’ Theorem (Theorem 6.8) noch etwas näher an:
(standardisierte) Posteriori-Wahrscheinlichkeit:
Likelihood:
Apriori-Wahrscheinlichkeit:
Evidenz:
Bayes’ Theorem gibt die
6.4.5 Posteriori als Produkt von Priori und Likelihood
Die unstandardisierte Posteriori-Wahrscheinlichkeit
Theorem 6.5 (Unstandardisierte Posteriori-Wahrscheinlichkeit)
Abb. Abbildung 6.9 visualisiert, dass die Post-Verteilung eine Gewichtung von Priori und Likelihood ist. Mathematisch gesprochen beruht diese Gewichtung auf einer einfachen Multiplikationen der beiden genannten Terme.
Standardisiert man die unstandardisierte Post-Verteilung, so erhält man die standardisierte Post-Verteilung. Das Standardisieren dient nur dazu, einen Wert zwischen 0 und 1 zu erhalten. Dies erreichen wir, indem wir durch die Summe aller Post-Wahrscheinlichkeiten dividieren. Die Summe der Post-Wahrscheinlichkeiten bezeichnet man (auch) als Evidenz, vgl. Gleichung Theorem 6.6.
Theorem 6.6 (Standardisierte Posteriori-Verteilung)
6.4.6 Wissen updaten: Wir füttern Daten in das Modell
Golems können lernen?! Abbildung 6.10 zeigt die Post-Verteilung, nach
Insofern kann man sagen: Unser Golem (das Modell) lernt. Ob das Modell nützlich ist (präzise Vorhersagen liefert), steht auf einem anderen Blatt.
6.5 Bayes berechnen mit mit der Bayesbox
Wir erstellen uns eine kleine Tabelle, die man “Bayesbox” nennen könnte.10 Dazu gehen wir so vor:
6.5.1 Die Idee der Bayesbox
- Teile den Wertebereich des Parameters in ein “Gitter” auf, z.B.
. - Wähle den Priori-Wert des Parameters für jeden Parameterwert, z.B. 1/11 bei einer Gleichverteilung von 0 bis 1.
- Berechne den Likelihood für jeden Parameterwert.
- Berechne den unstandardisierten Posteriori-Wert für jeden Parameterwert (Produkt von Priori und Likelihood).
- Standardisiere den Posteriori-Wert durch teilen anhand der Summe alle unstand. Posteriori-Werte.
Für jeden Parameterwert berechnen wir eine (Post-)Wahrscheinlichkeit.11 Häufig entspricht eine Hypothese einem Parameterwert, etwa wenn man sagt: “Ich glaube, die Münze ist fair”, was auf einen Parameterwert von 50% herausläuft. Dazu geben wir an, für wie wahrscheinlich wie apriori12 – also bevor wir irgendwelche Daten erheben – jeden einzelnen Parameterwert halten. Wir machen es uns hier einfach und halten jeden Parameterwert für gleich wahrscheinlich. Tatsächlich ist der konkrete Wert hier egal, entscheidend ist das Verhältnis der Apriori-Werte zueinander: Geben wir einigen Parameterwerten den Wert 2, aber anderen den Wert 1, so halten wir Erstere für (apriori) doppelt so plausibel wie Letztere. Der Likelihood wird in diesem Beispiel mit der Binomialverteilung berechnet (da wir ein binäres Ereignis,
6.5.2 Bayesbox in R berechnen
Legen wir uns ein Gitter mit Parameterwerten (
Code
wasseranteile <- seq(from = 0, to = 1, by = 0.1) # Parameterwerte
wasseranteile
## [1] 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
Dann berechnen wir schon mal die Wahrscheinlichkeit der Daten (6 W bei 9 Würfen) gegeben jeweils eines Wasseranteils.
Code
Likelihood <- dbinom(6, size = 9, prob = wasseranteile)
Likelihood
## [1] 0.0e+00 6.1e-05 2.8e-03 2.1e-02 7.4e-02 1.6e-01 2.5e-01 2.7e-01 1.8e-01
## [10] 4.5e-02 0.0e+00
Schließlich packen wir das alles in eine Tabelle, die “Bayesbox”, s. Tabelle 6.2 und Listing 6.3.
Code
d <-
tibble(
# definiere die Hypothesen (die Parameterwerte, p):
p = wasseranteile,
# Lege den Priori-Wert fest:
Priori = 1/11) |>
mutate(
# berechne Likelihood für jeden Wasseranteil (Parameterwert):
Likelihood = Likelihood,
# berechne unstand. Posteriori-Werte:
unstd_Post = Likelihood * Priori,
# berechne Evidenz, d.i. die Summe aller unstand. Post-Werte:
Evidenz = sum(unstd_Post),
# berechne stand. Posteriori-Werte (summiert zu 1):
Post = unstd_Post / Evidenz)
Die Bayesbox (Tabelle 6.2) zeigt, wie sich die Post-Verteilung berechnet.
id | p | Priori | Likelihood | unstd_Post | Evidenz | Post |
---|---|---|---|---|---|---|
1 | 0.0 | 0.091 | 0.000 | 0.000 | 0.091 | 0.000 |
2 | 0.1 | 0.091 | 0.000 | 0.000 | 0.091 | 0.000 |
3 | 0.2 | 0.091 | 0.003 | 0.000 | 0.091 | 0.003 |
4 | 0.3 | 0.091 | 0.021 | 0.002 | 0.091 | 0.021 |
5 | 0.4 | 0.091 | 0.074 | 0.007 | 0.091 | 0.074 |
6 | 0.5 | 0.091 | 0.164 | 0.015 | 0.091 | 0.164 |
7 | 0.6 | 0.091 | 0.251 | 0.023 | 0.091 | 0.251 |
8 | 0.7 | 0.091 | 0.267 | 0.024 | 0.091 | 0.267 |
9 | 0.8 | 0.091 | 0.176 | 0.016 | 0.091 | 0.176 |
10 | 0.9 | 0.091 | 0.045 | 0.004 | 0.091 | 0.045 |
11 | 1.0 | 0.091 | 0.000 | 0.000 | 0.091 | 0.000 |
Für jede Hypothese (Spalte id
) berechnen wir die unstandardisierte Posteriori-Wahrscheinlichkeit als Produkt von Priori und Likelihood, s. Gleichung 6.5.
Um zur standardisierten Posteriori-Wahrscheinlichkeit zu gelangten, teilen wir in jeder Zeile der Bayesbox (also für jede Hypothese) die unstandardisierte Post-Wahrscheinlichkeit durch die Summe der unstandardisierten Post-Wahrscheinlichkeiten, s. Theorem 6.7.
Theorem 6.7 (Posteriori-Verteilung 2)
Dabei haben wir die Priori-Wahrscheinlichkeit für alle Parameterwerte als gleich angenommen, da wir keinerlei Vorwissen hatten,
Wenn der Priori-Wert für jeden Parameterwert gleich ist, dann ist der Likelihood gleich der unstandardisierten Post-Wahrscheinlichkeit.
Beispiel 6.7 (Post-Wahrscheinlichkeit im Globusversuch für p=.7) In Beispiel 6.5 haben wir die Wahrscheinlichkeit für 6 Treffer bei 9 Würfen gegeben einer Trefferwahrscheinlichkeit von
Auf dieser Basis können wir die Posteriori-Wahrscheinlichkeit
Jetzt standardisieren wir die unstandardisierte Post-Wahrscheinlichkeit, indem wir durch die Evidenz dividieren, s. Gleichung 6.7.
Gleichung 6.8 fasst die Schritte der Berechnung zusammen.
Fazit: Nach dem Versuch, d.h. nachdem wir die Daten in Betracht gezogen haben, hat sich unsere Meinung über den Wasseranteil geupdatet von 0.1 auf 0.25.
Übungsaufgabe 6.5 🏋️ Was wohl mit Post passiert, wenn wir Priori ändern?
Abbildung 6.11 zeigt eine Visualisierung der Post-Verteilung mit Hilfe der Funktion ggline(x, y)
aus dem Paket ggpubr
. Wie man sieht, ist die Post-Wahrscheinlichkeit am höchsten bei
6.5.3 Was sagt die Post?
Die Posteriori-Verteilung (Kurz: “Post-Verteilung”, oder “Post”),
Abbildung 6.12 zeigt die Post-Wahrscheinlichkeit für 5, 10 und 20 Parameterwerte. Das mittlere Teilbild (10 Gitterwerte) entspricht unserer Tabelle oben. Man sieht: Je mehr Parameterwerte, desto genauer wird die Verteilung wiedergegeben.
Unter sonst gleichen Umständen gilt:
- Mehr Gitterwerte glätten die Annäherung.
- Je größer die Stichprobe (
), desto zuverlässiger wird unsere Berechnung.
Die Post-Verteilung ist sowas wie das Ziel all Ihrer Träume (falls Sie es noch nicht gewusst haben): Aus der Post-Verteilung können Sie ablesen, wie wahrscheinlich Ihre Hypothese (Ihr Lieblings-Parameterwert) ist. Und noch einiges mehr, aber das ist Thema des nächsten Kapitels.
Übungsaufgabe 6.6 (Peer Instruction: Schlüsse ziehen mit dem Bayes-Modell) Auf einer Party: Unterhalten sich fünf Studis über das Bayesmodell. Einer hat Unrecht, die anderen Recht.
Wenn eine Hypothese
apriori doppelt so wahrscheinlich ist wie die anderen und die Likelihoods für alle Hypothesen gleich ist, dann ist aposteriori auch doppelt so wahrscheinlich wie die anderen Hypothesen.Sind alle Hypothesen apriori gleich wahrscheinlich, dann hat die Hypothese mit dem höchsten Likelihood aposteriori auch die höchste Wahrscheinlichkeit.
Hat eine Hypothese apriori die Wahrscheinlichkeit Null, so hat sie automatisch aposteriori auch die Wahrscheinlichkeit Null, unabhängig von ihrer Likelihood.
Die unstandardisierte Posteriori-Wahrscheinlichkeit ist gleich der standardisierten mal einen Faktor
.Hat eine Hypothese die höchste Likelihood, so hat sie automatisch auch die höchste Wahrscheinlichkeit aposteriori.
6.6 Abschluss
6.6.1 Zusammenfassung
In unserem Modell haben wir Annahmen zu
und getroffen.Auf dieser Basis hat der Golem sein Wissen geupdated zu
.Mit der Gitter-Methode haben wir viele Hypothesen (Parameterwerte) untersucht und jeweils die
berechnet.Unser Modell bildet die kleine Welt ab; ob es in der großen Welt nützlich ist, steht auf einem anderen Blatt.
Übungsaufgabe 6.7 🏋️ Wenn Sie auf einen Prozentwert für
6.6.2 Der Globusversuch als Modell für zweiwertige Zufallsversuche
Der Globusversuch ist kein prototypisches Beispiel für Statistik in der Praxis, zumindest nicht auf dem ersten Blick. Er hat aber aber den Vorteil, dass es ein einfaches, gut greifbares Beispiel ist, und damit zum Lernen gut geeignet ist. Bei näherer Betrachtung ist der Globusversuch prototypisch für ganz viele Fragestellungen:
- Von einem neuen Produkt von von
Exemplaren verkauft. Auf welchen Wert kann die Akzeptanzrate dieses Produkts geschätzt werden? - Ein Chat-Bot hat von
Fragen richtig beantwortet. Wie hoch kann die Verständnisrate dieses Programms geschätzt werden? - Eine neue Krebstherapie hat von
“austherapierten” Patientis geheilt. Auf wie hoch kann die Erfolgsrate dieser Therapie geschätzt werden?
Kurz: Der Globusversuch ist ein Muster für zweiwertige Zufallsversuche. Und solche sind häufig im Leben, im Business und in der Wissenschaft.
6.7 Vertiefung
6.7.1 Bayes-Video von 3b1b
Das “Bayes-Paradox-Video” von 3b1b präsentiert eine gut verständliche Darstellung des Bayes-Theorem aus einer zwar nicht gleichen, aber ähnlichen Darstellung wie in diesem Kapitel.
6.7.2 Bayes als Baum
Bayes’ Theorem kann man sich als als Baumdiagramm vor Augen führen, Abbildung 6.13.
Gesucht sei
Das Diagramm löst die Aufgabe für uns; es zeigt damit die Anwendung von Bayes’ Theorem auf.
Um
Beispiel 6.8 (Maschine produziert Ausschuss) Die drei Maschinen
Aufgabe: Wie groß ist die Wahrscheinlichkeit, dass ein defektes Teil von Maschine 1 produziert wurde? Berechnen Sie diese Wahrscheinlichkeit.
Der günstige (gesuchte) Ast,
Zur Erinnerung:
6.7.3 Weitere Herleitung der Bayes-Formel
Man kann sich Bayes’ Theorem auch wie folgt herleiten:
Dann lösen wir nach P
Theorem 6.8 (Bayes’ Theorem 3)
6.7.4 Zusammengesetzte Hypothesen
Das ist vielleicht ein bisschen fancy, aber man kann Bayes’ Theorem auch nutzen, um die Wahrscheinlichkeit einer zusammengesetzten Hypothese zu berechnen:
Das sieht dann so aus wie in Theorem 6.9 gezeigt.
Theorem 6.9 (Bayes’ Theorem für zusammengesetzte Hypothesen)
Hier haben wir
6.8 Aufgaben
Einige der folgenden Aufgaben sind in englischer Sprache. Wenn Ihnen eine andere Sprache (z.B. Deutsch) lieber ist, nutzen Sie einfach die Übersetzungsfunktion Ihres Browsers. Das sind meist nur zwei Klicks.
6.8.1 Papier-und-Bleistift-Aufgaben
6.8.2 Aufgaben, für die man einen Computer braucht
6.9 —
wenn auch nicht als Erster↩︎
Warum gerade 9 Mal? Tja, dann hat das Handy geklingelt… Auch in wissenschaftlichen Versuchen ist (leider?) nicht immer alles genau geregelt.↩︎
Ihr Ergebnis kann anders aussehen, schließlich ist es ja Zufall.↩︎
oder den?↩︎
zu Deutsch etwa: “Mutmaßlichkeit”↩︎
Anstatt von Priori liest man auch Prior; anstatt Posteriori auch Posterior↩︎
Die sog. “iid-Annahme”, independently and identically distributed: Jeder Wurf der Globusballes ist eine Realisation der gleichen Zufallsvariablen. Jeder Wurf ist unabhängig von allen anderen: Das Ergebnis eines Wurfes hat keinen (stochastischen) Einfluss auf ein Ergebnis anderer Würfe. Die Wahrscheinlichkeitsverteilung ist bei jedem Wurf identisch.↩︎
Allgemeiner spricht man auch von 2 Treffern bei 3 Würfen (d.h. 1 “Nicht-Treffer”, den wir als “Niete” bezeichnen). Treffer werden oft mit
1
und Nieten mit0
bezeichnet↩︎Auch Gitter-Methode oder Grid-Methode genannt.↩︎
Ein Parameterwert ist eine mögliche Ausprägung des Parameters.↩︎
synonym: priori↩︎
synonym: Die Likelihoodwerte werden mit den Apriori-Werten gewichtet.↩︎