Bayes bei mehreren ZV < Wahrscheinlichkeitstheorie < Stochastik < Hochschule < Mathe < Vorhilfe
|
Status: |
(Frage) beantwortet | Datum: | 18:35 Fr 20.11.2020 | Autor: | Dangoe |
Aufgabe | a) [mm] P(Y|X_1,X_2,X_3,X_4) [/mm] = [mm] \frac{P(X_1,X_2,X_3,X_4|Y)*P(Y)}{P(X_1,X_2,X_3,X_4)} [/mm] = [mm] \frac{P(X_1|X_2,X_3,X_4,Y)*P(X_2,X_3,X_4,Y)*P(Y)}{P(X_1|X_2,X_3,X_4)*P(X_2,X_3,X_4)} [/mm] = [mm] \frac{P(X_1|X_2,X_3,X_4,Y)*P(X_2|X_3,X_4,Y)*P(X_3,X_4,Y)*P(Y)}{P(X_1|X_2,X_3,X_4)*P(X_2|X_3,X_4)*P(X_3,X_4)} [/mm] = ... = [mm] \frac{P(X_1|X_2,X_3,X_4,Y)*P(X_2|X_3,X_4,Y)*P(X_3|X_4,Y)*P(X_4|Y)*P(Y)*P(Y)}{P(X_1|X_2,X_3,X_4)*P(X_2|X_3,X_4)*P(X_3|X_4)*P(X_4)} [/mm] |
Hallo!
Ich bräuchte Hilfe dabei, den Satz von Bayes für mehrere ZV auszuformulieren. Leider findet man im Internet kaum Beispiele, bei denen man mehr als 2 ZV hat, wie es beim maschinellen Lernen oft üblich ist.
Und mir fällt es schwer, rein anhand von Indizes wie i,j,k eine Formel zu verallgemeinern.
Ist das oben richtig ausformuliert? Das mit dem doppelten P(Y) im Zähler am Ende kommt mir komisch vor.
Mir geht es darum, den Satz von Bayes bei 3 oder mehr ZV nachzuvollziehen, wenn keine bed. Unabhängigkeit vorliegt.
Ansonsten könnte man ja im Zähler [mm] P(X_1|Y)*P(X_2|Y) [/mm] usw. schreiben
Ich habe diese Frage in keinem Forum auf anderen Internetseiten gestellt.
|
|
|
|
Hiho,
deine Gleichungen machen gar keinen Sinn… was willst du eigentlich zeigen?
> a) [mm]P(Y|X_1,X_2,X_3,X_4)[/mm]
Das ist Schmu… was soll P sein? Ein W-Maß? Das W-Maß einer Zufallsvariable ist gar nicht definiert.
Bevor man dir hier also antworten kann, schlage Definitionen nach und und dann formuliere sauber, was du eigentlich zeigen willst und wo dein Problem liegt…
Gruß,
Gono
|
|
|
|
|
Status: |
(Frage) beantwortet | Datum: | 14:00 Sa 21.11.2020 | Autor: | Dangoe |
Hi Gono!
Sorry, ich dachte, euch Mathematikern wäre sofort klar was ich meine.
Im Prinzip geht es mir um Folgendes: Der Satz von Bayes ist ja so definiert:
$$
P(A|B) = [mm] \frac{P(B|A)*P(B)}{P(A)}
[/mm]
$$
wobei man den Nenner über die totale Wahrscheinlichkeit berechnen kann.
Wenn ich jetzt aber statt B einen Zufallsvektor habe, der mehrere Zufallsvariablen vereint, dann sehe ich das, z. B. beim Zufallsvektor $ X = [mm] (X_1, X_2) [/mm] $ immer so geschrieben:
$$
[mm] P(Y|X_1,X_2) [/mm] = [mm] \frac{P(X_1,X_2|Y)*P(Y)}{P(X_1,X_2)}
[/mm]
$$
.
Z . B. hier: https://www.cs.cmu.edu/~tom/mlbook/NBayesLogReg.pdf oder hier https://www.seas.upenn.edu/~cis391/Lectures/probability-bayes-2015.pdf (Seite 9 z. B.)
Y = Zufallsvariable mit 2 möglichen Werten
X = Zufallsvektor bestehen aus n Zufallsvariablen, die ebenfalls jeweils 2 mögliche Werte annehmen können, also $ [mm] (X_1, [/mm] ..., [mm] X_n) [/mm] $.
Mein Problem ist jetzt: Ich studier das Zeug nicht, sondern schau mir das aus Interesse einfach an. Leider wird in solchen Skript gerne was übersprungen, was ich mir dann irgendwie selber erarbeiten muss.
Und was ich gerade verstehen will:
Wenn man beim Satz von Bayes einen Zufallsvektor mit 3 oder mehr Einträgen hat, wie genau lautet dann die Berechnung, wenn man keine bedingte Unabhängigkeit annimmt, weil dadurch die Berechnung ja stark vereinfacht wird.
Aber ich will einfach nachvollziehen, wie das ohne diese Annahme wäre. Leider beschränken sich die Bespiele, die ich gefunden habe, darauf, den Fall mit 2 Einträgen im Zufallsvektor zu berechnen.
Und ich habs nicht geschafft, das auf 3 oder mehr Beispiele zu erweitern.
Aber ich glaube, ich habs jetzt:
$$
[mm] P(Y|X_1,X_2,X_3) [/mm] = [mm] \frac{P(X_1,X_2,X_3|Y)*P(Y)}{P(X_1,X_2,X_3)} [/mm] = [mm] \frac{P(X_1|X_2,X_3,Y)*P(X_2|X_3,Y)*P(X_3|Y)*P(Y)}{P(X_1|X_2,X_3,Y)*P(X_2|X_3,Y)*P(X_3|Y)*P(Y) + P(X_1|X_2,X_3,\neg Y)*P(X_2|X_3,\neg Y)*P(X_3|\neg Y)*P(\neg Y)}
[/mm]
$$
|
|
|
|
|
Hiho,
> Sorry, ich dachte, euch Mathematikern wäre sofort klar was ich meine.
Ich habe eine Ahnung, was du meinen könntest… ich spiel aber ungern Orakel, sondern bleibe lieber bei meinen vorhandenen Kenntnissen der Mathematik.
Aber: Es geht viel mehr darum, dass DU verstehst, was zu zeigen ist… und das ist anscheinend nicht der Fall, wie deine Frage jetzt aufzeigt.
Und genau darum ging es: Zu eruieren, ob du nur schlampig aufschreibst, oder Wissenslücken hast.
> Im Prinzip geht es mir um Folgendes: Der Satz von Bayes ist ja so definiert:
>
> [mm][/mm]
> P(A|B) = [mm]\frac{P(B|A)*P(B)}{P(A)}[/mm]
> [mm][/mm]
>
> wobei man den Nenner über die totale Wahrscheinlichkeit
> berechnen kann.
>
> Wenn ich jetzt aber statt B einen Zufallsvektor habe, der
> mehrere Zufallsvariablen vereint, dann sehe ich das, z. B.
> beim Zufallsvektor [mm]X = (X_1, X_2)[/mm] immer so geschrieben:
>
> [mm][/mm]
> [mm]P(Y|X_1,X_2)[/mm] = [mm]\frac{P(X_1,X_2|Y)*P(Y)}{P(X_1,X_2)}[/mm]
> [mm][/mm]
Nein, das wird so nicht geschrieben.
Nochmal: P ist ein Wahrscheinlichkeitsmaß und X ist eine Zufallsvariable.
Ein Ausdruck der Form $P(X)$ ist nichtmal definiert, geschweige denn $P(X|Y)$
> Z . B. hier:
> https://www.cs.cmu.edu/~tom/mlbook/NBayesLogReg.pdf oder
> hier
> https://www.seas.upenn.edu/~cis391/Lectures/probability-bayes-2015.pdf
> (Seite 9 z. B.)
Auch in diesen Skripten sehe ich nirgendwo einen Ausdruck der Form $P(X|Y)$ sofern X und Y Zufallsvariablen sind.
> Wenn man beim Satz von Bayes einen Zufallsvektor mit 3 oder
> mehr Einträgen hat, wie genau lautet dann die Berechnung,
> wenn man keine bedingte Unabhängigkeit annimmt, weil
> dadurch die Berechnung ja stark vereinfacht wird.
Nochmal: Du wirfst Dinge in einen Topf, die nicht zusammengehören.
Argumente eines Wahrscheinlichkeitsmaßes sind Mengen, keine Zufallsvariablen, geschweige denn ein "Zufallsvektor".
> Aber ich glaube, ich habs jetzt:
>
> [mm][/mm]
> [mm]P(Y|X_1,X_2,X_3)[/mm] =
> [mm]\frac{P(X_1,X_2,X_3|Y)*P(Y)}{P(X_1,X_2,X_3)}[/mm] =
> [mm]\frac{P(X_1|X_2,X_3,Y)*P(X_2|X_3,Y)*P(X_3|Y)*P(Y)}{P(X_1|X_2,X_3,Y)*P(X_2|X_3,Y)*P(X_3|Y)*P(Y) + P(X_1|X_2,X_3,\neg Y)*P(X_2|X_3,\neg Y)*P(X_3|\neg Y)*P(\neg Y)}[/mm]
>
> [mm][/mm]
Also wie oben schon erwähnt, das macht nur Sinn, wenn [mm] $Y,X_1,X_2,X_3$ [/mm] Mengen sind. In dem Fall steht das "Komma" für den Schnitt von Mengen.
In diesem Fall stimmen deine Umformungen.
Gruß,
Gono
|
|
|
|
|
Status: |
(Frage) überfällig | Datum: | 18:03 Sa 21.11.2020 | Autor: | Dangoe |
Hi, Gonzo!
Okay, cool, dass die Umformung stimmt.
Das mit den Mengen verstehe ich, denke ich, auch: Du meinst wahrscheinlich, dass A und B aus der Bayes-Formel eigentlich Ereignisse bezeichnen, die ja Mengen sind, richtig?
Wie habe ich denn dann Folgendes zu verstehen, was auf Seite 1 in der ersten PDF steht
"Consider a supervised learning problem in which we wish to approximate an unknown target function f : X → Y, or equivalently P(Y|X). To begin, we will
assume Y is a boolean-valued random variable, and X is a vector containing n
boolean attributes. In other words, X = <X1,X2 ...,Xn>, where [mm] X_i
[/mm]
is the boolean random variable denoting the ith attribute of X"
Da steht $P(Y|X)$, wobei Y als boolsche Zufallsvariable bezeichnet wird und X als Zufallsvektor (oder mehrdimensionale Zufallsvariable), der wiederum boolsche Zufallsvariablen enthält.
Wenn ich dich richtig verstehe, dürfte man das nicht so formulieren.
Und in der 2. PDF steht auf Seite 9 z. B. $$ P(Weather,Cavity) = P(Weather | Cavity) * P(Cavity) $$
Hier stehen "Weather" und "Cavity" ja auch für Zufallsvariablen, die bestimmte Werte annehmen können, z. B. "sunny", "rainy",....
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 18:15 Sa 21.11.2020 | Autor: | tobit09 |
> Das mit den Mengen verstehe ich, denke ich, auch: Du meinst
> wahrscheinlich, dass A und B aus der Bayes-Formel
> eigentlich Ereignisse bezeichnen, die ja Mengen sind,
> richtig?
Genau, das meinte Gono sicherlich.
> Wie habe ich denn dann Folgendes zu verstehen, was auf
> Seite 1 in der ersten PDF steht
>
> "Consider a supervised learning problem in which we wish to
> approximate an unknown target function f : X → Y, or
> equivalently P(Y|X). To begin, we will
> assume Y is a boolean-valued random variable, and X is a
> vector containing n
> boolean attributes. In other words, X = <X1,X2 ...,Xn>,
> where [mm]X_i[/mm]
> is the boolean random variable denoting the ith attribute
> of X"
>
> Da steht [mm]P(Y|X)[/mm], wobei Y als boolsche Zufallsvariable
> bezeichnet wird und X als Zufallsvektor (oder
> mehrdimensionale Zufallsvariable), der wiederum boolsche
> Zufallsvariablen enthält.
>
> Wenn ich dich richtig verstehe, dürfte man das nicht so
> formulieren.
>
> Und in der 2. PDF steht auf Seite 9 z. B. [mm]P(Weather,Cavity) = P(Weather | Cavity) * P(Cavity)[/mm]
>
> Hier stehen "Weather" und "Cavity" ja auch für
> Zufallsvariablen, die bestimmte Werte annehmen können, z.
> B. "sunny", "rainy",....
Ich hatte im Studium aus der angewandten Mathematik Stochastik/Wahrscheinlichkeitstheorie/Mathematische Statistik, aber ich kann dir nicht erklären, was die Autoren hier meinen. Wenn die Autoren solche Nichtstandardnotationen verwenden, sollten eigentlich sie erklären, was sie damit meinen...
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 18:23 Sa 21.11.2020 | Autor: | Dangoe |
Ja, das ist halt das Problem, wenn man sich da selber anhand von irgendwelchen Skripten einarbeiten will :)
Aber eigentlich ging es mir ja hauptsächlich um die Ausformulierung der Bayes-Formel für mehrere Mengen :D und das hab ich ja, anscheinend, hinbekommen.
Aber interessant zu sehen, dass da auch mathematisch versierte Menschen ihre Problemchen haben.
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 18:20 So 29.11.2020 | Autor: | matux |
$MATUXTEXT(ueberfaellige_frage)
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 17:56 Sa 21.11.2020 | Autor: | tobit09 |
Hallo Dangoe und herzlich !
> Im Prinzip geht es mir um Folgendes: Der Satz von Bayes ist
> ja so definiert:
>
> [mm][/mm]
> P(A|B) = [mm]\frac{P(B|A)*P(B)}{P(A)}[/mm]
> [mm][/mm]
>
> wobei man den Nenner über die totale Wahrscheinlichkeit
> berechnen kann.
Wenn du $P(A)$ und $P(B)$ vertauschst, passt es.
(Voraussetzung ist, dass $A$ und $B$ Ereignisse sind mit $P(A)>0$ und $P(B)>0$.)
Das Kernproblem scheint mir hier im unsachgemäßen Gebrauch vieler Machine Learning Autoren von mathematischen Begriffen und Schreibweisen zu liegen. Es werden teilweise scheinbar Begriffe und Schreibweisen aus der mathematischen Stochastik übernommen, obwohl nicht die übliche mathematische Bedeutung gemeint ist. Leider ist es mir, als ich vor längerer Zeit einmal versucht habe, mich in Machine Learning einzuarbeiten, schlichtweg nicht gelungen zu verstehen, was der Autor meinte, da ich auch keine präzise Definition seiner Begriffe und Schreibweisen fand und die mir hinlänglich bekannten mathematischen Bedeutungen nicht passten.
Wenn ich beispielsweise die ersten Sätze von https://www.cs.cmu.edu/~tom/mlbook/Joint_MLE_MAP.pdf lese, habe ich den Eindruck, dass der Autor tatsächlich Zufallsvariablen $X$ und $Y$ zugrundelegt, mit [mm] $f:X\to [/mm] Y$ eigentlich [mm] $f:X(\Omega)\to Y(\Omega)$ [/mm] meint und was $P(Y|X)$ dann genau heißen soll, erschließt sich mir nicht.
Viele Grüße
Tobias
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 18:20 Sa 21.11.2020 | Autor: | Dangoe |
Hallo Tobias!
Ja, das scheint so zu sein. Das Hauptproblem für mich ist echt die teilweise inkonsistente oder schwer nachzuvollziehende Notation.
Ich hab hier noch was gefunden:
http://www.cs.cmu.edu/~tom/10601_sp09/lectures/NBayes-1-28-2009-ann.pdf
Auf Seite 5 meint der Autor:
$ P(Y|X) = [mm] \frac{P(X|Y)P(Y)}{P(X)}$ [/mm] is shorthand for [mm] $\forall_{i,j} P(Y=y_i|X=x_j) [/mm] = [mm] \frac{P(X=x_j|Y=y_i)P(Y=y_i)}{P(X=x_j)}$
[/mm]
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 18:32 Sa 21.11.2020 | Autor: | tobit09 |
> Ich hab hier noch was gefunden:
>
> http://www.cs.cmu.edu/~tom/10601_sp09/lectures/NBayes-1-28-2009-ann.pdf
>
> Auf Seite 5 meint der Autor:
>
> [mm]P(Y|X) = \frac{P(X|Y)P(Y)}{P(X)}[/mm] is shorthand for
> [mm]\forall_{i,j} P(Y=y_i|X=x_j) = \frac{P(X=x_j|Y=y_i)P(Y=y_i)}{P(X=x_j)}[/mm]
Hat auch z.B. P(Y|X) irgendeine Bedeutung? Oder ergibt dieser Ausdruck nur im Zusammenhang mit der gesamten Gleichheitsformulierung, die offenbar eine Kurzschreibweise sein soll, Sinn?
Außerdem muss man hier wohl erraten, dass [mm] $Y(\Omega)=\{y_1,\ldots,y_m\}$ [/mm] und [mm] $X(\Omega)=\{x_1,\ldots,x_n\}$ [/mm] für gewisse natürliche Zahlen n und m vorausgesetzt wird?
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 19:25 Sa 21.11.2020 | Autor: | Dangoe |
Also ganz mit Sicherheit kann ich es dir natürlich nicht sagen, aber ich verstehe es so:
Angenommen ich untersuche Pflanzen bezüglich 4 Merkmalen und ordne sie dann in eine von 2 Klassen sein. Dann würde das wohl so geschrieben:
[mm] $P(Klasse|Merkmal_1,Merkmal_2,Merkmal_3,Merkmal_4)$, [/mm] wobei Klasse und [mm] Merkmal_i [/mm] jeweils als Zufallsvariablen modelliert werden.
Konkret wäre das dann:
$P(Pflanze = Rose|Blattbreite = 5cm, Blattlaenge = 7cm, Staengelhoehe = 60cm, Staengeldurchmesser=0.4cm)$
Das heißt $P(Y|X)$ ist dann die Wahrscheinlichkeit, dass eine Pflanze eine Rose ist, gegeben bestimmten Merkmalswerten.
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 21:43 Sa 21.11.2020 | Autor: | tobit09 |
Ich habe kein Problem damit, dass 4 Merkmale und eine Klasseneinteilung als insgesamt 5 Zufallsvariablen modelliert werden.
Auch mit
> [mm]P(Pflanze = Rose|Blattbreite = 5cm, Blattlaenge = 7cm, Staengelhoehe = 60cm, Staengeldurchmesser=0.4cm)[/mm]
habe ich (wenn ich mir geeignete "Kontexte" dazu denke) kein Problem: Da stehen ja lauter Ereignisse zwischen den Klammern.
> Das heißt [mm]P(Y|X)[/mm] ist dann die Wahrscheinlichkeit, dass
> eine Pflanze eine Rose ist, gegeben bestimmten
> Merkmalswerten.
Wo kommt in P(Y|X) die Rose her?
Welche Art Objekt soll P(Y|X) sein? Eine Zahl? Eine Abbildung/Zuordnung? Wenn letzteres: Von wo nach wo bildet sie ab bzw. welcher Art von Objekten wird welche Art von Objekten zugeordnet?
Wie lautet die formale Definition von P(Y|X)?
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 11:10 So 22.11.2020 | Autor: | Dangoe |
Tja, wenn du dir das nicht herleiten kannst, was soll ich dann erst sagen? :D Es sieht so aus, als würden sich die Machine-Learning-Leute nicht so ganz um saubere Notation kümmern.
Aber zumindest bei dem Naive-Bayes-Ansatz soll am Ende eine Zahl rauskommen, weil die nur nach dem argmax suchen und nicht nach der eigentlichen Wahrscheinlichkeit.
Die wollen wohl einfach nur, dass für die korrekte Klasse verlässlich der größere Wert bei dieser Formel rauskommt und mehr nicht.
Aber wie gesagt, ich mach das nur hobbymäßig und stehe noch recht am Anfang.
|
|
|
|