Berechnung der Fehlerquote < Statistik (Anwend.) < Stochastik < Hochschule < Mathe < Vorhilfe
|
Hallo zusammen,
Bei meiner Arbeit haben wir ein automatisches System für Erkennung und auswertung von Anketen programmiert. Die Hauptmenge von Fragen ist der Form von Kästchen. Jetzt möchten wir die Fehlerquote berechnen, dh um wieviel Prozent kann das Ergebnis von einem richtigen Ergebnis Abweichen.
Hier sind die Daten:
Anzahl Fragen (Kästchen): 132
Anzahl Anketen: 1000
Durchschnittsfehler pro Ankete: 10 (10 Kästchen werden falsch erkannt)
Wahrscheinlichkeit der Entsteheung vom Fehler ist für jede Frage(Kästchen) gleich.
Wie berechnet man richtig die mögliche Abweichung pro Gesamtmenge (sprich: Welche Prozentzahl soll ich unserem Manager nennen, wenn er fragt, um wieviel Prozent kann der Fehler für jede Frage betragen)
Ich verstehe, wie man pro Ankete die Fehlerqoute für beliebige Frage berechnet: 10/132
Aber wie pro Gesamtmenge (1000 Anketen) für beliebige Frage?
Vielen Dank im Voraus
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 01:41 Di 13.02.2007 | Autor: | Walde |
Hi vadimiron,
ich oute mich mal als ungebildet, aber ich weiss nicht, was eine Ankete ist. Daher bin ich mir nicht sicher, ob ich die Fragestellung richtig verstehe:
> Hallo zusammen,
>
> Bei meiner Arbeit haben wir ein automatisches System für
> Erkennung und auswertung von Anketen programmiert. Die
> Hauptmenge von Fragen ist der Form von Kästchen. Jetzt
> möchten wir die Fehlerquote berechnen, dh um wieviel
> Prozent kann das Ergebnis von einem richtigen Ergebnis
> Abweichen.
>
> Hier sind die Daten:
> Anzahl Fragen (Kästchen): 132
> Anzahl Anketen: 1000
> Durchschnittsfehler pro Ankete: 10 (10 Kästchen werden
> falsch erkannt)
> Wahrscheinlichkeit der Entsteheung vom Fehler ist für jede
> Frage(Kästchen) gleich.
>
> Wie berechnet man richtig die mögliche Abweichung pro
Was meinst du mit Abweichung. Was weicht wovon ab?
> Gesamtmenge (sprich: Welche Prozentzahl soll ich unserem
> Manager nennen, wenn er fragt, um wieviel Prozent kann der
> Fehler für jede Frage betragen)
Willst du jetzt Anzahl der Fehler in (Gesamtmenge) 1000 Anketen oder pro Frage? Das ist doch nicht dasselbe, oder?
>
> Ich verstehe, wie man pro Ankete die Fehlerqoute für
> beliebige Frage berechnet: 10/132
> Aber wie pro Gesamtmenge (1000 Anketen) für beliebige
> Frage?
>
Ich lese das so:
1 Ankete besteht aus 132 Fragen. Davon werden im Schnitt 10 falsch beantwortet. D.h. die W'keit, dass eine beliebige Frage falsch beantwortet wurde liegt bei [mm] p=\bruch{10}{132}
[/mm]
Die durchschnittliche Fehlerquote dürfte (wenn alle Fragen unabhängig voneinander mit W'keit p falsch beantwortet werden ) immer gleich sein.
In 1000 Anketen werden dann im Schnitt 10*1000 Fragen falsch beantwortet sein. (Weil in 1 Ankete halt 10 falsch sind)
Oder was möchtest du wissen?
L G walde
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 13:30 Di 13.02.2007 | Autor: | nczempin |
Was sind denn Anketen?
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 14:41 Di 13.02.2007 | Autor: | vadimiron |
Sorry, kein deutscher Wort wahrscheinlich.
Ich habe natuerlich Fragebogen gemeint.
Mein Programm hat alle Ergebnisse ausgewertet und zeigt zu jedem Kästchen, wieviel mal (in %) dieses Kästchen angekreuzt wurde. Jetzt möchte ich neben dieser Zahl noch mögliche Abweichung zeigen, zB:
Frage 1: 45% +/-5%
Und diese +/-%5 nenne mögliche Abweichung
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 19:59 Di 13.02.2007 | Autor: | Walde |
Hi,
> Sorry, kein deutscher Wort wahrscheinlich.
> Ich habe natuerlich Fragebogen gemeint.
>
> Mein Programm hat alle Ergebnisse ausgewertet und zeigt zu
> jedem Kästchen, wieviel mal (in %) dieses Kästchen
> angekreuzt wurde.
Aber wenn du doch genau weisst wie oft ein Kästchen angekreuzt wurde, dann hast du doch gar keine Abweichung. Das Kästchen wurde entweder so oft angekreuzt oder nicht. Das ist doch eine exakte Zahl. Und ein Kästchen war eine Frage, oder? Ich verstehe es glaub ich noch nicht.
>Jetzt möchte ich neben dieser Zahl noch
> mögliche Abweichung zeigen, zB:
> Frage 1: 45% +/-5%
>
> Und diese +/-%5 nenne mögliche Abweichung
Wenn die Frage/Kästchen 100 mal gestellt wurde und 45 mal angekreuzt wurde, dann wurde es in 45% der Fälle angekreuzt, keine Abweichung vorhanden.
Edit:
Oder möchtest du diesen Wert als Schätzer für die Wahrscheinlichkeit haben, dass die Frage angekreuzt wird? Dann möchtest du quasi die Standardabweichung davon noch wissen.
In diesem Fall würde ich sagen, wenn p die W'keit ist, dass das Kästchen angekreuzt ist, dann ist die Standardabweichung [mm] \sigma=\wurzel{p*(1-p)}, [/mm] denn die Zufallsvariable X mit X=1 falls Kästchen angekreuzt und X=0 falls nicht, ist binomialverteilt mit Parametern n=1 und p.
Was du dann mit [mm] p\pm\sigma [/mm] erhältst ist ein 1 Sigma-Bereich um den Erwartungswert. Höhere Abweichungen sind aber durchaus möglich.
LG walde
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 10:56 Mi 14.02.2007 | Autor: | vadimiron |
Ne, ich weiss nicht, ob ein Kästchen angekreuzt wurde oder nicht.
Das entscheidet ein Erkennungsprogramm. Belege (Fragebogen) werden zuerst gescannt, dann läuft ein spez. Programm, das alle Fragebogen auswertet. Jetzt möchte ich ausrechnen, wie oft erkennt das Programm falsch. Empirisch haben wir festgestellt, dass es durschnittlich 10 Fehler pro Fragebogen (132 Kästchen) gibt.
Pro Fragebogen kann man die Fehlerquote sehr leicht ausrechnen: 10/132.
Aber pro alle 1000 Fragebogen? Ist es auch 10/132 oder wird die Wahrscheinlichkeit irgendwie auf 1000 Stück verteilt?
Ich meine: in einem Beleg sind 9 Fragen falsch erkannt, in anderem aber 11 ganz andere Kästchen, dh für jedes Kästchen ist es (10/132)/2, weil 2 Fragebogen.
Soll im Falle von 1000 Belegen 10/132 durch 1000 dividieren, oder sehe ich es falsch?
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 12:01 Mi 14.02.2007 | Autor: | Walde |
> Ne, ich weiss nicht, ob ein Kästchen angekreuzt wurde oder
> nicht.
> Das entscheidet ein Erkennungsprogramm. Belege
> (Fragebogen) werden zuerst gescannt, dann läuft ein spez.
> Programm, das alle Fragebogen auswertet. Jetzt möchte ich
> ausrechnen, wie oft erkennt das Programm falsch. Empirisch
> haben wir festgestellt, dass es durschnittlich 10 Fehler
> pro Fragebogen (132 Kästchen) gibt.
> Pro Fragebogen kann man die Fehlerquote sehr leicht
> ausrechnen: 10/132.
>
> Aber pro alle 1000 Fragebogen? Ist es auch 10/132 oder wird
> die Wahrscheinlichkeit irgendwie auf 1000 Stück verteilt?
Die Fehlerquote bleibt dieselbe. Im Schnitt sind es 10 pro Fragebogen,d.h. in 1000 sind 10*1000 Fehler zu erwarten. Du hast dann allerdings auch 132*1000 Fragen gescannt, also ist der Fehlerquote [mm] \bruch{10000}{132000}=\bruch{10}{132}
[/mm]
> Ich meine: in einem Beleg sind 9 Fragen falsch erkannt, in
> anderem aber 11 ganz andere Kästchen, dh für jedes Kästchen
> ist es (10/132)/2, weil 2 Fragebogen.
Nein, es sind 20 Fehler auf 264 Fragen, also [(9+11)/132]/2=10/132
> Soll im Falle von 1000 Belegen 10/132 durch 1000
> dividieren, oder sehe ich es falsch?
Du würdest alle Fehler zählen und dann durch die Anzahl der Fragen (=gescannten Kästchen) teilen.
Die Fehlerquote ansich bleibt gleich und ist uns im Prinzip auch unbekannt. Die 10/132 sind ja nur ein Schätzwert.
Wenn du dann tatsächlich 1000 Fragebögen auswertest, wird sich die beobachtete Quote mit einer gewissen Wahrscheinlichkeit in einem Intervall um den (uns unbekannten, aber mit den geschätzten p=10/132 auch schätzbaren) Erwartungswert befinden.
Je kleiner du das Intervall angibst, desto wahrscheinlicher ist es, dass die tatsächliche, wahre Fehlerquote, die du schätzen willst ausserhalb liegt, je grösser desto eher liegt sie im Intervall. Es besteht also ein Konflikt, ob ich ein gutes(=kleines) Intervall angebe oder eine grosses, das mir keine gute Aussage bringt. Es ist üblich Intervalle anzugeben, die mit einer 95%igen W'keiten den wahren Schätzwert (hier der Fehlerquotient) enthalten. Diese Intervalle heissen übrigens Konfidenzintervalle (auch Konfidenzbereiche) oder Vertrauensintervalle, falls du was darüber nachlesen möchtest.
Beispiel: auch bei 1000 Fragebögen ist die erwartete Fehlerquote 10/132. Trotzdem ist im Prinzip JEDE Abweichung davon möglich, wenn auch grosse Abweichungen unwahrscheinlicher sind. .
Du kannst etwas angeben in der Form:
Ein 95%-Konfidenzintervall für die Fehlerquote ist [mm] 10/132\pm [/mm] 5/132 (die Zahl ist jetzt ausgedacht), d.h. mit 95% Wahrscheinlichkeit liegt die wahre Fehlerquote im Bereich von [0,0379;0,1136] (so darf man es zwar eigentlich nicht formulieren, aber du verstehst glaube ich, was gemeint ist)
Ist es das, was du suchst, wäre dir damit geholfen?
L G walde
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 14:24 Mi 14.02.2007 | Autor: | vadimiron |
Ja, danke!
Jetzt habe ich es begriffen.
Danke noch mal
|
|
|
|
|
Status: |
(Antwort) fertig | Datum: | 00:38 Do 15.02.2007 | Autor: | Walde |
Gern geschehen, aber denk dran, dass ich bei dem Intervall, dass ich angegeben habe, mir die Zahlen nur ausgedacht habe, die müsste man erst noch richtig berechnen, falls du es so angeben willst.
L G walde
|
|
|
|