matheraum.de
Raum für Mathematik
Offene Informations- und Nachhilfegemeinschaft

Für Schüler, Studenten, Lehrer, Mathematik-Interessierte.
Hallo Gast!einloggen | registrieren ]
Startseite · Forum · Wissen · Kurse · Mitglieder · Team · Impressum
Forenbaum
^ Forenbaum
Status Mathe
  Status Schulmathe
    Status Primarstufe
    Status Mathe Klassen 5-7
    Status Mathe Klassen 8-10
    Status Oberstufenmathe
    Status Mathe-Wettbewerbe
    Status Sonstiges
  Status Hochschulmathe
    Status Uni-Analysis
    Status Uni-Lin. Algebra
    Status Algebra+Zahlentheo.
    Status Diskrete Mathematik
    Status Fachdidaktik
    Status Finanz+Versicherung
    Status Logik+Mengenlehre
    Status Numerik
    Status Uni-Stochastik
    Status Topologie+Geometrie
    Status Uni-Sonstiges
  Status Mathe-Vorkurse
    Status Organisatorisches
    Status Schule
    Status Universität
  Status Mathe-Software
    Status Derive
    Status DynaGeo
    Status FunkyPlot
    Status GeoGebra
    Status LaTeX
    Status Maple
    Status MathCad
    Status Mathematica
    Status Matlab
    Status Maxima
    Status MuPad
    Status Taschenrechner

Gezeigt werden alle Foren bis zur Tiefe 2

Navigation
 Startseite...
 Neuerdings beta neu
 Forum...
 vorwissen...
 vorkurse...
 Werkzeuge...
 Nachhilfevermittlung beta...
 Online-Spiele beta
 Suchen
 Verein...
 Impressum
Das Projekt
Server und Internetanbindung werden durch Spenden finanziert.
Organisiert wird das Projekt von unserem Koordinatorenteam.
Hunderte Mitglieder helfen ehrenamtlich in unseren moderierten Foren.
Anbieter der Seite ist der gemeinnützige Verein "Vorhilfe.de e.V.".
Partnerseiten
Dt. Schulen im Ausland: Mathe-Seiten:Weitere Fächer:

Open Source FunktionenplotterFunkyPlot: Kostenloser und quelloffener Funktionenplotter für Linux und andere Betriebssysteme
StartseiteMatheForenUni-Stochastikstatistisches Problem
Foren für weitere Schulfächer findest Du auf www.vorhilfe.de z.B. Geschichte • Erdkunde • Sozialwissenschaften • Politik/Wirtschaft
Forum "Uni-Stochastik" - statistisches Problem
statistisches Problem < Stochastik < Hochschule < Mathe < Vorhilfe
Ansicht: [ geschachtelt ] | ^ Forum "Uni-Stochastik"  | ^^ Alle Foren  | ^ Forenbaum  | Materialien

statistisches Problem: Frage (beantwortet)
Status: (Frage) beantwortet Status 
Datum: 16:21 Fr 16.07.2004
Autor: jopeku

Hallo,

ich wage mich in dieses Forum, da man mir es im Forum 9-10 Klasse
so geraten hat.

Da ich mir hier etwas Hilfe und Unterstützung erhoffe, versuche ich mein Problem
möglichst konkret zu beschreiben.

Ich beschäftige mich als Autodidakt seit einigen Jahren mit der quantitativen Computerlinguistik. Die dazu erforderlichen Programme schreibe ich erfolgreich
selbst. Die Programme ermitteln aus einer sehr großen Zahl von Texten, spezielle
Kennzahlen wie sie in der entsprechenden Literatur beschrieben werden sowie einige
zusätzliche Kennzahlen, die ich selbst entwickelt habe.

Meine Interesse richtet sich darauf, ob man an Hand des Genres – Märchen, Novelle, Erzählung – usw. signifikante Unterschiede feststellen kann oder nicht. Als Ausgangsmaterial
verwende ich nur Texte zwischen 1800 und 1900.

So weit, so gut.

Nun mein Problem in der Hoffnung auf Hilfe:

Wenn ich die Entropie der Wörter in einem Text beispielsweise ermittle und die Werte
addiere um sie am Ende durch die Anzahl der im Text vorkommenden Worte dividiere,
dann erhalte ich je Text einen bestimmten Wert.

An Hand dieser ermittelten Kennzahl möchte ich nun die Texte miteinander programmtechnisch vergleichen. Nach meiner Auffassung jedoch übt die Wortanzahl
einen Einfluss aus diesen Wert aus. Nun habe ich mich versucht in der Literatur
schlau zu machen und da wird darauf verwiesen, dass man durch Transformation der
Werte unterschiedliche Stichproben „normalisieren“ kann.

Ich gehe davon aus, das die Stichproben – also Texte – in Normalverteilter Form vorliegen.
Welches Verfahren kann ich anwenden, um den Einfluss der Wortanzahl zu eliminieren??

Oder sind meine Überlegungen völlig falsch?

Ich würde mich sehr darüber freuen, wenn mir jemand helfen könnte.
Ich bitte aber zu bedenken, dass ich weder jemals studiert habe und mich eher als mathematischer Laie betrachte. Es wäre also sehr nett, wenn man mir eine Lösung so
erklären könnte, das ich sie programmtechnisch einfach umsetzen kann.

Ein kurzes Beispiel:

Text 1     768  Worte Kennzahl  0,346
Text 2  11723  Worte Kennzahl  0,421
Text 3    2812  Worte Kennzahl  0,361

Ich habe diese Frage auch in folgendem Foreum gestellt:
https://matheraum.de/read?f=10&t=650&i=650

        
Bezug
statistisches Problem: Antwort
Status: (Antwort) fertig Status 
Datum: 23:02 Fr 16.07.2004
Autor: Stefan

Hallo!

Ich bin mir zwar nicht ganz sicher, ob ich dein Problem richtig verstanden habe, aber ich versuche es mal.

Bleiben wir mal bei deinem Beispiel:

> Ein kurzes Beispiel:
>  
> Text 1     768  Worte Kennzahl  0,346
>  Text 2  11723  Worte Kennzahl  0,421
>  Text 3    2812  Worte Kennzahl  0,361

Hier würde ich wie folgt vorgehen:

Du gehst ja davon aus, dass die Entropie normalverteilt ist. Den Erwartungswert bezeichne ich mit [mm] $\mu$ [/mm] und die Streuung mit [mm] $\sigma$. [/mm]

Jetzt könntest du [mm] $\mu$ [/mm] durch das arithmetische Mittel [mm] $\hat{\mu}$ [/mm]  der drei Werte $0,346$, $0,421$ und $0,361$ schätzen und [mm] $\sigma$ [/mm] durch die empirische Streuung:

[mm] $\hat{\sigma}= \sqrt{\frac{1}{2} ( (0,346 - \hat{\mu})^2 + (0,421 - \bar{x})^2 + (0,361 - \bar{x})^2 )}$. [/mm]

So, und jetzt standardisierst du deine Größen mittels:

[mm] $\bar{x_i} [/mm] = [mm] \frac{x_i - \hat{\mu}}{\hat{\sigma^2}} \sqrt{n}$, [/mm]

also:

[mm] $\bar{x_1} [/mm] = [mm] \frac{0,346 - \hat{\mu}}{\hat{\sigma}} \sqrt{768}$, [/mm]

[mm] $\bar{x_2} [/mm] = [mm] \frac{0,421 - \hat{\mu}}{\hat{\sigma}} \sqrt{11723}$, [/mm]

[mm] $\bar{x_3} [/mm] = [mm] \frac{0,361 - \hat{\mu}}{\hat{\sigma}} \sqrt{2812}$. [/mm]

Liebe Grüße
Stefan



Bezug
                
Bezug
statistisches Problem: Frage (beantwortet)
Status: (Frage) beantwortet Status 
Datum: 23:18 Fr 16.07.2004
Autor: jopeku

Hallo Stefan,

danke für die Antwort, hatte schon befürchtet,
das ich alleine mit meinem Problem bleibe.

Ich denke mal, ich habe es halbwegs verstanden
und versuche es mal
a) programmtechnisch umzusetzen
b) die Ergebnisse an Hand der Augabenstellung zu bewerten

eine abschließende Frage habe ich noch dazu:

Hat dieses Verfahren einen bestimmten Namen, unter dem ich
in einem guten Statistikbuch nachschlagen kann.
Um mich herrum wimmelt es von Stistikbücher z.B. Sachs, aber
je mehr man darin stöbert um so mehr wird man irretiert :-)

danke für deine Hilfe


Bezug
                        
Bezug
statistisches Problem: Antwort
Status: (Antwort) fertig Status 
Datum: 23:44 Fr 16.07.2004
Autor: Stefan

Hallo!

Das ist die ganz gewöhnliche Standardisierung:

Ist $X$ [mm] ${\cal N}(\mu,\sigma^2)$-verteilt, [/mm] so ist [mm] $\frac{X-\mu}{\sigma}$ ${\cal N}(0,1)$-verteilt. [/mm]

Das einzige, was du hier beachten musst, ist folgendes:

Ist eine Folge [mm] $(X_i)_{i=1,2,\ldots,n}$ [/mm] unabhängig identisch [mm] ${\cal N}(\mu,\sigma^2)$ [/mm] verteilt, so ist das arithmetische Mittel

[mm] $\bar{X} [/mm] = [mm] \frac{1}{n} \sum\limits_{i=1}^n X_i$ [/mm]

gerade [mm] ${\cal N}(\mu, \frac{\sigma^2}{n})$-verteilt. [/mm]

Jetzt wendest du die obige Standardisierung einfach auf [mm] $\bar{X}$ [/mm] (anstatt auf $X$) an. (Denn: Bei dir sind die Kenngrößen ja bereits arithmetische Mittel der Entropien von Stichproben verschiedener Größen.)

Da [mm] $\mu$ [/mm] und [mm] $\sigma$ [/mm] nicht bekannt sind, musst du diese erst aus dem arithmetischen Mittel der drei Werte und der Stichprobenvarianz der drei Werte schätzen.

Liebe Grüße
Stefan

Bezug
Ansicht: [ geschachtelt ] | ^ Forum "Uni-Stochastik"  | ^^ Alle Foren  | ^ Forenbaum  | Materialien


^ Seitenanfang ^
www.matheraum.de
[ Startseite | Forum | Wissen | Kurse | Mitglieder | Team | Impressum ]