matheraum.de
Raum für Mathematik
Offene Informations- und Nachhilfegemeinschaft

Für Schüler, Studenten, Lehrer, Mathematik-Interessierte.
Hallo Gast!einloggen | registrieren ]
Startseite · Forum · Wissen · Kurse · Mitglieder · Team · Impressum
Navigation
 Startseite...
 Neuerdings beta neu
 Forum...
 vorwissen...
 vorkurse...
 Werkzeuge...
 Nachhilfevermittlung beta...
 Online-Spiele beta
 Suchen
 Verein...
 Impressum
Forenbaum
^ Forenbaum
Status Mathe
  Status Schulmathe
    Status Primarstufe
    Status Mathe Klassen 5-7
    Status Mathe Klassen 8-10
    Status Oberstufenmathe
    Status Mathe-Wettbewerbe
    Status Sonstiges
  Status Hochschulmathe
    Status Uni-Analysis
    Status Uni-Lin. Algebra
    Status Algebra+Zahlentheo.
    Status Diskrete Mathematik
    Status Fachdidaktik
    Status Finanz+Versicherung
    Status Logik+Mengenlehre
    Status Numerik
    Status Uni-Stochastik
    Status Topologie+Geometrie
    Status Uni-Sonstiges
  Status Mathe-Vorkurse
    Status Organisatorisches
    Status Schule
    Status Universität
  Status Mathe-Software
    Status Derive
    Status DynaGeo
    Status FunkyPlot
    Status GeoGebra
    Status LaTeX
    Status Maple
    Status MathCad
    Status Mathematica
    Status Matlab
    Status Maxima
    Status MuPad
    Status Taschenrechner

Gezeigt werden alle Foren bis zur Tiefe 2

Das Projekt
Server und Internetanbindung werden durch Spenden finanziert.
Organisiert wird das Projekt von unserem Koordinatorenteam.
Hunderte Mitglieder helfen ehrenamtlich in unseren moderierten Foren.
Anbieter der Seite ist der gemeinnützige Verein "Vorhilfe.de e.V.".
Partnerseiten
Dt. Schulen im Ausland: Mathe-Seiten:Weitere Fächer:

Open Source FunktionenplotterFunkyPlot: Kostenloser und quelloffener Funktionenplotter für Linux und andere Betriebssysteme
StartseiteMatheForenStatistik/HypothesentestsSörensen Index
Foren für weitere Studienfächer findest Du auf www.vorhilfe.de z.B. Astronomie • Medizin • Elektrotechnik • Maschinenbau • Bauingenieurwesen • Jura • Psychologie • Geowissenschaften
Forum "Statistik/Hypothesentests" - Sörensen Index
Sörensen Index < Statistik/Hypothesen < Stochastik < Oberstufe < Schule < Mathe < Vorhilfe
Ansicht: [ geschachtelt ] | ^ Forum "Statistik/Hypothesentests"  | ^^ Alle Foren  | ^ Forenbaum  | Materialien

Sörensen Index: Verwirrung
Status: (Frage) beantwortet Status 
Datum: 14:37 Sa 23.04.2016
Autor: magics

Aufgabe
Der Sörensen Index oder Sörensen-Dice-Koeffizient dient zur Ähnlichkeitsanalyse von Zeichenketten.

Dabei werden die Zeichenketten in Bigramme nebeneinanderliegender Buchstaben zerlegt. Aus "katze" erhält man also beispielsweise vier Bigramme: {ka, at, tz, ze}.

Die Formel ist definiert als:
s = [mm] \bruch{2*|A \cap B|}{|A| + |B|}, [/mm]

mit
|A [mm] \cap [/mm] B| Anzahl übereinstimmender Bigramme beider Worte
|A| bzw. |B| Anzahl Bigramme in Wort A bzw. B.

Ein Beispiel:
Verglichen werden soll "katze" und "tatze".
Aus "katze" bilden wir vier Bigramme: {ka, at, tz, ze}.
Aus "tatze" bilden wir vier Bigramme: {ta, at, tz, ze}.

Wir sehen, dass {at, tz, ze} übereinstimmen, womit |A [mm] \cap [/mm] B| = 3 wäre.
|A| und |B| sind jeweils 4.

Damit ergibt sich:

s = [mm] \bruch{2 * 3}{4 + 4} [/mm] = [mm] \bruch{3}{4} [/mm]



Was passiert, wenn sich Bigramme wiederholen?

Wenn ich also z.B. die Wörter "katztze" und "tatze" vergleichen wollte, ergäben sich die Bigrammgruppen:
{ka, at, tz, zt, tz, ze} und
{ta, at, tz, ze}

Das Bigramm "tz" käme zwei mal im oberen vor, zähle ich es dann auch zwei Mal in der Schnittmenge |A [mm] \cap [/mm] B|? Oder dürfen doppelte Bigramme nicht doppelt in die Liste aufgenommen werden?

lg
Magics

        
Bezug
Sörensen Index: Antwort
Status: (Antwort) fertig Status 
Datum: 16:03 Sa 23.04.2016
Autor: DieAcht

Hallo magics!


> Der Sörensen Index oder Sörensen-Dice-Koeffizient dient
> zur Ähnlichkeitsanalyse von Zeichenketten.
>  
> Dabei werden die Zeichenketten in Bigramme
> nebeneinanderliegender Buchstaben zerlegt. Aus "katze"
> erhält man also beispielsweise vier Bigramme: {ka, at, tz,
> ze}.
>  
> Die Formel ist definiert als:
>  s = [mm]\bruch{2*|A \cap B|}{|A| + |B|},[/mm]
>  
> mit
>  |A [mm]\cap[/mm] B| Anzahl übereinstimmender Bigramme beider
> Worte
>  |A| bzw. |B| Anzahl Bigramme in Wort A bzw. B.
>  
> Ein Beispiel:
>  Verglichen werden soll "katze" und "tatze".
>  Aus "katze" bilden wir vier Bigramme: {ka, at, tz, ze}.
>  Aus "tatze" bilden wir vier Bigramme: {ta, at, tz, ze}.
>  
> Wir sehen, dass {at, tz, ze} übereinstimmen, womit |A [mm]\cap[/mm]
> B| = 3 wäre.
>  |A| und |B| sind jeweils 4.
>  
> Damit ergibt sich:
>  
> s = [mm]\bruch{2 * 3}{4 + 4}[/mm] = [mm]\bruch{3}{4}[/mm]

[ok]

> Was passiert, wenn sich Bigramme wiederholen?

Seien [mm] $A\$ [/mm] und [mm] $B\$ [/mm] endliche nicht leere Mengen mit [mm] $A=B\$. [/mm] Dann gilt [mm] $s=1\$. [/mm]
  

> Wenn ich also z.B. die Wörter "katztze" und "tatze"
> vergleichen wollte, ergäben sich die Bigrammgruppen:
>  {ka, at, tz, zt, tz, ze} und
>  {ta, at, tz, ze}

Es geht dir aber hier nicht um die Wiederholung von Bigrammen, sondern um die Wiederholung von Elementen in Bigrammen.
Also geht es dir um die Wiederholung von Elementen in Mengen. Beispielsweise gilt [mm] $\{a,b,a\}=\{a,b\}$. [/mm]

> Das Bigramm "tz" käme zwei mal im oberen vor, zähle ich
> es dann auch zwei Mal in der Schnittmenge |A [mm]\cap[/mm] B|? Oder
> dürfen doppelte Bigramme nicht doppelt in die Liste
> aufgenommen werden?

Es gilt

      [mm] $\{ka, at, tz, zt, tz, ze\}=\{ka, at, tz, zt, ze\}$. [/mm]


Gruß
DieAcht

Bezug
                
Bezug
Sörensen Index: Frage (beantwortet)
Status: (Frage) beantwortet Status 
Datum: 16:51 Sa 23.04.2016
Autor: magics

Hallo DieAcht,

erstmal vielen Dank für die Antwort.
Leider wirft sie eine weitere Frage auf:

Nehmen wir Wörter die nur aus den Buchstaben 'a' und 'b' bestehen.

1. Beispiel:
A = "ab" => {ab}
B = "ba" => {ba}
s = [mm] \bruch{2*0}{2} [/mm] = 0

2. Beispiel:
A = "aba" => {ab, ba}
B = "bab" => {ba, ab}
s = [mm] \bruch{2*2}{4} [/mm] = 1,
da ich in deiner Antwort interpretiere, dass die Reihenfolge der Bigramme keine Rolle spielen, was bei Mengen ja auch Sinn macht.

"aba" und "bab" haben zwar Ähnlichkeiten, sind aber alles andere als gleich... dass hier 1 rauskommt, kann doch nicht richtig sein.

3. Beispiel
A = "aba" => {ab, ba}
B = "aba" => {ab, ba}
s = [mm] \bruch{2*2}{4} [/mm] = 1
Auch hier kommt 1 raus...?

Ich hätte vom Gefühl her die Bigramme der Zeichenketten nacheinander miteinander verglichen. Dann hat man aber Probleme, wenn eins der Wörter länger ist, als das andere...
Also so, dass beim 2. Beispiel gar keine Übereinstimmung zu finden ist, weil die Bigramme vertikal gelesen keine Übereinstimmung haben.

lg
Magics



Bezug
                        
Bezug
Sörensen Index: Antwort
Status: (Antwort) fertig Status 
Datum: 18:09 Sa 23.04.2016
Autor: DieAcht


> Nehmen wir Wörter die nur aus den Buchstaben 'a' und 'b'
> bestehen.
>  
> 1. Beispiel:
>  A = "ab" => {ab}

>  B = "ba" => {ba}

>  s = [mm]\bruch{2*0}{2}[/mm] = 0

[ok]

> 2. Beispiel:
>  A = "aba" => {ab, ba}

>  B = "bab" => {ba, ab}

>  s = [mm]\bruch{2*2}{4}[/mm] = 1,

[ok]

> da ich in deiner Antwort interpretiere, dass die
> Reihenfolge der Bigramme keine Rolle spielen, was bei
> Mengen ja auch Sinn macht.
> "aba" und "bab" haben zwar Ähnlichkeiten, sind aber alles
> andere als gleich... dass hier 1 rauskommt, kann doch nicht
> richtig sein.

Nur die Reihenfolge der Elemente spielt keine Rolle.

Im Allgemeinen gilt [mm] $\{a,b\}=\{b,a\}$, [/mm] aber [mm] $\{ab\}\not=\{ba\}$. [/mm]

> 3. Beispiel
>  A = "aba" => {ab, ba}

>  B = "aba" => {ab, ba}

>  s = [mm]\bruch{2*2}{4}[/mm] = 1

[ok]

>  Auch hier kommt 1 raus...?

Es gilt immer [mm] $s\in[0,1]$. [/mm]

> Ich hätte vom Gefühl her die Bigramme der Zeichenketten
> nacheinander miteinander verglichen. Dann hat man aber
> Probleme, wenn eins der Wörter länger ist, als das
> andere...
> Also so, dass beim 2. Beispiel gar keine Übereinstimmung
> zu finden ist, weil die Bigramme vertikal gelesen keine
> Übereinstimmung haben.

Der Sörensen Index liefert eine Aussage über die Ähnlichkeit!

Bezug
                                
Bezug
Sörensen Index: Danke
Status: (Mitteilung) Reaktion unnötig Status 
Datum: 13:53 So 24.04.2016
Autor: magics

Ok, besten Dank, DieAcht

Bezug
Ansicht: [ geschachtelt ] | ^ Forum "Statistik/Hypothesentests"  | ^^ Alle Foren  | ^ Forenbaum  | Materialien


Alle Foren
Status vor 15h 46m 2. fred97
UAnaR1FunkDiff/Polynomfunktion differenzierba
Status vor 15h 59m 1. Stephan30
Maxima/Indizes zählen mit Funktion
Status vor 17h 35m 1. mathenoob3000
UStoc/Markov Kette: Definitionen
Status vor 20h 36m 1. tc_engineer
Algebra/Hash für Bloom-Filter
Status vor 22h 18m 4. Diophant
ULinASon/Lineare Optimierung
^ Seitenanfang ^
www.matheraum.de
[ Startseite | Forum | Wissen | Kurse | Mitglieder | Team | Impressum ]