Forum "Statistik (Anwendungen)" - Prostatakrebs/ Regression - MatheRaum - Offene Informations- und Vorhilfegemeinschaft

Raum für Mathematik Offene Informations- und Nachhilfegemeinschaft Für Schüler, Studenten, Lehrer, Mathematik-Interessierte.
	Hallo Gast! [ einloggen \| registrieren ]
	Startseite · Forum · Wissen · Kurse · Mitglieder · Team · Impressum

Forenbaum

Mathe

Numerik

Schule

Derive

DynaGeo

FunkyPlot

GeoGebra

LaTeX

Maple

MathCad

Mathematica

Matlab

Maxima

MuPad

Taschenrechner

Gezeigt werden alle Foren bis zur Tiefe 2

Navigation

Startseite...
Neuerdings beta neu
Forum...
vorwissen...
vorkurse...
Werkzeuge...
Nachhilfevermittlung beta...
Online-Spiele beta
Suchen
Verein...
Impressum

Das Projekt

Server und Internetanbindung werden durch Spenden finanziert.

Organisiert wird das Projekt von unserem Koordinatorenteam.

Hunderte Mitglieder helfen ehrenamtlich in unseren moderierten Foren.

Anbieter der Seite ist der gemeinnützige Verein "Vorhilfe.de e.V.".

Partnerseiten

Dt. Schulen im Ausland:

Mathe-Seiten:

Weitere Fächer:

Vorhilfe.de

FunkyPlot: Kostenloser und quelloffener Funktionenplotter für Linux und andere Betriebssysteme

Startseite > MatheForen > Statistik (Anwendungen) > Prostatakrebs/ Regression

Foren für weitere Studienfächer findest Du auf www.vorhilfe.de z.B. Astronomie • Medizin • Elektrotechnik • Maschinenbau • Bauingenieurwesen • Jura • Psychologie • Geowissenschaften

Forum "Statistik (Anwendungen)" - Prostatakrebs/ Regression

Prostatakrebs/ Regression < Statistik (Anwend.) < Stochastik < Hochschule < Mathe < Vorhilfe

Ansicht:

[ geschachtelt ]

Forum "Statistik (Anwendungen)" |

Alle Foren |

Forenbaum | Materialien

Prostatakrebs/ Regression: Regression mit R

Status:	(Frage) überfällig
Datum:	16:53 Mi 18.06.2014
Autor:	sick_of_math

Aufgabe

 Im R-Paket [mm] \textit{faraway} [/mm] finden Sie den Datensatz [mm] \textit{prostate}. [/mm] Er enthält die Daten von 97 Männern mit Prostatakrebs, denen die Prostata vollständig entfernt werden sollte. In der Studie wurden u.a. die folgenden Merkmale erhoben: das logarithmierte Volumen des Krebses (lcavol), das logarithmierte Gewicht der Prostata (lweight), das Alter des Patienten (age) und die logarithmierte Menge eines Prostata-spezifischen Antigens (lpsa).

Passen Sie ein lineares Regressionsmodell mit lpsa als Responsevariable und allen anderen Variablen als Kovariablen an.

(a) Stellen Sie sich vor, ein neuer Patient kommt zu Ihnen mit den folgenden Werten:

[mm] $\begin{array}{cccccccc}
\text{lcavol} & \text{lweight} & \text{age} & \text{lbph} & \text{svi} & \text{lcp}  & \text{gleason} & \text{pgg45}\\
1.44692 & 3.62301 & 65.00 & 0.3310 & 0.00 & -0.79851 & 7.00 & 15.00
\end{array}$
 [/mm]

Berechnen Sie den Prognosewert für diesen Patienten und geben Sie das zugehörige 95 % - Prognoseintervall an.

(b) Wiederholen Sie die Berechnung mit den gleichen Werten außer einem Alter von 20 Jahren.

(c) Warum unterscheiden sich die Prognoseintervalle in ihrer Breite?

(d) Reduzieren Sie das Modell um diejenigen Kovariablen, die zu einem Niveau von [mm] $\alpha=0.05$ [/mm] nicht signifikant sind. Berechnen Sie erneut die Prognosen mit den Werten. Werden die Prognoseintervalle enger oder breiter? Erläutern Sie das Ergebnis.

(e) Testen Sie beide Modelle gegeneinander. Welches Modell sollten Sie bevorzugen?

Hallo, ich habe diese Aufgabe mit R gelöst. Nur (e) habe ich noch gar nicht hinbekommen. Hier sind erstmal meine Resultate zu (a) bis (d):

Zunächst habe ich das lineare Regressionsmodell angepasst:

1:	rm(list=ls(all=T))
2:	library(faraway)
3:	#
4:	# Lade und attache Daten
5:	#
6:	data(prostate)
7:	attach(prostate)
8:	#
9:	head(prostate)
10:	#
11:	(linReg <- lm(lpsa ~ lcavol + lweight + age + lbph + svi + lcp + gleason + pgg45))
12:	summary(linReg)

Es ergibt sich
$Y=0.669+0.587 [mm] X_1+0.454 X_2-0.0196 X_3+0.107 X_4+0.766 X_5-0.105 X_6+0.045X_7+0.005X_8$, [/mm]

wobei [mm] $X_1$ [/mm] für [mm] $\text{lcavol}$ [/mm] steht usw.

[mm] \textbf{Zu (a) und (b):} [/mm]

Auch hier habe ich wieder R verwendet:

1:	rm(list=ls(all=T))
2:	library(faraway)
3:	#
4:	# Lade und attache Daten
5:	#
6:	data(prostate)
7:	attach(prostate)
8:	#
9:	head(prostate)
10:	#
11:	(linReg <- lm(lpsa ~ lcavol + lweight + age + lbph + svi + lcp + gleason + pgg45))
12:	summary(linReg)
13:
14:	x.f.1.neu <- data.frame(lcavol=1.44692, lweight=3.62301, age=65, lbph=0.3310, svi=0, lcp=-0.79851, gleason=7, pgg45=15)
15:	predict(linReg,x.f.1.neu,interval="prediction")
16:	#
17:	x.f.2.neu <- data.frame(lcavol=1.44692, lweight=3.62301, age=20, lbph=0.3310, svi=0, lcp=-0.79851, gleason=7, pgg45=15)
18:	predict(linReg,x.f.2.neu,interval="prediction")

Es ergibt sich für den 65-jährigen Patienten der Prognosewert 2.392, das Prognoseintervall $(0.968,3.817)$ und die das Prognoseintervall hat eine Breite von $2.848$.

Für den 20-jährigen Patienten (der ansonsten die gleichen Werte hat) ergibt sich ein Prognosewert von $3.276$, ein Prognoseintervall von $(1.542, 5.011)$ und dieses Prognoseintervall hat eine Breite von $3.47$.

[mm] \textbf{Zu (c):} [/mm]

Bei dem 20-jährigen Patienten extrapolieren wir, da alle anderen Patienten entschieden älter sind. Darum ist die Prognose hierbei unsicherer und das spiegelt sich darin wider, dass das Prognoseintervall breiter ist.

[mm] \textbf{Zu (d):} [/mm]

Hierzu habe ich mir

summary(linReg)

angeschaut (das ist Zeile 12 in obigem Code).

Man erkennt an den p-Werten, dass nur 3 der Kovariablen zum Niveau $0.05$ signifikant sind, nämlich

lcavol, lweight und svi.

Das neue Modell lautet also

[mm] $Y=\theta_0+\theta_1X_1+\theta_2X_2+\theta_3X_3$, [/mm]

wobei wiederum [mm] $Y=\text{lpsa}$ [/mm] und [mm] $X_1=\text{lcavol}, X_2=\text{lweight}, X_3=\text{svi}$. [/mm]

Mit

1:	rm(list=ls(all=T))
2:	library(faraway)
3:	data(prostate)
4:	attach(prostate)
5:	linReg <- lm(lpsa ~ lcavol + lweight + svi)
6:
7:
8:	x.f <- data.frame(lcavol=1.44692, lweight=3.62301, svi=0)
9:	predict(linReg,x.f,interval="prediction")

erhalte ich sowohl für den 65-jährigen, als auch für den 20-jährigen Patienten (denn das Alter ist ja hier nicht mehr berücksichtigt, da es hier nicht signifikant ist) einen Prognosewert von $2.373$, ein Prognoseintervall von $(0.938,3.807)$ und eine Breite dieses Prognoseintervalls von $2.8489$.

Das Prognoseintervall wird also breiter, was meiner Meinung nach damit zu erklären ist, dass weniger Informationen aus den Daten verwendet werden, d.h. die Prognose wird ungenauer, was sich darin widerspiegelt, dass das Prognoseintervall ungenauer und das heißt: breiter wird.

[mm] \textbf{Zu (e):} [/mm]

Hier weiß ich nun nicht, was gemacht werden soll bzw. wie man das eine Modell (das alle Kovariablen benutzt) gegen das andere Modell (das nur drei Kovariablen benutzt) gegeneinander testen kann.

Was ist wohl damit gemeint bzw. welcher Test?

Viele Grüße!

Bezug

Prostatakrebs/ Regression: Mitteilung

Status:	(Mitteilung) Reaktion unnötig
Datum:	01:52 Do 19.06.2014
Autor:	Eisfisch

Test auf (signif.Unterschiede) der drei Werte der zwei Modelle?
Also von ..
Prognosewert, Prognoseintervall und Breite des Prognoseintervalls ?
Nullhypothese...

Bezug

Prostatakrebs/ Regression: Frage (überfällig)

Status:	(Frage) überfällig
Datum:	11:20 Do 19.06.2014
Autor:	sick_of_math

Hallo, Eisfisch,

leider ist mir nicht richtig klar geworden, was Du meinst.

Meinst du, dass die Nullhypothese ist, dass Prognosewert, Prognoseintervalle und Breite der Prognoseintervalle identisch sind?

Ich wüsste aber nicht, welchen Test man da benutzt...

Bezug

Prostatakrebs/ Regression: Fälligkeit abgelaufen

Status:	(Mitteilung) Reaktion unnötig
Datum:	11:20 Sa 21.06.2014
Autor:	matux

$MATUXTEXT(ueberfaellige_frage)

Bezug

Prostatakrebs/ Regression: Fälligkeit abgelaufen

Status:	(Mitteilung) Reaktion unnötig
Datum:	05:20 Sa 21.06.2014
Autor:	matux

$MATUXTEXT(ueberfaellige_frage)

Bezug

Ansicht:

[ geschachtelt ]

Forum "Statistik (Anwendungen)" |

Alle Foren |

Forenbaum | Materialien