Prostatakrebs/ Regression < Statistik (Anwend.) < Stochastik < Hochschule < Mathe < Vorhilfe
|
Aufgabe | Im R-Paket [mm] \textit{faraway} [/mm] finden Sie den Datensatz [mm] \textit{prostate}. [/mm] Er enthält die Daten von 97 Männern mit Prostatakrebs, denen die Prostata vollständig entfernt werden sollte. In der Studie wurden u.a. die folgenden Merkmale erhoben: das logarithmierte Volumen des Krebses (lcavol), das logarithmierte Gewicht der Prostata (lweight), das Alter des Patienten (age) und die logarithmierte Menge eines Prostata-spezifischen Antigens (lpsa).
Passen Sie ein lineares Regressionsmodell mit lpsa als Responsevariable und allen anderen Variablen als Kovariablen an.
(a) Stellen Sie sich vor, ein neuer Patient kommt zu Ihnen mit den folgenden Werten:
[mm] $\begin{array}{cccccccc}
\text{lcavol} & \text{lweight} & \text{age} & \text{lbph} & \text{svi} & \text{lcp} & \text{gleason} & \text{pgg45}\\
1.44692 & 3.62301 & 65.00 & 0.3310 & 0.00 & -0.79851 & 7.00 & 15.00
\end{array}$
[/mm]
Berechnen Sie den Prognosewert für diesen Patienten und geben Sie das zugehörige 95 % - Prognoseintervall an.
(b) Wiederholen Sie die Berechnung mit den gleichen Werten außer einem Alter von 20 Jahren.
(c) Warum unterscheiden sich die Prognoseintervalle in ihrer Breite?
(d) Reduzieren Sie das Modell um diejenigen Kovariablen, die zu einem Niveau von [mm] $\alpha=0.05$ [/mm] nicht signifikant sind. Berechnen Sie erneut die Prognosen mit den Werten. Werden die Prognoseintervalle enger oder breiter? Erläutern Sie das Ergebnis.
(e) Testen Sie beide Modelle gegeneinander. Welches Modell sollten Sie bevorzugen? |
Hallo, ich habe diese Aufgabe mit R gelöst. Nur (e) habe ich noch gar nicht hinbekommen. Hier sind erstmal meine Resultate zu (a) bis (d):
Zunächst habe ich das lineare Regressionsmodell angepasst:
1: | rm(list=ls(all=T))
| 2: | library(faraway)
| 3: | #
| 4: | # Lade und attache Daten
| 5: | #
| 6: | data(prostate)
| 7: | attach(prostate)
| 8: | #
| 9: | head(prostate)
| 10: | #
| 11: | (linReg <- lm(lpsa ~ lcavol + lweight + age + lbph + svi + lcp + gleason + pgg45))
| 12: | summary(linReg) |
Es ergibt sich
$Y=0.669+0.587 [mm] X_1+0.454 X_2-0.0196 X_3+0.107 X_4+0.766 X_5-0.105 X_6+0.045X_7+0.005X_8$,
[/mm]
wobei [mm] $X_1$ [/mm] für [mm] $\text{lcavol}$ [/mm] steht usw.
[mm] \textbf{Zu (a) und (b):}
[/mm]
Auch hier habe ich wieder R verwendet:
1: | rm(list=ls(all=T))
| 2: | library(faraway)
| 3: | #
| 4: | # Lade und attache Daten
| 5: | #
| 6: | data(prostate)
| 7: | attach(prostate)
| 8: | #
| 9: | head(prostate)
| 10: | #
| 11: | (linReg <- lm(lpsa ~ lcavol + lweight + age + lbph + svi + lcp + gleason + pgg45))
| 12: | summary(linReg)
| 13: |
| 14: | x.f.1.neu <- data.frame(lcavol=1.44692, lweight=3.62301, age=65, lbph=0.3310, svi=0, lcp=-0.79851, gleason=7, pgg45=15)
| 15: | predict(linReg,x.f.1.neu,interval="prediction")
| 16: | #
| 17: | x.f.2.neu <- data.frame(lcavol=1.44692, lweight=3.62301, age=20, lbph=0.3310, svi=0, lcp=-0.79851, gleason=7, pgg45=15)
| 18: | predict(linReg,x.f.2.neu,interval="prediction")
|
Es ergibt sich für den 65-jährigen Patienten der Prognosewert 2.392, das Prognoseintervall $(0.968,3.817)$ und die das Prognoseintervall hat eine Breite von $2.848$.
Für den 20-jährigen Patienten (der ansonsten die gleichen Werte hat) ergibt sich ein Prognosewert von $3.276$, ein Prognoseintervall von $(1.542, 5.011)$ und dieses Prognoseintervall hat eine Breite von $3.47$.
[mm] \textbf{Zu (c):}
[/mm]
Bei dem 20-jährigen Patienten extrapolieren wir, da alle anderen Patienten entschieden älter sind. Darum ist die Prognose hierbei unsicherer und das spiegelt sich darin wider, dass das Prognoseintervall breiter ist.
[mm] \textbf{Zu (d):}
[/mm]
Hierzu habe ich mir
summary(linReg)
angeschaut (das ist Zeile 12 in obigem Code).
Man erkennt an den p-Werten, dass nur 3 der Kovariablen zum Niveau $0.05$ signifikant sind, nämlich
lcavol, lweight und svi.
Das neue Modell lautet also
[mm] $Y=\theta_0+\theta_1X_1+\theta_2X_2+\theta_3X_3$,
[/mm]
wobei wiederum [mm] $Y=\text{lpsa}$ [/mm] und [mm] $X_1=\text{lcavol}, X_2=\text{lweight}, X_3=\text{svi}$.
[/mm]
Mit
1: | rm(list=ls(all=T))
| 2: | library(faraway)
| 3: | data(prostate)
| 4: | attach(prostate)
| 5: | linReg <- lm(lpsa ~ lcavol + lweight + svi)
| 6: |
| 7: |
| 8: | x.f <- data.frame(lcavol=1.44692, lweight=3.62301, svi=0)
| 9: | predict(linReg,x.f,interval="prediction") |
erhalte ich sowohl für den 65-jährigen, als auch für den 20-jährigen Patienten (denn das Alter ist ja hier nicht mehr berücksichtigt, da es hier nicht signifikant ist) einen Prognosewert von $2.373$, ein Prognoseintervall von $(0.938,3.807)$ und eine Breite dieses Prognoseintervalls von $2.8489$.
Das Prognoseintervall wird also breiter, was meiner Meinung nach damit zu erklären ist, dass weniger Informationen aus den Daten verwendet werden, d.h. die Prognose wird ungenauer, was sich darin widerspiegelt, dass das Prognoseintervall ungenauer und das heißt: breiter wird.
[mm] \textbf{Zu (e):}
[/mm]
Hier weiß ich nun nicht, was gemacht werden soll bzw. wie man das eine Modell (das alle Kovariablen benutzt) gegen das andere Modell (das nur drei Kovariablen benutzt) gegeneinander testen kann.
Was ist wohl damit gemeint bzw. welcher Test?
Viele Grüße!
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 01:52 Do 19.06.2014 | Autor: | Eisfisch |
Test auf (signif.Unterschiede) der drei Werte der zwei Modelle?
Also von ..
Prognosewert, Prognoseintervall und Breite des Prognoseintervalls ?
Nullhypothese...
|
|
|
|
|
Hallo, Eisfisch,
leider ist mir nicht richtig klar geworden, was Du meinst.
Meinst du, dass die Nullhypothese ist, dass Prognosewert, Prognoseintervalle und Breite der Prognoseintervalle identisch sind?
Ich wüsste aber nicht, welchen Test man da benutzt...
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 11:20 Sa 21.06.2014 | Autor: | matux |
$MATUXTEXT(ueberfaellige_frage)
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 05:20 Sa 21.06.2014 | Autor: | matux |
$MATUXTEXT(ueberfaellige_frage)
|
|
|
|