Deutsch | English | ||||
Multiples Regressionsmodell
Angenommen Sie möchten ein mathematisches Modell aufstellen, das den Siedepunkt chemischer Substanzen aus einigen Strukturparametern abschätzt. Ein solches Modell hätte den Vorteil, dass man den Siedepunkt einer Substanz schätzen kann, ohne die Substanz physisch zur Verfügung zu haben (selbst wenn es die Substanz noch gar nicht gibt, wäre eine Abschätzung des Siedepunktes möglich). Dazu benötigen wir zuerst einmal einen Musterdatensatz mit Strukturparametern (die aus der chemischen Struktur errechnet werden können) und die zugehörigen Siedepunkte. Unser Musterdatensatz umfasst 185 Substanzen, von denen jeweils 12 Strukturparameter berechnet worden sind und die Siedepunkte bekannt sind. Bei der Erstellung des Modells ist eine der zentralen Fragen, welche der 12 Parameter sind am besten zur Erstellung des Modells geeignet. DataLab bietet zur Auswahl der geeigneten Variablen folgende Methoden an: Vorwärtsselektion, Rückwärtselimination, schrittweise Regression und der Test aller möglichen Variablenkombinationen. Wir rufen dazu den Befehl "Mathematik/Multiple Lineare Regression/Variablenauswahl" auf (oder Knopf in der Schnellstartleiste). Im Dialogfenster muss nun die Variable "boil.point" (Siedepunkt) als Zielvariable gekennzeichnet werden. Nach der Wahl der gewünschten Auswahlmethode (z.B. "Vorwärtsselektion") klickt man den "Start"-Knopf, worauf nach einigen Sekunden das "beste" Modell durch einen schwarzen Balken auf der rechten Seite gekennzeichnet wird. Die ausgewiesenen Submodelle werden durch eine Reihe von Parametern charakterisiert, die einen Hinweis auf die Qualität des jeweiligen Modells geben. In unserem Fall erweist sich das Modell mit den Variablen 10,2,8,12 und 5 als bestes Modell. Man kann nun diese Variablen in das MLR-Fenster übernehmen (Knopf ) und dort das Modell berechnen: Wie man aus dem Plot der geschätzten Werte gegen die tatsächlichen Werte erkennen kann, ist die Schätzung der Siedepunkte aus den Strukturparametern gut möglich. Die Standardabweichung der Residuen liegt bei ca. 7.5°C. Die Detailergebnisse der multiplen Regression können über das Protokoll (Knopf ) abgerufen werden: ============================================================ Multiple Lineare Regression: d:\datalab\data\boilpts.idt ============================================================ Zahl der Objekte ................: 185 Zahl der Eingangsvariablen ......: 5 Zahl der Freiheitsgrade .........: 179 Abhängige Variable ..............: [13] boil.point Mittelwert der Zielwerte ........: 132.714054 Standardabw. der Zielwerte ......: 48.223876 Mittelwert der gesch. Werte .....: 132.714054 Standardabw. der gesch. Werte ...: 47.660251 Standardabw. der Residuen .......: 7.4533 Bestimmtheitsmaß ................: 0.9768 korrigiertes Bestimmtheitsmaß ...: 0.9762 F-Wert ..........................: 1504.731 (p=0.0000) Durbin-Watson Testgröße: 1.27485 kritische Werte (alpha=0.05): DL=1.69295 DU=1.82670 *** Die Residuen sind seriell korreliert. ------------------------------------------------------------ ANOVA DF sum of squares mean square F ------------------------------------------------------------ Regression 5 4.17956E+05 8.35912E+04 1504.731 Residual 179 9.94385E+03 5.55522E+01 Total 184 4.27900E+05 ------------------------------------------------------------ Regressionskoeffizienten: Spalte Var.Name Koeffizient +/- Std.Fehler(Koeff) t-Test alpha ------------------------------------------------------------------------ - INTERCEPT -7.0960574E+01 +/- 5.5103328E+00 -12.878 0.0000 10 RandicToz 7.6873275E+00 +/- 1.1242126E-01 68.380 0.0000 2 O-Atoms -1.3123226E+01 +/- 7.9273468E-01 -16.554 0.0000 8 n-Branch -4.6668763E+00 +/- 1.1711391E+00 -3.985 0.0001 12 Topo-J 7.2078089E+00 +/- 2.3775368E+00 3.032 0.0028 5 JHET -8.5553223E-01 +/- 3.4827518E-01 -2.456 0.0150 |
|||||