DataLab ist ein kompaktes Statistikprogramm zur explorativen Datenanalyse. Weitere Informationen finden Sie auf den DataLab Webseiten ....



PLS Diskriminanzanalyse

Command: Mathematik -> PLS Diskriminanzanalyse -> Klassifikator berechnen...

Um einen Klassifikator auf der Basis von PLS-Diskriminanzanalyse (PLS-DA) zu erstellen, müssen zuerst die unabhängigen und die abhängigen Variablen definiert werden. Dazu klickt man in die entsprechenden Felder links oben bzw. rechts oben und wählt die gewünschten Variablen aus. Die abhängigen Variablen müssen dichotom sein. Weiters kann man zwischen zwei Skalierungsarten wählen: "Mittelwert zentrieren" und "Standardisierung", wobei erstere das Standard-PLS-Verfahren darstellt.

Nach der Variablenauswahl wird die PLS-Berechnung durch klicken auf den "Berechnen"-Knopf gestartet. Dabei werden eine vom System vorgegebene maximale Zahl an Faktoren (momentan 20) berücksichtigt. Allerdings wird die maximale Zahl der Faktoren auch durch die ausgewählten Daten bestimmt, so dass in bestimmten Fällen die Zahl der ermittelten Faktoren auch niedriger sein kann.

Nach der erfolgreichen Berechnung des PLS-Modells kann dieses zur späteren Anwendung auf neue Daten gespeichert werden (Knopf "Modell speichern"). Weiters stehen auf verschiedenen Reitern folgende Informationen zur Verfügung:

Zusammenfassung Eine Liste der von jedem Faktor erklärten Varianz, sowohl für die unabhängigen Variablen, als auch für die abhängigen. Wird als erklärte Varianz kein Wert, sondern eine Reihe von Sternen ausgegeben, so deutet das darauf hin, dass dieser Faktor nicht existiert (bedingt durch kollineare Variablen). Rechts daneben werden diese auch grafisch dargestellt. Dieses Diagramm lässt auf einen Blick erkennen, wieviele Faktoren tatsächlich zur Modellierung der abhängigen notwendig sind.
Klassifizierungs-Ergebnisse Diese Unterseite zeigt die Klassifikationstabllen aller Zielvariablen und die ROC-Kurve (receiver operating characteristic) für eine ausgewählte Variable. Zu Details, siehe unten.
Kreuzvalidierung Auf dieser Seite kann das PLS-Modell in Abhängigkeit der Zahl der Faktoren kreuzvalidiert werden. Es können sowohl die Größe des Testsets als auch die Zahl der Wiederholungen eingestellt werden. Bei voller Kreuzvalidierung (Testset-Größe = 1) ist eine Wiederholung nicht sinnvoll, die Einstellung der Wiederholungen wird daher in diesem Fall ignoriert.
Loadings X Stellt die Loadings der unabhängigen Variablen als Strichdiagramm dar.
Reg.koeff. Zeigt die Regressionskoeffizienten als Strichdiagramm.
Details Listet die detaillierten Ergebnisse der PLS.

Hinweis: Die Zeit zur Berechnung eines PLS-Modells is ungefähr proportional zur Zahl der Faktoren mal der Zahl der abhängigen Variablen mal dem Quadrat der Zahl der unabhängigen Variablen. Es ist deshalb eine gute Idee die Zahl der unabhängigen Variablen auf 1000 zu beschränken (falls das möglich ist). Beispiel: Erhöht man die Zahl der unabhängigen Variablen von 1000 auf 10000, so steigt die Berechnungszeit um den Faktor 100.

Klassifikationsergebnisse
Die Klassifikationsergebnisse werden in Form von Klassifikationstabellen dargestellt, in denen die falsch-positiven und die falsch-negativen Ergebnisse in oranger Farbe dargestellt werden, die richtig-positiven in grün, und die richig-negativen in grau. Jede Klassifikationstabelle zeigt auch die Zahl der Objekte, die in die jeweilige Kategorie fallen an. Die optimale Entscheidungsschwelle berechnet sich aus der ROC-Kurve, die rechts unten dargestellt wird. Um zwischen den ROC-Kurven umzuschalten kann man entweder die entsprechende Zielvariable rechts oben auswählen, oder die betreffende Klassifikationstabelle doppelklicken.


Last Update: 2012-Aug-18