DataLab ist ein kompaktes Statistikprogramm zur explorativen Datenanalyse. Weitere Informationen finden Sie auf den DataLab Webseiten ....



Speicherbasiertes Modell (KNN)

Befehl: Mathematik -> Speicherbasiertes Modell (KNN)...

Dieser Befehl wird zur Zeit überarbeitet und steht nicht zur Verfügung

Der Befehl Mathematik/K nächste Nachbarn... bietet Möglichkeiten zur Erstellung von KNN-Modellen und deren Anwendung auf unbekannte Daten. Der Benutzer kann aus mehreren Methoden wählen, das Ergebnis aus den nächsten Nachbarn zu schätzen. Obwohl die KNN-Methode normalerweise nur zu Klassifikationszwecken eingesetzt wird, startet DataLab den Versuch, die Ideen hinter KNN auch für die Schätzung von kontinuierlichen Eigenschaften auszunützen.

Der übliche Zugang zur KNN-Modellierung ist der, zuerst die Daten zusammenzustellen, die als Modell dienen sollen, dann aus diesen Daten ein Modell zu bilden, und zuletzt dieses Modell auf unbekannte Daten anzuwenden.

Die Zahl der Nachbarn kann mit dem Schieberegler zwischen 1 und 50 eingestellt werden. Bitte beachten Sie, dass für ein Mehrheitskriterium die Zahl der Nachbarn ungerade sein sollte.

Die Art der Gewichtung legt das Verfahren zur Berechnung der geschätzten Werte von ihrem nächsten Nachbarn fest. DataLab bietet drei Methoden zur Abschätzung des unbekannten Wertes: (1) Berechnung des Mittelwertes, (2) Berechnung eines Mehrheitskriteriums unter den nächsten Nachbarn, und (3) Erstellung eines lokalen linearen Regressionsmodells.

Das Mehrheitskriterium wird üblicherweise nur zu Klassifikationszwecken verwendet. In diesem Fall wird diese Klasse der Unbekannten zugewiesen, die eine Mehrheit innerhalb der Klassen der k-nächsten Nachbarn hat. Dieses Konzept kann auf kontinuierliche Annäherungen ausgeweitet werden, in dem Schätzer von Dichteverteilungen der Zielwerte in den Satz der nächsten Nachbarn eingeführt werden. DataLab stellt so eine Schätzung der Dichtefunktion zur Verfügung. Daher kann das Mehrheitskriterium auch auf kontinuierliche Daten angewandt werden, obwohl es besser ist, kontinuierliche Daten unter Verwendung des lokalen Regressionsmodells aus KNN-Modellen zu schätzen.

Die lokale lineare Regression ist eine einfache Methode, um nichtlineare funktionale Zusammenhänge durch Kombination von KNN und multipler linearer Regression zu schätzen. Die Idee hinter dieser Methode ist einfach: Die nächsten Nachbarn, die für einen gegebenen unbekannten Datenpunkt gefunden wurden, werden dazu verwendet, ein lineares Modell mittels multipler linearer Regression zu erstellen. Dieses Modell wird dann dazu benützt, den zu modellierenden Wert der Unbekannten vorherzusagen. Ein Voraussetzung für diese Methode ist natürlich, dass die festgelegte Zahl der nächsten Nachbarn die Zahl der Eingabevariablen des Modells nicht übersteigt.

Modell erstellen

Das Erstellen eines KNN-Modells ist einfach: Zuerst muss der Benutzer die Daten zusammenstellen, die er für sein Modell verwenden möchte. Das kann zum Beispiel sehr einfach durch Auswahl einer Zufallsstichprobe aus einem gegebenen Datensatz erreicht werden. Als nächstes muss der Benutzer auf Neues Modell klicken. Nun muss er zuerst die Eingabevariable, und dann die zu modellierende Variable auswählen. Danach verarbeitet DataLab die gewählten Variablen, und transferiert sie in eine Datei, die als KNN-Modell dient.

Modell anwenden

Um ein KNN-Modell auf unbekannte Daten anzuwenden, müssen einige Voraussetzungen erfüllt sein. DataLab nimmt an, dass Variablen, die im Modell verwendet wurden, zu den unbekannten Daten passen. Das wird durch Vergleich der Namen der Variablen des Modells und des unbekannten Datensatzes sichergestellt. Wenn keine Verbindung hergestellt werden kann, gibt DataLab eine Warnung heraus.

Nach Anklicken des Befehls Modell anwenden muss der Benutzer ein Modell auswählen. Danach zeigt DataLab die wichtigsten Parameter des gewählten Modells an, und der Benutzer muss die zu modellierende Variable wählen, auf die die Ergebnisse der Modellanwendung transferiert werden sollen. Sie sollten darauf achten, keine Eingabevariablen des KNN-Modells zu überschreiben, da das weitere Anwendungen des KNN-Modells auf den gegebenen Datensatz verhindert.


Last Update: 2013-Nov-18