Epina DataLab
Features
Help & Support
Application Examples
Research done with DataLab
Download
Data Repository
Release History
Latest Changes
Purchase

Datensammlung

Die folgende Sammlung von Datensätzen wurde für Epina DataLab aufbereitet, die Files (im IDT-Format) können direkt in DataLab geladen werden. Einige der Datensätze sind allerdings nicht mit der Evaluierungskopie benützbar, da die Evaluierungsversion nur Datensätze bis maximal 500 Werte (Produkt aus Zeilen und Spalten) erlaubt. Die Spalte "statistische Methoden" gibt Hinweise, welche Fragen man mit welchen Methoden anhand des jeweiligen Datensatzes diskutieren und klären könnte.
 
  Beschreibung Obj. Var. statistische Methoden Download
Bananen Einige Kenngrößen von Bananen. Die Bananen stammen aus verschiedenen Supermärkten; es wurde sowohl das Gewicht der Bananen und deren Schalen ermittelt als auch zwei Längenmaße und der Durchmesser an der breitesten Stelle. 40 6 Lineare Regression: Erstelle ein Modell um das Gewicht einer Banane aus deren Länge abschätzen zu können. DataLab format:
bananas.idt

Text format:
bananas.zip
Banknoten Geometrische Abmessungen von 100 echten und 100 gefälschten Banknoten. Die Daten wurden mit freundlicher Genehmigung durch H. Riedwyl aus dem Buch B. Flury, H. Riedwyl, Angewandte multivariate Statistik, G.Fischer- Verlag, Stuttgart (1983) entnommen. 200 7 Diskriminanzanalyse: Entwickle einen Klassifikator um echte und gefälschte Banknoten unterscheiden zu können. DataLab format:
fluriedw.idt

Text format:
fluriedw.zip
Länder der Erde Einige demographische und ökonomische Daten der Länder der Welt um 1989. Die Daten wurden dem CIA Factbook (1989) entnommen. 122 10 Multiple Regression: Von welchen Faktoren hängt die Lebenerwartung ab, welche haben einen positiven Einfluss, welche einen negativen?
Clusteranalyse: Welche Länder sind zu Österreich am ähnlichsten?
DataLab format:
worldpop.idt

Text format:
worldpop.zip
Linguistische Textanalyse Häufigkeiten von 2-Buchstabenkombinationen in zwei nahezu identischen Lehrbüchern, eines in deutscher Sprache, das andere in Englisch geschrieben: siehe Grundlagen der Statistik und Fundamentals of Statistics. Der Variablensatz wurde auf die 180 häufigsten Buchstabenkombinationen reduziert. 1054 180 Hauptkomponentenanalyse: Überprüfe, ob die beiden eBooks durch PCA unterschieden werden können.
PLS-Diskriminanzanalyse: Entwickle einen binären Klassifikator zur Unterscheidung von englischen und deutschen Texten; welche der Buchstabenkombinationen sind am wichtigsten um diese beiden Sprachen unterscheiden zu können?
DataLab format:
fundstat_lang_180.idt

Text format:
fundstat_lang_180.zip
Luxfelle Die Zahl der gehandelten Luxfelle in Kanada zwischen 1821 und 1910. Die Daten stammen von Elton, C. and M. Nicholson: "The ten-year cycle in numbers of the lynx in Canada", Journal of Animal Ecology 11 (1942):215-244 90 2 Autokorrelation und Fourier Transformation: Wie lange dauert ein Populationszyklus? DataLab format:
lynx_pelts.idt

Text format:
lynx_pelts.zip
Mineralwässer Der Datensatz enthält die Ergebnisse der chemischen Analysen von 32 Mineralwässern sowie die Geo-Koordinaten der Wasserquellen. Die Analysedaten wurden den Etiketten entnommen. 32 10 Multiple Lineare Regression: Welche Bestandteile der Mineralwässer haben Einfluss auf die Menge der festen Rückstände.
Clusteranalyse: Welche Mineralwässer sind ähnlich?
DataLab format:
minwater.idt

Text format:
minwater.zip
Residuen Künstlich erzeugter Datensatz aus x- und y-Werten die drei verschiedene Residuenstrukturen aufweisen. 100 4 Lineare Regression: Welchen Einfluss haben unsymmetrische Residuen auf das Regressionsergebnis? Siehe auch den DataLab-Blog zu näheren Details. DataLab format:
reg_residuals.idt

Text format:
reg_residuals.zip
Siedepunkte Der Datensatz enthält die Siedepunkte und chemisch-phyiskalische Eigenschaften von 185 chemischen Substanzen. 185 13 Schrittweise Regression: Finde ein Modell, das die Siedepunkte optimal mit MLR voraussagt.
ANOVA: Hängt der Siedepunkt von der Zahl der Verzweigungen im Molekül ab?
PLS: Erzeuge das optimale PLS-Modell und vergleiche es zum MLR-Modell aus der schrittweisen Regression.
DataLab format:
boilpts.idt

Text format:
boilpts.zip
Temperatursensor Widerstandsthermometer verwenden den elektrischen Widerstand eines Platindrahts zur Messung der Temperatur. Der Datensatz enthält 15 Kalibrationspunkte, von denen aber zwei fehlerhaft sind. Da die Fehler relative klein sind, fällt dies nur im Residuenplot auf. 15 2 Parabolische Regression: Vergleiche die mit einer parabolischen Regression erzeugte Kalibrationskurve mit und ohne fehlerhafte Messpunkte. DataLab format:
pt100sensor.idt

Text format:
pt100sensor.zip