Häufig lassen sich die Informationen, die man für eine bestimmte Fragestellung oder ein Problem benötigt, nicht aus einem einzigen Datensatz ableiten. In diesen Fällen kann es zum Ziel führen, verschiedene Datensätze zu kombinieren. Dabei ist es essenziell zu prüfen, ob und wie die Datensätze tatsächlich zusammenhängen. Denn obwohl beispielsweise das geringere nächtliche Verkehrsaufkommen mit der niedrigeren Außentemperatur zwar korreliert, beruht sie doch gänzlich auf den Tagesrhythmus der städtischen Bevölkerung.
Ziel des Moduls
Das Kombinieren von Daten aus verschiedenen Quellen ermöglicht tiefere Analysen, da Zusammenhänge erkannt werden, die sonst verborgen bleiben. Doch das Kombinieren ist nicht immer einfach möglich. Manchmal können durch eine Kombination Rückschlüsse auf natürliche Personen oder sonstige Schützenswerte Informationen geschlossen werden. Dieses Modul navigiert dich durch die Abwägung, wann und wie du Daten kombinieren kannst.
Daten - Informationen Daten sind nicht gleich Information: Während Daten das Rohmaterial darstellen, sind Informationen das Ergebnis einer Verarbeitung dieses Materials (vgl. Meadow & Yuan 1997).
Vorarbeit
- Du solltest einen konkreten Datensatz definiert haben, den du möglicherweise mit weiteren Daten kombinieren willst.
Material
- Für dieses Modul steht kein gesondertes Material zur Verfügung.
Arbeitsschritte
- Brainstorme Datensätze zum Kombinieren: Mit welchen Datensätzen kannst du deinen Datensatz kombinieren? Welche Bezüge müssen sich herstellen lassen, damit einem die Kombination weiterhilft?
- Die Datensätze sollten zeitlich und räumlich abgeglichen werden, um sicherzustellen, dass sie vergleichbar sind. Dabei helfen erste Visualisierungen, wie Diagramme oder Karten, offensichtliche Zusammenhänge zu erkennen. Ergänzend können statistische Methoden wie Korrelationstests oder Regressionsanalysen genutzt werden, um den tatsächlichen Einfluss einzelner Faktoren zu quantifizieren.
- Alternativ lohnt sich eine Recherche, um herauszufinden, welche Datengrundlagen andere Städte oder Institute für vergleichbare Fragestellungen nutzen. So lässt sich vermeiden, dass man vorschnell falsche Schlüsse zieht und die Qualität der Analysen bleibt gesichert. Eine gute Anlaufstelle sind außerdem Datenportale.
- Finde verbindende Merkmale: Über welche Eigenschaften kannst du die Datensätze miteinander verknüpfen?
- Vermeide schutzrechtliche Risiken aufgrund von Rückführbarkeiten! Dies erfolgt am besten über den Ansatz der Datenminimierung. Welche Daten deiner Datensätze brauchst du wirklich? Welche verbindenden Merkmale können gestrichen werden?
- Prüfe den Datensatz im Fragenkatalog Falls du einen geeigneten Datensatz gefunden hast, solltest du diesen anschließend mit dem Fragenkatalog (einzeln!) prüfen.
Der Austausch mit der Statistikstelle oder externen Partnern kann wertvolle Hinweise zu interessanten Datensätzen liefern. Insbesondere wenn bereits ähnliche Analysen durchgeführt wurden!