Was ist ein Data Warehouse?
Beim Data Warehouse handelt es sich um ein Datensystem, das hauptsächlich in Unternehmen verwendet wird. Das zentrale Datenbanksystem wird zu Analysezwecken genutzt.
Data Warehouse - Die Wortherkunft
Welche Vorteile bietet die Nutzung eines Data Warehouses?
- Alle Daten aus verschiedenen Systemen, die in einer Firma verwendet werden, werden zentral gesammelt.
- Alle Daten stehen strukturiert und konsistent auf einem zentralen System zur Verfügung, was einen einfachen Datenzugriff ermöglicht.
- Effizientere Datenverwaltung wird sichergestellt, da alle Daten mit wenigen Klicks abgerufen und gesichert werden können.
Wissenswert: Ein Data Warehouse ist so konzipiert, dass Datenauszüge mithilfe von Data Access Tools (Data Marts) möglich sind. Das bedeutet, dass die Daten nach individuellen Vorgaben und Mustern analysiert werden können. Eben diese Analysen sind die Basis, um wichtige betriebliche Kennzahlen zu ermitteln. Alle Prozesse, die bei der Beschaffung, der Bereitstellung, der Sicherung und der Verwaltung der Daten anfallen, werden ebenfalls unter dem Begriff „Data Warehouse“ bzw „Data Warehousing“ zusammengefasst.
Wie ist ein Data Warehouse aufgebaut?
- Beschaffung und Extraktion der Daten aus allen Systemen
- Datenspeicherung/Langzeitarchivierung
- Data Marts/Bereitstellung der Daten
- Auswertung der Daten
Data Warehouse - Die technologische Grundlage
Insgesamt zeigt die Architektur von Data Warehouse vier verschiedene Bereiche (Quellsysteme, Data Staging Area, Data Presentation Area und Data Access Tools). Im ersten Schritt erfolgt eine Bereitstellung aller Daten, die aus den verschiedenen Systemen bezogen werden. Die Extrahierung, Strukturierung und Transformation der Daten wird von der Staging Area des Data Warehouse übernommen.
Darüber landen die Daten auch in der Datenbank des Data Warehouse. Bei dieser Datenbank handelt es sich um die sogenannte Data Presentation Area. Auf diese und die nachgelagerten Systeme kann separat zugegriffen werden. Der Zugriff auf die gespeicherten Daten der verschiedenen Ebenen erfolgt mit Data Access Tools (Data Marts). Normalerweise werden beim Data Warehouse relationale Datenbanken verwendet. Das erlaubt es, dass die Datenabfrage mithilfe von SQL-Abfragen umgesetzt werden kann.
Wissenswert: Geht es darum, relativ große Datenmengen zu speichern, wird oft auf sogenannte OLAP-Datenbanken ausgewichen. In der Regel werden die Daten des Data Warehouse regelmäßig aktualisiert und durch neue ergänzt. Mittlerweile kommen aber auch immer mehr Systeme zum Einsatz, die einen Datenzugriff in Echtzeit zulassen.
Das Data Warehouse ist ein wichtiges Werkzeug, um auswertende und operative Systeme voneinander zu trennen. Es erlaubt steuerbare Datenanalysen in Echtzeit.
Wo kommt ein Data Warehouse zum Einsatz?
Data Warehouse und Data Lakes sind untrennbar miteinander verbunden
Das Data Warehouse bezieht sich hauptsächlich auf Daten, die in strukturierter Form in SQL-Datenbanken erfasst wurden. Das kann aber schwierig werden, vor allem im Big-Data-Umfeld. Hier ist ein Zugriff auf große und unstrukturierte Datenmengen Gang und Gäbe. Datenmengen, die die Kapazitäten von SQL-Datenbanken bis an ihre Grenzen bringen. Aus diesem Grund wird das Data Warehouse in Unternehmen ab einer bestimmten Größe mit dem Data Lake kombiniert.
Was ist ein Data Lake?
Ein Data Lake ist so konzipiert, dass das Ablegen von großen Datenmengen aufgrund der hohen Speicherkapazität kein Problem ist. Dabei ist ein Data Lake auch fähig, große und unstrukturierte Datenmengen zu verarbeiten.