Was ist ein Data Lake?

Ein Data Lake und ein Data Warehouse sind sich ähnlich, dienen jedoch unterschiedlichen Zwecken. Data Warehouses strukturieren und verarbeiten Daten im Interesse von Qualität, Konsistenz, Wiederverwendung und Leistung mit hoher Parallelität. Data Lakes ergänzen Data Warehouses mit einem Design, das sich auf die ursprüngliche Rohdatentreue und langfristige Speicherung zu niedrigen Kosten konzentriert und gleichzeitig eine neue Form der analytischen Agilität bietet.

Was bringen Data Lakes?

Data Lakes helfen dabei, explodierende Datenmengen wirtschaftlich zu nutzen und daraus einen Mehrwert zu ziehen. Die "dunklen" Daten aus neuen Quellen – Web, Mobile, vernetzte Geräte – wurden in der Vergangenheit oft verworfen, enthalten aber wertvolle Erkenntnisse. Riesige Volumina und neue Formen der Analyse erfordern eine neue Möglichkeit, Daten zu verwalten und Wert daraus zu ziehen.

Ein Data Lake ist eine Sammlung langfristiger Datencontainer, die jede Form von Rohdaten in großem Maßstab erfasst, verfeinert und untersucht. Sie wird durch kostengünstige Technologien ermöglicht, auf die mehrere nachgelagerte Einrichtungen zurückgreifen können, einschließlich Data Marts, Data Warehouses und Empfehlungs-Engines.

Vor dem Big Data-Trend normalisierte die Datenintegration Informationen in einer Art Persistenz – z. B. einer Datenbank – und das erzeugte den Wert. Dies reicht jedoch nicht mehr aus, um alle Daten im Unternehmen zu verwalten. Denn der Versuch, alles zu strukturieren, untergräbt den Wert. Aus diesem Grund werden dunkle Daten selten in einer Datenbank erfasst. Datenwissenschaftler graben sich jedoch oft durch dunkle Daten, um ein paar Fakten zu finden, die es wert sind.

Data Lake und neue Formen der Analyse

Technologien wie Spark und andere ermöglichen die Parallelisierung prozeduraler Programmiersprachen, was eine völlig neue Art von Analytics ermöglicht hat. Diese neuen Formen der Analyse können effizient in großem Maßstab durchgeführt werden, etwa Diagramm-, Text- und Machine Learning-Algorithmen. Sie liefern Antworten, die dann mit den nächsten Daten verglichen werden und so weiter, bis eine endgültige Aussage erreicht ist.

Data Lakes und Archivierung

Die Archivierung von Daten, die schon lange nicht mehr genutzt wurden, kann Speicherplatz im Data Warehouse freiräumen. Bis Data Lakes aufkam, gab es nur leistungsstarke Data Warehouses oder das Band-Backup, um kalte Daten für den gelegentlichen Zugriff verfügbar zu halten. Mit virtuellen Tools können Anwender nun über eine einzige Abfrage problemlos auf kalte Daten in Verbindung mit den warmen und heißen Daten im Data Warehouse zugreifen.

Data Lakes und Datenintegration

Mittlerweile gibt es ein Mittel, wie die Kosten für die Datentransformation gesenkt werden können. Data Lakes bieten eine höhere Skalierbarkeit als herkömmliche ETL-Server (Extrahieren, Transformieren, Laden) zu geringeren Kosten. Unternehmen können nun ihre Datenintegrationsarchitektur überdenken. Anwender, die moderne Best Practices einsetzen, balancieren Hunderte von Datenintegrationsaufträgen über den Data Lake-, Data Warehouse- und ETL-Server hinweg neu aus, wobei jeder über seine eigenen Funktionen und Wirtschaftlichkeit verfügt.


Häufige Data Lake-Fallstricke

Oberflächlich betrachtet bieten Data Lakes eine einfache Möglichkeit, riesige Mengen strukturierter und unstrukturierter Daten zu verwalten und zu nutzen. So simpel ist es dann aber doch nicht, fehlgeschlagene Data Lake-Projekte sind in vielen Branchen und Organisationen zu finden. Frühe Data Lake-Projekte waren besonders gefährdet, weil es noch keine Best Practices gab. Heute ist ein Mangel an solidem Design der Hauptgrund, warum Data Lakes nicht ihren vollen Wert liefern.

Datensilos und Cluster-Bildung: Die Vorstellung ist weit verbreitet, dass Data Lakes eine niedrige Eintrittsbarriere haben und in der Cloud provisorisch durchgeführt werden können. Dies führt jedoch ohne Data Lakes-Abgleich zu redundanten Daten, Inkonsistenzen und Synchronisationsproblemen.

Zielkonflikte für den Datenzugriff: Es gilt die Balance zwischen strengen Sicherheitsmaßnahmen und dem agilen Zugriff zu wahren. Es müssen Pläne und Verfahren vorhanden sein, die alle Beteiligten aufeinander abstimmen.

Limitierte Werkzeuge von der Stange: Viele Anbieter offerieren, eine Verbindung zu Hadoop- oder Cloud-Objektspeichern herzustellen. Diese Angebote sind jedoch unzureichend integriert und wurden in der Regel für Data Warehouses und nicht für Data Lakes entwickelt.

Mangelnde Akzeptanz durch die Endbenutzer: Anwender haben oft den Eindruck, dass Data Lakes zu schwer zu bedienen sind oder ausgefeilte Programmierkenntnisse erfordern. Sie können die Nadel im Daten-Heuhaufen einfach nicht finden.

Data Lake-Designs

Das Data Lake-Design bietet eine Reihe von Workloads und Funktionen, die eine erfolgreiche Implementierung versprechen. Mit zunehmender Reife der Data-Lake-Technologie entwickelten die führenden Anbieter eine Architektur und entsprechende Best Practices für die Implementierungen. Technologien sind wichtig, aber das Designmuster – das unabhängig von der Technologie ist – ist noch wichtiger. Ein Data Lake kann auf mehreren Technologien aufbauen. Als erstes denken die Leute in diesem Fall an das Hadoop Distributed File System (HDFS), es geht aber auch ohne.