Was ist ein Datennetz und wie funktioniert es?
Ein Datennetz ist ein Datenökosystemmodell, das um Geschäftsdomänen herum organisiert ist. Es wird durch Self-Service-Funktionen gesteuert, die es funktionsübergreifenden Teams ermöglichen, die Daten in ihren Domänen zu verwalten, bereitzustellen und letztendlich zu besitzen. Es kann unterschiedliche Datenprodukte generieren, die wichtige Geschäftsprozesse und Entscheidungen beeinflussen.
Die drei Hauptkomponenten eines Datennetzes
1. Domänenorientiertes Dateneigentum mit föderierter Governance
In einer Daten-Mesh-Architektur befinden sich die Daten hauptsächlich in der Infrastruktur verschiedener Domänen oder Themenbereiche, die unterschiedlichen Geschäftsanliegen wie Vertrieb und Kundensupport entsprechen. Jede Domäne kann über ein eigenes Schema verfügen.
Funktionsübergreifende Teams, zu denen Produktmanager, Entwickler, Business Analysten und andere innerhalb jeder dieser Domänen gehören, arbeiten mit ihren eigenen Daten und teilen sie bei Bedarf mit anderen Domänen. Diese Teams sind Experten darin, wo ihre Daten gespeichert sind und wie sie geladen und transformiert werden können. Sie können mehrere Datenquellen mit ihrem Abschnitt des Datennetzes verbinden, wobei sie in einigen Fällen ihren eigenen dedizierten Data Lake oder Hub verwenden.
Jedes Team kann über eine eigene physische Daten-Mesh-Infrastruktur für die Verwaltung seiner Domänendaten verfügen. Die gemeinsame Positionierung mehrerer Schemata kann jedoch auch effektiv sein, insbesondere für Datensätze aus verschiedenen Domänen, die häufig miteinander verbunden sind: Sie funktionieren besser, wenn sie in derselben Datenbank gespeichert sind. Dementsprechend kann ein Datennetz entweder eine physische oder eine logische Unternehmensdatenarchitektur sein.
Selbst wenn das Eigentum nach Domänen aufgeteilt ist, hilft die föderierte Governance zu verhindern, dass dies unüberschaubar wird. Standards für Dateninteroperabilität und -qualität sowie die DevOps-Kultur stellen diese Data Governance sicher.
2. Produktdenken über Datensätze
Da jede Geschäftsdomäne eine eigene Einheit ist, besteht die Gefahr, dass Domänendaten zu fragmentiert werden, bis zu dem Punkt, dass sie die Aussicht auf eine effiziente Zusammenarbeit im gesamten Unternehmen zunichte machen. Hier macht das Konzept des Produktdenkens, wie es auf die Datensätze eines Unternehmens angewendet wird, einen großen Unterschied bei der Realisierung des vollen Wertes eines Datennetzes.
Jedes Domänenteam sollte seine Datenbestände als Komponenten eines Datenprodukts betrachten, dessen "Kunden" andere Benutzer in der Organisation sind, z. B. Entwickler oder Datenwissenschaftler, die einen einfachen und sicheren Zugriff darauf benötigen. Beispielsweise benötigt ein Dateningenieur für künstliche Intelligenz (KI) möglicherweise analytische Daten aus einem Programm, das in einem elektronischen Patientenaktensystem (EHR) ausgeführt wird, um die Algorithmen dieser Software zu verbessern.
Ein Datennetz kann dieses Maß an Komfort im gesamten Unternehmen durch kohärente Datenprodukte bieten. Jedes Produkt sollte sein:
- Auffindbar:Ein Datenprodukt wird in einen Datenkatalog aufgenommen, der Metadaten zu seinem Besitz und Inhalt enthält. Dieses Setup hilft Benutzern, zuverlässig das zu finden, was sie brauchen.
- Adressierbar:Jedes auffindbare Produkt sollte auch eindeutig identifizierbar sein, damit es dann angesprochen werden kann. Konsistente Standards für einen solchen programmgesteuerten Zugriff sind in Umgebungen mit einer Vielzahl von Datenformaten unerlässlich, von CSVs bis hin zu öffentlichen Cloud-Buckets.
- Vertrauenswürdig:Daten-Mesh-Plattformen sollen Service-Level-Ziele für Domain-Dateninhaber festlegen und die Vertrauenswürdigkeit ihrer Datenprodukte regeln. Diese Produkte sollten nicht das gleiche Maß an umfangreicher Datenbereinigung erfordern, das in einer traditionelleren, streng zentralisierten Datenarchitektur üblich ist.
- Selbstbeschreibend:Ein Datenprodukt sollte über klare Semantik, Syntax und Datenbankschemas für den beabsichtigten Datenkonsumenten verfügen. "Wie nutze ich das eigentlich?" sollte selten – wenn überhaupt – eine Frage sein, wenn man innerhalb eines Datennetzes arbeitet.
- Interoperabel:Die Datenprodukte in einem Datennetz sollten domänenübergreifend korrelierbar sein. Der Beitritt zu ihnen sollte beispielsweise unkompliziert sein und nicht durch Unterschiede in Metadatenfeldern oder -formaten behindert werden.
Stellen Sie sich ein Datennetz als das Äquivalent des Unternehmensdatenmanagements einer Zollunion wie der der EU vor. Jedes Land ist seine eigene autonome Einheit, hält sich aber gleichzeitig an bestimmte übergreifende Standards für den Austausch von Produkten und Dienstleistungen mit anderen Mitgliedern. Auf die gleiche Weise arbeiten Domain-Datenteams unabhängig, folgen aber auch globalen "Regeln" für die Eigenschaften ihrer jeweiligen Datenprodukte.
3. Self-Service über Dateninfrastruktur als Plattform
Das Verteilungsmodell eines Datennetzes scheint das Vorhandensein zahlreicher doppelter Datenpipelines und Speicherinfrastrukturen zu implizieren, eine für jede Domäne. Dieses Setup würde zu technischen Komplikationen führen, die schnelle und umsetzbare Erkenntnisse behindern. Aber Sie können dies mit einer domänenunabhängigen Dateninfrastrukturplattform umgehen, die jedem Team im Unternehmen das gleiche Maß an Self-Service bietet.
Eine solche Datenplattform verbirgt die zugrunde liegende Komplexität und rationalisiert die Prozesse zum Speichern, Verarbeiten und Bereitstellen von Datenprodukten. Inmitten aktueller Cloud-Trends und in der Multi-Cloud-Welt, in der viele Unternehmen heute leben, sollte ein Datennetz Folgendes bieten:
- Aufnahme jeder verteilten Datenquelle in jedem Format, mit Skalierbarkeit in jeder Dimension, z. B. im Datenvolumen oder in der Komplexität einer Abfrage oder in der Datenschema-Raffinesse.
- Wahl der Cloud, damit Unternehmen die Cloud-Service-Provider nutzen können, deren Analyse-Ökosysteme den aktuellen Leistungs- und Preisanforderungen am ehesten entsprechen.
- Unterstützung für Hybridbereitstellungen, die lokale Ressourcen und öffentliche Clouddienste umfassen.
- Ein offener Entwurf, der es Teams ermöglicht, ihre eigenen Bibliotheken, Sprachen, die sie bereits kennen (SQL, R usw.), und gut dokumentierte APIs beim Erstellen ihrer Domänendatenprodukte zu verwenden.
- Integrierte KI und maschinelles Lernen (ML), um den Zeitplan für erweiterte Analysen aus verteilten Daten zu verkürzen.
- Trennung von Rechenleistung und Speicher, um die Anforderungen der Benutzer dynamisch zu erfüllen, ohne dass die IT eingreifen oder Kapazität verschwenden muss.
- Einfache Kontrollen für die Verwaltung gemischter Workloads und die Einhaltung von Service Level Agreements für mehrere Anwendungen.
Warum Data Mesh? Wie es im Vergleich zu anderen Datenarchitekturen abschneidet
Insgesamt ermöglicht ein Datennetz eine erhöhte Agilität für Teams, wenn sie in der Cloud mit einer wachsenden Auswahl an Datenquellen und innovationszentrierten Projekten arbeiten.
Traditionelle Datenarchitekturen waren in einer Welt mit relativ wenigen Datenquellen und einer engen Anzahl von Anwendungsfällen im gesamten Unternehmen ausreichend. Aber jetzt können diese zentralisierten Modelle Engpässe für Teams schaffen, die schnell von Rohdatenquellen zu Erkenntnissen übergehen müssen.
Stellen Sie sich vor, jemand, wie unser bereits erwähnter hypothetischer KI-Dateningenieur, der an EHR-Systemen arbeitet, muss ein neues Datenprodukt entwickeln, um den sich schnell ändernden Geschäftsanforderungen gerecht zu werden. Sie würden wahrscheinlich verlangsamt werden, weil sie nicht in der Lage wären, relativ kleine und unterschiedliche Komponenten für die Datenaufnahme und -verarbeitung selbst zu ändern - sie müssten andere einbeziehen und die gesamte Datenpipelineändern.
Dieses Szenario ist der Grund, warum ältere Datenarchitekturen oft als "monolithisch" beschrieben werden – die Änderung eines Teils davon bedeutet, dass sie alle daten. Im Gegensatz dazu ähneln Data-Mesh-Plattformen eher Microservices-Architekturen mit individuell aktualisierbaren Komponenten, an denen mehrere Teams arbeiten können.
Die Flexibilität und Agilität, die durch ein Datennetz erreicht werden können, unterscheidet es von anderen Datenarchitekturen, die ausschließlich auf zentralisierten Data Warehouses und Data Lakes basieren.
Data Warehouse vs. Data Lake vs. Data Lakehouse vs. Data Mesh
Diese vier Datenentwurfsmuster schließen sich nicht gegenseitig aus – sie können beispielsweise in einem Unternehmen mit einem funktionsübergreifenden Domänenteam koexistieren, das über einen eigenen Data Lake verfügt. Es gibt jedoch eine nachvollziehbare Entwicklung vom Data Warehouse über den Data Lake bis hin zum Datennetz, angetrieben von der Notwendigkeit, bestimmte architektonische Einschränkungen zu überwinden.
Datenlager
- Was es ist:Eine fachorientierte Datenarchitektur, die detaillierte Daten auf konsistente Weise integriert und gleichzeitig eine nichtflüchtige Historie davon beibehält.
- Vorteile:Generiert umsetzbare Erkenntnisse (z. B. in Dashboards) aus riesigen Mengen kuratierter Daten, einschließlich der Erstellung von prädiktiven Analysen und Dashboards, die operative Aktionen vorantreiben. Es aggregiert Daten aus allen Unternehmensquellen an einem zentralen Ort mit konsistenter Governance und unterstützt Sandboxen für das Testen neuer Ideen.
- Einschränkungen:Nicht ideal für Big Data-Anwendungsfälle, die die Speicherung und Extraktion von Werten aus großen Mengen von Rohdaten erfordern, wie sie von IoT-Geräten sowie Web- und mobilen Quellen erstellt werden.
DataSee
- Was es ist:Eine Reihe von langfristigen Datencontainern für die Verwaltung und Verfeinerung von Rohdaten, wobei kostengünstiger Objektspeicher verwendet wird, der häufig aus der Cloud bereitgestellt wird.
- Vorteile:Erfasst zuvor verworfene "Dark Data", um später Innovationen voranzutreiben, und speichert Daten so, wie sie sind, ohne sie zuerst strukturieren zu müssen. Der See ermöglicht es auch, Erkenntnisse effizient von KI- und Machine-Learning-Diensten zu erfassen, die Rohinformationen analysieren.
- Einschränkungen:Für Data Lakes stehen relativ wenige Standard-Tools zur Verfügung, was umfangreiche Erfahrung mit Open-Source-Software erfordert. Es besteht auch ein hohes Risiko von Silos aufgrund der begrenzten Governance, und es kann große Schwierigkeiten geben, Probleme zwischen Sicherheit und einfachem Zugriff abzuwägen.
Data Lakehouse
- Was es ist:Eine Kombination aus einem Data Warehouse und einem Data Lake.
- Vorteile:Ermöglicht es einem Unternehmen, systematisch Erkenntnisse im Modus eines Data Warehouse zu extrahieren – über SQL, maschinelles Lernen oder einen anderen Prozess – und gleichzeitig die enorme Größe und die niedrigen Kosten eines Data Lake zu nutzen.
- Einschränkungen:Begrenzte Agilität beim Hinzufügen neuer Funktionen, da alles zentralisiert und monolithisch ist. Dateningenieure verbringen am Ende viel Zeit damit, Daten von Teams zu bereinigen, die nur einen begrenzten Anreiz haben, sicherzustellen, dass ihre Informationen korrekt sind, wenn sie eingehen.
Datennetz
- Was es ist:Ein domänengesteuertes Datenentwurfsmuster, das entweder logisch oder physisch unter den Teams aufgeteilt ist, die in diesen Domänen arbeiten.
- Vorteile:Data Mesh ermöglicht ein autonomes aktives Datenmanagement durch die Teams, die ihm am nächsten sind, und ermöglicht eine erhöhte Agilität, da es keinen zentralen Engpass gibt. Jedes Team kann seine eigenen Datenprodukte erstellen.
- Einschränkungen:Es ist eine relativ neue Architektur, an der Unternehmen noch arbeiten. Leistung und Governance können darunter leiden, dass Benutzer jedes Mal über das Netzwerk gehen müssen, um auf verschiedene Daten zuzugreifen. Ohne domänenübergreifende Governance und semantische Verknüpfung von Daten kann es sehr isoliert werden und zu enttäuschenden Ergebnissen führen.
Drei Gründe, warum Data Mesh die Datenarchitektur der Zukunft sein könnte
Trotz seiner anfänglichen Einschränkungen könnte Data Mesh aus drei Hauptgründen die Datenarchitektur der Zukunft sein:
1. Erhöhte Agilität und überlegene Organisationsskalierung
Data Mesh ermöglicht es Teams, zu ihren eigenen Bedingungen auf Daten zuzugreifen und diese zu verwenden, ohne den Engpass eines einzelnen, zentralen unternehmensweiten Data Warehouse oder Data Lake durchlaufen zu müssen. Sie können ihre eigenen Warehouses und Lakes als Knoten innerhalb des Datennetzes verwenden, ihre Domänendaten laden und abfragen und Datenprodukte schneller erstellen.
Data Engineers tragen nicht mehr die Last, all die unterschiedlichen Informationen zu sortieren, die in ein zentrales Data Warehouse oder einen See verschoben werden, da die Daten stattdessen in zahlreichen kleineren Domänen verwaltet werden. Dadurch kann jeder im Unternehmen schneller auf Änderungen reagieren und seine Workloads bei Bedarf mithilfe einer Self-Service-Dateninfrastrukturplattform skalieren.
2. Klares Dateneigentum und Verantwortlichkeit
Bevor das Datennetz entstand, war das Eigentum an Unternehmensdaten oft unklar oder sogar umstritten. Operative Teams in verschiedenen Domänen schickten ihre Daten an einen zentralen Ort, wo sie von spezialisierten Dateningenieuren verarbeitet wurden, die vom Rest der Organisation isoliert waren.
Diese Ingenieure standen vor der schwierigen Aufgabe, mit Daten aus Domänen zu arbeiten, in denen sie nicht unbedingt Experten waren. Sie dienten auch als Vermittler zwischen Domänenteams, die am selben Projekt arbeiteten und daran arbeiteten, Datensätze zu erstellen, die für alle von ihnen verbrauchbar waren.
In einem Datennetz ist die Eigentümerschaft aufgrund des domänengesteuerten Designs eindeutig. Teams können einen Serve-and-Pull-Ansatz anstelle der oben beschriebenen herkömmlichen Push- und Ingest-Methode verfolgen, bei dem verschiedene Teams in den domänen arbeiten, die sie kennen, Datenprodukte im gesamten Unternehmen verfügbar machen und bei Bedarf auf die Produkte anderer Teams zugreifen.
3. Verbesserte Datenqualität und eine DevOps-orientierte Kultur
Da das Dateneigentum in einem Datennetz offensichtlich ist, haben Teams mehr Anreiz, die Qualität ihrer Datenprodukte sicherzustellen, bevor sie sie verteilen. Die Qualität wird durch die enge Verknüpfung des Data-Mesh-Konzepts mit den Grundlagen von DevOps weiter gesteigert.
DevOps betont die Zusammenarbeit durch funktionsübergreifende Teams sowie die kontinuierliche Überwachung und Verfeinerung von Produkten. Wenn DevOps-Prinzipien – wie die Aufteilung der Arbeit in kleinere, überschaubarere Teile und die Erstellung einer gemeinsamen Produktvision – in einem Datennetz angewendet werden, sind die verschiedenen Komponenten der Datenarchitektur einfacher zu verwenden, zu iterieren und zu warten.
Qualitativ hochwertigere Datenprodukte können dann schneller als bisher geliefert werden. So wie DevOps sowohl eine kulturelle als auch eine technische Bewegung ist, erfordert ein Datennetz die richtige Kultur - eine, die Verantwortlichkeit und Zusammenarbeit betont -, damit seine Technologien dem Unternehmen zugute kommen. DevOps selbst trägt dazu bei, diesen kulturellen Wandel zu ermöglichen.
Erstellen eines Datennetzes: Wichtige Überlegungen vor dem Start
Bevor sie sich mit Data Mesh beschäftigen, sollten Unternehmen zunächst einige wichtige Überlegungen anstellen:
Größe und Geschäftsanforderungen
Ein Datennetz ist ideal für größere Organisationen mit zahlreichen Quellen und Domänen, in denen es potenzielle Reibungsverluste zwischen Teams gibt, wer was besitzt.
Wenn sich ein Unternehmen für ein Datennetz entscheidet, sollte die Verteilung der Domains eng mit den tatsächlichen Geschäftsinitiativen wie der Schaffung eines Omnichannel-Kundenerlebnisses oder der Optimierung der Lieferkette abgestimmt sein. Eine solche Ausrichtung schafft klarere Ziele für Domänendatenteams und stellt sicher, dass das Datennetz einen echten Geschäftswert liefert und kein bloßes Experiment ist.
Datenmanagement- und Governance-Expertise
Obwohl jedes Domänenteam Eigentümer seiner Daten ist, bedeutet dies nicht, dass keine unternehmensweite Koordination und Governance erforderlich ist. Moderne Tools erleichtern den Einstieg in komplexe Workloads, aber die Auswahl und Implementierung dieser Tools erfordert immer noch eine gründliche Aufsicht durch Experten.
Datenmanagement-Experten sind auch nützlich, um jedes Team durch die Entwicklung seiner Prozesse und Produkte zu führen. Diese Probleme frühzeitig mit erfahrener Anleitung zu lösen, spart dem gesamten Unternehmen Zeit und Kosten, dies später zu tun.
Schema Co-Location und Performance
Jede Domäne sollte über ein separates Datenschema verfügen,um die Engpässe zu beseitigen, die sich aus der Arbeit mit einem Schema für alle Daten ergeben. In einigen Szenarien sollten Schemas aus Leistungsgründen nebeneinander angeordnet und verbunden werden. Gleichzeitig ist es wichtig, sich daran zu erinnern, dass die Datenintegration über alle Domänen innerhalb eines Datennetzes hinweg von entscheidender Bedeutung ist. Auf diese Weise kann Ihr Unternehmen die geschäftsorientierte Leistung mit Datenplatzierungsstrategien steigern.
Diese Schritte bieten die optimale Kombination aus Geschwindigkeit und Kosten für Workloads, die hochkomplex sind, häufig mit anderen Datensätzen verknüpft und regelmäßig wiederverwendet werden – solange eine leistungsstarke Datenstruktur vorhanden ist.
Ausblick auf die Aussichten von Data Mesh
Obwohl verteiltes Dateneigentum selbst kein neuartiges Konzept ist, ist der spezifische Ansatz, den das Datennetz mit sich bringt, neu genug, dass reale Implementierungen davon noch selten sind.
Viele Unternehmen entwickeln jedoch bereits ihre Entwurfsmuster und Cloud-Lösungen weiter, um die Entwicklung von Datenmodellen zu beschleunigen und Kunden auf eine Weise zu bedienen, die den Auswirkungen eines Datennetzes sehr ähnlich ist. Kontaktieren Sie uns, um mehr über das Potenzial dieses noch aufkommenden, aber aufregenden Datendesignkonzepts zu erfahren.
Weitere Informationen zu Datennetzen