Der Data Mart ist ein themenorientierter Ausschnitt des
Data Warehouse-Modells, der eine enge Gruppe von Benutzern bedient. Viele Data Marts benötigen nur eine Teilmenge der Daten aus den vollständigen Tabellen im Data Warehouse. Beispielsweise kann ein Mart ausschließlich über Verkaufstransaktionen, Produkte und Bestandsdatensätze verfügen. Die meisten Data Marts haben nur 5 - 20 Tabellen anstelle von 4.000.
Data Marts und Faktentabellen
Die Anzahl der Tabellen in einem Data Mart sagt nichts über die Größe der Datenbank aus. Die Haupttabellen – Faktentabellen genannt – können beispielsweise 100
Terabyte an Datensätzen mit Anrufdetails eines Telekommunikationsunternehmens sein. Der Data Mart selbst kann riesig ausfallen, aber er ist trotzdem nur eine enge Auswahl aller im Data Warehouse verfügbaren Daten.
Data Marts werden oft denormalisiert und erfassen nur Zusammenfassungen von Daten, indem sie sie sortieren und eine Ergebnistabelle aggregieren, wobei Detaildaten normalerweise weggeworfen werden. Einige Data Marts werden wöchentlich oder monatlich komplett neu geladen; Es ist relativ einfach, alle Daten zu löschen und zu aktualisieren, so dass Berichte nur die letzten 30 Tage der Transaktionen betrachten.
Data Marts und das Sternschema
Data Marts und das Sternschema sind untrennbar miteinander verbunden. Stellen Sie sich Zeilen und Spalten mit Daten in fünf Tabellenkalkulationen vor. Vier der Tabellen sind über Schlüsselfelder verbunden, die mit dem größten Blatt übereinstimmen, das als Faktentabelle bezeichnet wird. Stellen Sie sich vor, die Faktentabelle besteht aus 50 Millionen Datensätzen, was wirklich nicht in eine Tabelle passt, also werden sie in Data Mart-Tabellen gespeichert. Die meisten Data Marts haben 5 - 10 Tabellen in einem Sternschema-Design, die kleinen Tabellen auf den Sternarmen werden Dimensionstabellen genannt.
Data Marts und das Schneeflockenschema
Dimensionen sind kleine Tabellen mit wichtigen Informationen. In der Faktentabelle wird der Großteil der Daten gespeichert, möglicherweise Milliarden von Datensätzen. Sie kann mit der Kundentabelle verbunden werden, um die tatsächlichen Kundennamen und Adressen zu erhalten. Eine Variante, das
Schneeflockenschema, hat sehr, sehr viele Faktentabellen, die durch Schlüsselfelder miteinander verbunden sind. Jede Faktentabelle hat nur vier oder fünf Dimensionstabellen. Ein Diagramm mit dieser Menge an Tabellen und Beziehungen ähnelt einer Schneeflocke, ist aber immer noch ein Data Mart.
Was ist der Unterschied zwischen einem Data Mart und einem Data Warehouse?
Bei der Unterscheidung zwischen Data Marts und Data Warehouses geht es um Themenbereiche und Integration, getrennt nach Schemakomplexität, nicht um Datenbankgrößen. Deshalb sind die Fragen, die gestellt werden können, bei einem Data Warehouse 100-mal ausgefeilter als bei einem Data Mart, da sich alle Daten im Warehouse befinden.
Es gibt viele "Puzzleteile" im Data Warehouse, alle integrierten Tabellen wurden in Themenbereiche gruppiert. Das Data Warehouse muss nicht riesig sein, manchmal reichen fünf Terabyte. Es können aber auch Hunderte von Terabyte an Datensätzen sein. Es können beispielsweise drei riesige Tabellen in einem Data Mart abgelegt werden.
Data Marts und das Laden und Verschieben von Daten
Es gibt viele großartige Tools für die Datenintegration und viele großartige relationale Datenbanken, um die Daten zu halten - und Dutzende von hervorragenden Tools für die Analyse dieser Daten. Glücklicherweise ist die Verlagerung von Daten zu
Business Intelligence (BI)-Tools weder arbeitsintensiv noch müssen viele Daten übertragen werden. Nur kleine Datenmengen werden zur Anzeige in Reports oder Dashboards an das BI-Tool gesendet.
Kosten entstehen durch das Verschieben und Transformieren der Daten, diese Schritte sind kostspielig und oft langsam. Die Integration macht viel Arbeit und benötigt viel Rechen-Power – die Alternative besteht darin, Geschäftsanwendern defekte, unvollständige oder ungenaue Daten zur Verfügung zu stellen. Um es klar zu sagen, der schnellste Weg, Geschäftsanwender dazu zu bringen, ein Data Warehouse oder einen Data Mart aufzugeben, besteht darin, ihnen schmutzige und unvollständige Daten zu geben. Wenn sie den Daten nicht vertrauen können, kehren sie zu ihren Tabellen zurück. Dies erklärt, warum Daten in einem Data Warehouse so wertvoll sind – und warum die Verbreitung von Data Marts in einem Unternehmen riskant ist.