Datenbereinigung, im englischen Data Cleansing oder Data Scrubbing genannt, bezeichnet den Prozess des Erkennens, Korrigierens oder Entfernens ungenauer Daten oder Datensätze aus einer Datenbank. Es kann auch das Korrigieren oder Entfernen von falsch formatierten oder doppelten Daten oder Datensätzen bedeuten. Daten, die in diesem Prozess entfernt werden, werden oft als "schmutzige Daten" bezeichnet. Die Datenbereinigung ist eine wesentliche Aufgabe, um die Datenqualität hochzuhalten. Große Unternehmen mit umfangreichen Datensätzen oder Assets verwenden in der Regel automatisierte Tools und
Algorithmen, um solche Datensätze zu erkennen und häufige Fehler (z. B. fehlende Postleitzahlen in Kundendatensätzen) zu korrigieren.
Gute
Big-Data-Umgebungen verfügen über strenge Datenbereinigungs-Tools und -Prozesse, die sicherstellen, dass die Datenqualität in großem Maßstab und das Vertrauen in Datensätze für alle Benutzer erhalten bleibt.