Datenqualität und Datenintegrität in einer modernen Dateninfrastruktur

March 25, 2025

Mit der zunehmenden Datenflut steigt die Bedeutung von Datenqualität und Datenintegrität. Beide Konzepte sind essenziell, um den Rohstoff «Daten» gewinnbringend einzusetzen. Jedes Unternehmen und jede Institution arbeitet mit Daten – sei es in der Buchhaltung, im Kundenmanagement oder in der Analyse geschäftsrelevanter Kennzahlen. Schon an einem einfachen Beispiel aus der Buchhaltung wird deutlich, wie entscheidend eine präzise Erfassung und Kontrolle von Daten ist: Fehlende Werte für drei Monate von Zahlungseingängen wären mehr als problematisch.
Je stärker Unternehmen datengetrieben arbeiten, desto wichtiger wird eine systematische Kontrolle ihrer Daten. Hierbei spielen die eng verwandten, aber dennoch unterschiedlichen Konzepte der Datenintegrität und Datenqualität eine Schlüsselrolle. Dieser Artikel erläutert die Unterschiede zwischen beiden Begriffen und zeigt, wie Unternehmen ihre Datenqualität und -integrität gezielt verbessern können.

Datenintegrität vs. Datenqualität

Datenintegrität und Datenqualität lassen sich am besten anhand ihrer zugrundeliegenden Ziele unterscheiden. Der Zweck der Datenintegrität besteht darin, die Zuverlässigkeit, Beständigkeit und Sicherheit von Daten sicherzustellen. Sie umfasst die Gewährleistung der Vertrauenswürdigkeit von Daten sowie die Konsistenz der Beziehungen zwischen Datensätzen.
Datenqualität hingegen garantiert die Nutzbarkeit und den Mehrwert von Daten. Sie bezieht sich darauf, die Genauigkeit, Vollständigkeit und Aussagekraft von Daten sicherzustellen.
Zwischen der Gewährleistung von Datenintegrität und Datenqualität gibt es Überschneidungen. Beispielsweise stellen fehlende oder doppelte Werte sowohl für die Datenintegrität als auch für die Datenqualität ein Problem dar.

Um den Unterschied zwischen den beiden Begriffen zu verdeutlichen, kann folgendes Szenario helfen: Werden für ein Projekt Daten in einem bestimmten Format benötigt und nimmt ein*e Data Scientist entsprechende Formatierungen an den Rohdaten vor, indem diese überschrieben werden, kann dies kurzfristig die Datenqualität verbessern – jedoch auf Kosten der Datenintegrität. Ein Beispiel: Wenn eine Spalte mit monetären Werten in mehreren Währungen direkt überschrieben wird, sodass nur noch Werte in einer einheitlichen Währung enthalten sind, erscheinen die konsolidierten Daten unmittelbar anwendbar. Allerdings gehen die ursprünglichen Werte verloren. Da Wechselkurse zeitabhängig sind, kann es unter Umständen unmöglich sein, die ursprünglichen Werte korrekt nachzuvollziehen oder wiederherzustellen. Dies beeinträchtigt nicht nur die Datenintegrität, sondern kann auch die zukünftige Nutzbarkeit der Daten – und somit deren Qualität – negativ beeinflussen.

DatenintegritätDatenqualität
Sicherstellung der Zuverlässigkeit, Beständigkeit und Sicherheit von DatenSicherstellung der Genauigkeit, Nutzbarkeit und Relevanz von Daten.
Beinhaltet Aspekte wie Konsistenz, Rückverfolgbarkeit und Schutz vor unbefugten Änderungen.Beinhaltet Aspekte wie Vollständigkeit, Richtigkeit und Aktualität.
Beispiel: Eine Kunden-ID darf sich nicht unbeabsichtigt ändern oder gelöscht werden.Beispiel: Ein Kundenprofil sollte vollständige und korrekte Kontaktdaten enthalten.

Datenintegrität vs. Datenqualität

Ein bewährter Ansatz zur Sicherstellung der Datenintegrität sind die ALCOA-Prinzipien. Diese stammen ursprünglich aus den Lebenswissenschaften, haben sich jedoch auch als grundlegende Prinzipien in den Datenwissenschaften etabliert.

Die ALCOA-Prinzipien definieren zentrale Anforderungen an die Qualität und Nachvollziehbarkeit von Daten:

  • Attributable (zuschreibbar): Daten müssen durch Mechanismen wie Timestamps und automatische Logs eindeutig einer Quelle oder Person zugeordnet und rückverfolgbar sein.
  • Legible (lesbar): Daten sollten eine feste Speicheradresse und ein standardisiertes Format haben, sodass sie dauerhaft lesbar bleiben.
  • Contemporaneous (zeitgleich aufgezeichnet): Daten müssen exakt zum Zeitpunkt ihrer Erfassung dokumentiert werden – nicht davor und nicht danach.
  • Original: Primärdaten müssen im Zuge der Weiterverarbeitung erhalten bleiben und dürfen nicht durch nachträgliche Änderungen verfälscht werden.
  • Accurate (genau und korrekt): Nur fehlerfreie und nicht nachträglich editierte Daten dürfen erfasst werden; Korrekturen sollten nachvollziehbar dokumentiert werden.

Die ALCOA-Grundsätze werden häufig erweitert (ALCOA+ bzw. ALCOA++) – beispielsweise um Complete (vollständig), Consistent (konsistente Standards), Enduring (beständig) und Available (verfügbar). Die Kernprinzipien jedoch bleiben unverändert und bilden die Basis für integre und verlässliche Daten.

Prinzipien der Datenqualität

Während ALCOA sicherstellt, dass Daten korrekt, unverändert und nachvollziehbar sind, reicht dies allein nicht aus, um qualitativ hochwertige Daten für analytische oder operative Zwecke zu gewährleisten. Hier setzt das DAMA-DMBOK (Data Management Body of Knowledge) Framework der Data Management Association (DAMA)1 an. Das DAMA-Framework wird häufig in Unternehmen eingesetzt, um sicherzustellen, dass Daten nicht nur integritätsgesichert, sondern auch qualitativ hochwertig sind. Es ergänzt die Datenintegritätsprinzipien um Dimensionen, die die Eignung von Daten für ihren jeweiligen Verwendungszweck sicherstellen:

  1. Accuracy (Genauigkeit): Stimmen die Daten mit der Realität überein?
  2. Completeness (Vollständigkeit): Sind alle erforderlichen Daten vorhanden?
  3. Consistency (Konsistenz): Sind die Daten über verschiedene Systeme hinweg einheitlich?
  4. Timeliness (Aktualität): Sind die Daten aktuell genug für ihre Nutzung?
  5. Validity (Gültigkeit): Entsprechen die Daten den definierten Regeln und Formaten?
  6. Uniqueness (Eindeutigkeit): Gibt es Dubletten oder unnötige Redundanzen?

Herausforderungen bei der Umsetzung

Trotz bewährter Prinzipien wie ALCOA+ und dem DAMA-DMBOK-Framework gibt es in der Praxis zahlreiche Herausforderungen bei der Sicherstellung von Datenintegrität und Datenqualität. Typische Probleme, die regelmässig kontrolliert und behoben werden müssen, sind unter anderem:

  • Fehlende automatische Backups: Gefahr von Datenverlust und mangelnder Nachvollziehbarkeit
  • Fehlende oder duplizierte Werte: Beeinträchtigung der Datenkonsistenz und Genauigkeit
  • Ausreisser oder unplausible Werte: Risiko fehlerhafter Analysen und Entscheidungsprozesse
  • Inkorrekte Spaltenformatierung: Erschwerte Verarbeitung und fehlende Standardisierung
  • Inkompatibilität von Daten aus verschiedenen Quellen: Herausforderungen bei der Integration und Analyse

Zur Bewältigung dieser Herausforderungen gibt es mittlerweile eine Vielzahl an automatisierten Lösungen, die entweder regelbasiert oder durch Machine Learning gesteuert werden.

Ein Beispiel für eine solche automatisierte Qualitätssicherung ist die Plattform Great Expectations2. Sie ermöglicht es, explizite Erwartungen an Daten zu definieren, etwa:

  • Einzigartigkeit von Werten (keine Duplikate)
  • Einhaltung definierter Wertebereiche (z. B. Umsatzwerte zwischen 0 und 1 Mio.)
  • Formatvorgaben für bestimmte Spalten (z. B. Datumsformate oder numerische Werte)

Great Expectations ist flexibel einsetzbar – sowohl in Cloud-Umgebungen als auch in lokalen Systemen – und kann nahtlos in bestehende Datenpipelines integriert werden. Die Ergebnisse der Qualitätsprüfungen werden dabei automatisch protokolliert und übermittelt, bis hin zu automatisierten E-Mail-Benachrichtigungen bei kritischen Abweichungen.

Herausforderungen bei der Umsetzung

Um Datenqualität und -integrität systematisch zu steigern, sollten Unternehmen folgende Massnahmen umsetzen:

  • Bestandsaufnahme der aktuellen Datenqualität (Audit von Datenquellen, Lückenanalyse)
  • Einführung von Standards und Governance-Richtlinien (z. B. Metadaten-Management, Zugriffskontrollen)
  • Technische Lösungen integrieren (automatisierte Prüfmechanismen, Data Quality Reporting)
  • Schulung und Sensibilisierung der Mitarbeitenden (Vermeidung menschlicher Fehler, Förderung datengetriebener Entscheidungsfindung).

Fazit

Datenqualität und Datenintegrität sind entscheidend für Unternehmen, die datengetrieben arbeiten möchten. Beide Konzepte sind eng miteinander verknüpft, verfolgen jedoch unterschiedliche Ziele. Die richtige Balance zwischen Datenqualität und Integrität zu finden, ist essenziell, um verlässliche, sichere und nutzbare Daten bereitzustellen.

Wie Integrität und Qualität sichergestellt werden können bzw. müssen, hängt dabei entscheidend von der aktuellen Dateninfrastruktur, dem regulatorischen Umfeld und spezifischen Use Cases ab. Aufgrund der fortgeschrittenen Methodenentwicklung im Datenbereich können in den meisten Fällen jedoch erprobte Lösungen genutzt werden, um die Daten sicherer, zuverlässiger, nützlicher und einfacher nutzbar zu machen.

Fussnoten

1Data Management Body of Knowledge: dama.org

2Great Expectations: greatexpectations.io

Weiterführende Quellen

Alosert, H., Savery, J., Rheaume, J., Cheeks, M., Turner, R., Spencer, C., Farid, S., & Goldrick, S. (2022). Data integrity within the biopharmaceutical sector in the era of Industry 4.0. Biotechnology Journal, 17, e2100609. https://doi.org/10.1002/biot.202100609

Ihr Ansprechpartner

Dr. Massimo Mannino

 

+41 79 483 36 43

Möchten Sie mehr zu unseren Dienstleistungen im Bereich Datenqualität und -integrität erfahren?

Gerne bin ich bei Fragen für Sie da.

    Portfolio-Reporting mit Power BI






        Newsletter: Melden Sie sich an und halten Sie sich auf dem Laufenden, was sich in der Welt der Daten tut.