Datenverwaltung: Datenqualität von Data Lakes sichern

Metadaten sind für den Umgang mit den in Data Lakes gesammelten Infos wichtig. Bei der Metadatenverwaltung und ihrer Qualitätsüberwachung hilft OpenTelemetry.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht
Lesezeit: 14 Min.
Von
  • Christian Del Monte
Inhaltsverzeichnis

Data Lakes spielen eine große Rolle bei der On-Demand-Verarbeitung großer Mengen heterogener Daten, die in hoher und zeitlich variabler Geschwindigkeit erzeugt und genutzt werden.

Mehr zu Monitoring und Observability

Ein Data Lake beruht dabei auf zwei Grundprinzipien: dem Sammeln und Speichern von Daten im Rohformat und dem Verwalten eines Metadatensystems, das für das Verarbeiten von Analyseabfragen, das Datenqualitätsmanagement und das Data Reasoning unabdingbar ist. Letzteres ist eine Kombination aus statistischem und probabilistischem Denken, wobei der Schwerpunkt dem Verknüpfen abstrakter Muster mit konkreten, messbaren Daten liegt.

Christian Del Monte

(Bild: 

Christian Del Monte

)

Christian Del Monte ist Softwarearchitekt und Ingenieur bei adesso SE mit langjähriger Erfahrung mit einer Vielzahl von Softwarearchitekturen im B2B-Bereich.

Metadaten spielen eine entscheidende Rolle im Data Lake. Ihre Verwaltung ist nicht trivial, da sie dazu neigen, im Laufe der Zeit an Qualität zu verlieren. Das wirkt sich negativ auf die Ergebnisse der Analyseprozesse aus. Um die Qualität von Metadaten zu erhalten, ist es zuerst wichtig zu verstehen, was Metadaten ausmacht, wovon ihre Qualität abhängt und wie sich diese messen lässt.