Databricks will mit Delta Sharing Datensilos aufbrechen

Das neue Open-Source-Projekt soll als offenes Protokoll den Datenaustausch und die unternehmensübergreifende Zusammenarbeit eröffnen – sogar in Echtzeit.

In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
Lesezeit: 3 Min.

Im Rahmen des Data + AI Summit gibt Databricks den offiziellen Start seines fünften Open-Source-Projekts bekannt. Neben den etablierten Systemen Apache Spark, Delta Lake, MLflow und Koalas zielt Delta Sharing darauf ab, einen plattformübergreifenden, sicheren Datenaustausch zu gewährleisten. Das unter dem Dach der Linux Foundation angesiedelte Projekt will einen offenen Protokollstandard setzen, der die gemeinsame Arbeit und den Austausch auch von Echtzeitdaten ermöglicht – unabhängig von den zugrunde liegenden Speicher- und Rechnerplattformen. So soll Delta Sharing vor allem die von unterschiedlichen Paradigmen und Werkzeugen gekennzeichneten Datensilos strukturierter sowie unstrukturierter Daten zusammenbringen.

Delta Sharing setzt auf Delta Lake 1.0 auf, dessen Lakehouse-Architektur die Vorteile von Data Lakes und Data Warehouses vereinen soll, um Unternehmen eine zentrale Daten- und Analyseplattform zur Verfügung zu stellen. Das offene Protokoll ermöglicht darüber hinaus die unternehmensübergreifende Zusammenarbeit und den direkten Austausch sämtlicher Datentypen. Dabei lassen sich die Daten mit gängigen Werkzeugen wie SQL, Tools für die visuelle Analyse und den Programmiersprachen Python und R verarbeiten. Datensätze im Format des Delta Lake oder Apache Parquet lassen sich unmittelbar auch in Echtzeit nutzen und teilen – die Anlage von Kopien ist nicht erforderlich.

Um insbesondere auch beim Cloud-übergreifenden Datenaustausch die Governance-Anforderungen für einen sicheren und autorisierten Zugriff auf die Daten beziehungsweise spezifische Inhalte zu gewährleisten, ergänzt Databricks Delta Sharing um den ebenfalls neuen Unity Catalog. Da sich die Zugriffrechte auf Cloud-Plattformen in der Regel auf die Dateiebene beschränken und auch nur grob einstellen lassen, behelfen sich viele Unternehmen bisher damit, Kopien der benötigten Inhalte bestimmter Datensätze anzulegen, um Mitarbeitern diese in Projekten zur Verfügung stellen zu können.

Vor allem vor dem Hintergrund immer stärker diversifizierter Daten, zu denen neben unstrukturierten Daten beispielsweise auch häufig Machine-Learning-Modelle und Dashboards zählen, will Databricks der damit verbundenen "Datenvermehrung" entgegenwirken. Damit der Data Lake nicht zum Data Swamp verkommt, schafft Unity Catalog ein auf ANSI SQL basierendes zentrales Governance-Modell für den sicheren Zugriff auf sämtliche Daten, Inhalte und Metadaten. Darüber hinaus soll sich Unity Catalog in bestehende Katalogsysteme integrieren lassen, um unnötige Migrationskosten zu vermeiden, erklärt Joel Minnick, VP Produktmarketing bei Databricks.

Eine weitere auf dem Summit vorgestellte Neuheit sind Delta Live Tables, die Data Engineers die Arbeit beim Aufbau und der Pflege von ETL-Pipelines (Extract, Transform, Load) erleichtern sollen. Die als Cloud-Service in die Databricks-Plattform integrierten Tabellen helfen die Datenqualität sicherzustellen. Damit in der Analyse und beim Machine Learning nur saubere und konsistente Daten zum Einsatz kommen, automatisieren Delta Live Tables das Erstellen von Anweisungen sowohl für die Datentransformationen als auch für die Datenvalidierungen in ETL-Pipelines.

Darüber hinaus schaffen sie die Basis für eine einheitliche Fehlerbehandlung, sodass Data Engineers lediglich noch die Ergebnisse definieren müssen, die eine Pipeline liefern soll. Auch wenn auftretende Fehler manuelle Eingriffe erfordern oder eine Anpassung der Daten an eine sich ändernde Geschäftslogik notwendig werden sollte, versprechen Delta Live Tables eine zügigere Bearbeitung – selbst bei einer großen Zahl zu verwaltender ETL-Pipelines, versichert Minnick.

Weitergehende Informationen zu den Neuankündigungen auf dem Data + AI Summit finden sich auf der Homepage von Databricks.

(map)