Machine Learning: Databricks setzt eine ML-Plattform auf den Data Lake

Data Engineers, Data Scientists und Product Owner sollen mit Databricks Machine Learning gemeinsam an ML-Projekten arbeiten können.

In Pocket speichern vorlesen Druckansicht 2 Kommentare lesen
Lesezeit: 3 Min.

Die Lakehouse-Architektur, die die Vorteile von Data Lakes und Data Warehouses vereint, um Unternehmen eine zentrale Daten- und Analyseplattform bereit zu stellen, erweitert Databricks nun um eine organisations- und teamübergreifende Machine-Learning-Plattform. Im Rahmen des Data + AI Summit gab das Unternehmen den offiziellen Start von Databricks Machine Learning bekannt, das Data Engineers, Data Scientists und Product Ownern die gemeinsame Arbeit an ML-Projekten ermöglichen soll.

Mit MLflow hatte Databricks bereits ein Open-Source-Projekt für das Lebenszyklus-Management von Machine-Learning-Projekten auf den Weg gebracht, das inzwischen neben Apache Spark, Delta Lake, Koalas und dem gerade neu vorgestellten Delta Sharing unter dem Dach der Linux Foundation verwaltet wird. Databricks Machine Learning soll nun noch einen Schritt weitergehen und den gesamten Prozess von der Datenarchitektur samt Pipelines (Data Engineering) über das Modelltraining (Data Science) bis hin zum Bereitstellen der darauf aufbauenden Anwendungen (Datenprodukte) zusammenbringen.

Damit soll eine zentrale, kollaborative Plattform für Data-Teams in Unternehmen entstehen, die sämtliche benötigten Werkzeuge vom Vorbereiten der Daten über das Experimentieren bis zum Produktivbetrieb bündelt. Die Plattform unterstützt die Teams dabei auch mit zwei neuen Funktionen: Databricks AutoML und Databricks Feature Store. Mit AutoML lassen sich viele der bisher von Data Scientists manuell zu erledigenden Schritte bei der ML-Modell-Entwicklung und dem Training weitgehend automatisieren – ohne dass die Modelle dabei zur Black Box werden, verspricht Databricks. Data Scientists sollen die Kontrolle darüber behalten, wie ein Modell genau arbeitet, es anpassen und auch unbekannte Datensätze validieren können. Dank Integration mit MLflow sollen sich alle wichtigen Parameter, Metriken und ML-Modelle jederzeit nachverfolgen lassen.

Die neue Plattform Databricks Machine Learning im Überblick.

(Bild: Databricks)

Der Feature Store übernimmt dabei die Rolle eines Single Point of Truth für sämtliche in der Organisation beziehungsweise dem Unternehmen bereits vorhandenen Features. Data-Teams können anhand des Stores nachvollziehen, wie die Features aufgebaut sind und wo sie bereits verwendet werden – einschließlich der für die Berechnung herangezogenen Datenquellen. Der Feature Store unterstützt Data-Teams dadurch nicht bei der Data Lineage, sondern hilft auch konkret, Phänomene wie den Online-Offline-Skew zu vermeiden, der sich als variierende Modellleistung zwischen Echtzeit- und Batch-Anwendungen bemerkbar machen kann.

Weitere Informationen zu Databricks Machine Learning, Databricks AutoML und dem Databricks Feature Store fasst der Blogbeitrag zur offiziellen Ankündigung auf dem Data + AI Summit zusammen. Die ML-Plattform steht zunächst als öffentliche Preview für Kundinnen und Kunden des Anbieters zur Verfügung.

(map)