Spark: Erweiterungen und Tools für das Datenverarbeitungsframework

Um Spark hat sich im Laufe der Zeit ein umfangreiches Ökosystem an Extensions entwickelt. Sie machen das Datenverarbeitungsframework vielseitig einsetzbar.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht
Spark: Erweiterungen und Tools für das Datenverarbeitungsframework
Lesezeit: 13 Min.
Von
  • Ramon Wartala
Inhaltsverzeichnis

Das offene Apache Spark und sein kommerzieller Bruder DataBricks Runtime sind im Bereich (Big) Data Engineering, Datenanalyse und Machine Learning für viele Unternehmen die erste Wahl. Zu einem großen Teil liegt das an der Flexibilität, der Quelloffenheit und der damit einhergehenden Marktdurchdringung. Im Laufe der letzten Jahre erschienen etliche Erweiterungen für Spark, die es zu mehr machen als nur einem weiteren Framework für Cluster Computing. [Link auf https://www.heise.de/ix/artikel/2018/08/links/126.shtml]

Alle großen Anbieter von Hadoop-Distributionen wie Cloudera, Hortonworks oder MapR unterstützen Spark innerhalb ihrer Systeme. In der Cloud bekommt man Spark bei Microsoft in Form von Azure HDInsight, bei Google mit Cloud Dataproc, bei Amazon mit Elastic Map Reduce und bei IBM mit IBM Analyics for Apache Spark.

Auch klassische Großunternehmen wie SAP bieten Anwendungserweiterungen, die Daten in Spark verarbeiten. So lassen sich mit SAPs In-Memory-Engine Vora 2.0 Daten direkt in Spark Dataframes einlesen oder in Vora-Tabellen persistieren. Für die hauseigene Produktlinie HANA ist der Spark Controller 2.0 für die Anbindung zuständig. In-Memory Daten aus den SAP-HANA-Systemen lassen sich dabei problemlos in Spark übertragen, die entsprechende Konfiguration von Smart Data Access – HANAs virtuelle Zugriffsschicht – vorausgesetzt.

Das war die Leseprobe unseres heise-Plus-Artikels "Spark: Erweiterungen und Tools für das Datenverarbeitungsframework". Mit einem heise-Plus-Abo können sie den ganzen Artikel lesen und anhören.