Echtzeitdatenanalyse in Apache Cassandra

Das Scala-Framework zur Echtzeitdatenanalyse Apache Spark wurde in Folge einer Partnerschaft zwischen Databricks und Datastax auf die Zusammenarbeit mit der NoSQL-Datenbank Apache Cassandra abgestimmt.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 1 Min.
Von
  • Alexander Neumann

Datastax, das Unternehmen hinter der verteilten NoSQL-Datenbank Apache Cassandra, ist mit Databricks, dem maßgeblichen Betreiber des Scala-Frameworks zur Echtzeitdatenanalyse Apache Spark, eine Partnerschaft eingegangen. Ziel ist es, die Spark-Technik mit der NoSQL-Datenbank zu verzahnen, sodass Cassandra-Anwender die Möglichkeit erhalten, zu schnellen Erkenntnissen auf Basis der abgelegten Daten zu kommen. Denkbare Szenarien sind zum Beispiel Warnungen zu möglichem Bankbetrügereien oder anderen nicht einfach aufzuspürenden Ereignissen.

Spark wird vorrangig im Umfeld von HDFS- oder NFS-Installationen (Hadoop File System/Network File System) eingesetzt. Ihm wird nachgesagt, durch das ihm zugrunde liegende In-Memory-Modell deutlich schneller als Hadoops MapReduce-Implementierung Daten abfragen und analysieren zu können. Ursprünglicher Entwickler der Technik ist das AMPLab der University of California in Berkeley, wo das Framework 2009 erstmals in Erscheinung trat, bevor es 2010 zum Open-Source-Projekt wurde. Intel und Yahoo sind zwei große Unternehmen, die das Framework bereits einsetzen. Mit Cloudera und MapR haben auch zwei bekannte Hadoop-Distributoren seit kurzem Spark integriert.

Damit sich Spark im Zusammenspiel mit Cassandra nutzen lässt, haben die beiden Unternehmen die Storage-Schnittstelle von Spark, Resilient Distributed Dataset (RDD), angepasst, sodass Spark die in Cassandra abgelegten Daten erkennen kann. Die dabei zum Einsatz kommende Technik soll als Open-Source-Software veröffentlicht werden, darauf aufbauende Dienstleistungen will sich Datastax hingegen bezahlen lassen. (ane)