iX 10/2016
S. 112
Wissen
Big Data
Aufmacherbild

Big und Fast Data mit Druid

Datenstrom im Blick

In Big-Data-Projekten müssen Auswertungen meist schnell vorliegen und aktuelle Daten enthalten. Die eingesetzten Architekturen nutzen dazu oft mehrere Datenbanksysteme. Dass man auch gut mit einem auskommen kann, zeigt das freie Druid.

Wenn Analysten mit großen Datenmengen arbeiten, müssen die Ergebnisse oft so aktuell sein, dass auch Ereignisse der letzten Minuten berücksichtigt werden. Da das Resultat einer Datenbankabfrage oft gleich für die nächste Abfrage genutzt wird, behindern lange Wartezeiten einen flüssigen Arbeitsablauf. Die Informationen müssen in wenigen Sekunden vorliegen. Viele Analysen verwenden außerdem zeitaufwendige Machine-Learning-Verfahren oder Aggregate, also etwa Summen oder Durchschnitte über den gesamten Datenbestand.

Im Big-Data-Umfeld bieten freie Technologien wie Spark oder Hadoop MapReduce ausgezeichnete Skalierbarkeit und hohen Durchsatz und eignen sich zudem für Aggregate. Je nach Größe des Clusters und des Datenbestands können die Jobs einige Stunden oder Tage unterwegs sein – Antwortzeiten im einstelligen Sekundenbereich sind selbst bei geringen Datenvolumina sicher nicht die Stärke von MapReduce und Co.