Impala: SQL-Abfrage-Engine erreicht als erste GA-Status

Nur sechs Monate nachdem Cloudera Impala der Öffentlichkeit vorgestellt hat, steht nun Version 1.0 der interaktiven SQL-Abfrage-Engine für Hadoop zur Verfügung. Das Unternehmen liegt damit vor Konkurrenzprojekten wie der Stinger Initiative oder Drill.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 1 Min.
Von
  • Julia Schmidt

Das Unternehmen Cloudera hat die allgemeine Verfügbarkeit (General Availability, GA) von Impala bekannt gegeben. Das Projekt wurde vor knapp sechs Monaten nach zwei Jahren der Entwicklung der Öffentlichkeit vorgestellt und soll ähnliches für Hadoop leisten wie die Stinger Initiative von Konkurrent Hortonworks oder Drill. Es stellt Möglichkeiten zum Abfragen und Verarbeiten von Daten, die direkt in Hadoops File System (HDFS) oder HBase abgelegt sind, zur Verfügung und wird von Cloudera als interaktive SQL-Abfrage-Engine bezeichnet. Impala soll eine große Bandbreite von Datei-/Datenformaten unterstützen, sodass es die meisten Nutzer ohne den Umweg über proprietäre Formate verwenden können sollten.

Impala im Hadoop-Framework

(Bild: Cloudera: Introducing Impala )

Für Version 1.0 konnten die Entwickler nicht nur einige Bugs beseitigen sondern auch neue Funktionen einführen. Darunter ALTER TABLE und REFRESH für einzelne Tabellen sowie dynamisches Ressourcen-Management. Außerdem unterstützt Impalas SQL-Dialekt Query Hints, mit denen sich die inneren Abläufe der Abfragen genauer festlegen lassen (zum Beispiel [SHUFFLE] und [BROADCAST]). Mit ihnen soll es möglich sein, aufwendige Abfragen, wie sie etwa bei fehlenden Statistiken zu finden sind, zeitweilig zu umgehen.

Im Gegensatz zu anderen Projekten, die sich mit Abfragen in Hadoop beschäftigen, ist Impala das erste, was eine fertige Version vorweisen und sich so einen größeren Nutzerkreis erschließen kann. (jul)