Big Data: Microsoft baut Azure Data Lake aus

Was im April 2015 noch als Data Lake angekündigt wurde, ist als Data Lake Store nun nur noch eine Komponente eines größeren Angebots zur Analyse und Verarbeitung von Datenmengen über verschiedene Plattformen hinweg.

In Pocket speichern vorlesen Druckansicht 2 Kommentare lesen
Cloud
Lesezeit: 2 Min.
Von
  • Julia Schmidt

Da immer mehr Unternehmen versuchen, die ihnen zur Verfügung stehenden Datenmassen in Anwendungen zu nutzen, will Microsoft zukünftig mit Azure Data Lake eine Hilfestellung bei dieser Arbeit geben. Dafür hat das Unternehmen sein im Frühjahr vorgestelltes Angebot ausgebaut und um verteilt arbeitende Datenverarbeitungs- und -analysemöglichkeiten ergänzt. Azure Data Lake setzt sich zukünftig also aus dem früher unter diesem Namen bekannten Data Lake Store und den Komponenten Data Lake Analytics und Azure HDInsight zusammen. Wer an dem Angebot interessiert ist, kann sich online registrieren, da es derzeit noch nicht öffentlich zur Verfügung steht.

Mit dem Data Lake Store sollen Nutzer Daten unterschiedlicher Größe, Art und Geschwindigkeit erfassen können und zudem die Option haben, sie zur Verarbeitung und Analyse durch HDFS-Anwendungen (Hadoop Distributed File System) und -Werkzeuge freizugeben. Data Lake Analytics arbeitet mit Apache YARN (Yet Another Resource Negotiator) und soll für Datenanalysezwecke zur Verfügung stehen. Besonders dabei ist wohl der Umstand, dass der Dienst Jobs beliebiger Größe bewältigen können soll, da er die nötigen Ressourcen entsprechend zuschalten und nach dem tatsächlichen Verbrauch abrechnen kann.

Außerdem ist mit U-SQL eine neue Abfragesprache Teil der Analysekomponente. Sie vereint wohl Eigenschaften von C# und SQL in sich, damit Entwickler aus dem SQL- und .NET-Bereich einen einfacheren Einstieg in die Auswertung großer Datenmengen erhalten, ohne viel Zeit in das Erlernen neuer Tools stecken zu müssen. Azure HDInsight ist schon länger bekannt, steht nun aber auch für Linux-Systeme zur Verfügung und soll das Data-Lake-Angebot abrunden. Der Apache-Hadoop-Cluster-Dienst umfasst unter anderem Analyseoptionen in Form von Projekten wie Apache Spark und Storm aus dem Umfeld des Frameworks. (jul)