Cray baut Supercomputer-Appliance für agile Analytics

Crays Urika-GX vereint Supercomputing-Hardware mit der Graphdatenbank Cray Graph Engine, Apache Hadoop und Apache Spark zu einer Big-Data-Appliance.

In Pocket speichern vorlesen Druckansicht 7 Kommentare lesen
Cray baut Supercomputer-Appliance für agile Analytics
Lesezeit: 3 Min.
Von
  • Susanne Nolte

Mit der Urika-GX bringt Cray eine Supercomputer-Appliance für agile Big-Data-Analysen auf den Markt. Da sie die Skalierbarkeit, Rechen- und I/O-Leistung der Cray-Supercomputer einerseits und Enterprise-fähige Software für die Big-Data-Analyse andererseits mitbringt, soll sie mehrere Analyseaufgaben gleichzeitig ausführen können.

Die Berechnungen übernimmt Crays Graphdatenbank Graph Engine. Graphdatenbanken ordnen die Daten in einem Netz aus Knoten und deren Verbindungen, den sogenannten Kanten. Dadurch lassen sich indirekte Beziehungen schneller und mit weniger Aufwand herstellen und bestimmte Knoten finden als mit relationalen Datenbanken, die die Daten in Tabellen (Relationen) und Zeilen (Tupel) anordnen und dazu auf rekursive Ausdrücke zurückgreifen müssen.

Crays ursprünglich für die Urika-GD Graph Discovery Appliance entwickelte Graph Engine ist für die schnelle und komplexe iterative Tiefensuche optimiert, beherrscht RDF-Triplestore (Resource Description Framework) und den W3C-Standard SPARQL. Sie skaliert von der Single-CPU bis zu Tausenden von Prozessoren und kann mehrere TByte große Datensätze verarbeiten, die Milliarden von Objekten umfassen. Durch die Kombination von Graph Engine und Analysetools wie Hadoop und Spark lassen sich End-to-End-Analyseworkflows entwickeln, die unnötige Datenverschiebungen vermeiden.

Crays Urika-GX verstaut alles in einem Rack, was ein Supercomputer zum Big-Data-Ananlytics braucht.

(Bild: Cray Inc.)

Crays Urika-GX verwendet hauptsächlich Open-Source-Software. Installiert ist CentOS 7.2 und Crays auf OpenStack basierende System Management Software. Neben der Graph Engine sind Apache Spark und die Hadoop-Distribution Hortonworks Data Platform mit an Bord. Sie bringt Hadoop/MapReduce, HDFS, YARN, Hive and HCatalog, ZooKeeper, WebHCat, Oozie, Pig, Mahout, Hue, Kafka, Flume und Sqoop mit. Das Ressource-Management übernehmen Apache Mesos und Marathon, zur Analytics Programmier-Umgebung gehören OpenJDK, Scala Compiler, R, Python, NumPy, SciPy, Maven und das Scala Build Tool. Jupyter Notebook (JupyterHub), konfiguriert für Python, R, Spark, PySpark und SparkR ergänzen die Analyse-Software.

Für die Hardware verwendet Cray die von den Supercomputing-Clustern bekannten Standard-Komponenten angeordnet in 16, 32 oder 48 Compute-I/O- und Login-Nodes. Die Compute-Nodes sind mit je zwei von Intels Xeon-CPUs E5-2600 v4 mit je 18, alternativ mit 8 Broadwell-Cores bestückt. Hinzu gesellen sich in jedem Knoten 256 GByte DDR4-2133-RAM (optional 128 oder 512 GByte), zwei HDDs mit je 2 TByte (optional 1TByte) und eine SSD mit 800 GByte (optional 1,6 oder 4 TByte)

Die beiden I/O-Nodes beherrschen SAS, Fibre Channel, InfiniBand (FDR oder EDR), 10 oder 40 Gigabit Ethernet. Für die Cluster-Verbindung verwendet Cray die hauseigene InfiniBand-ähnliche Verbindungstechnik Aries. Nach draußen sind ein 48-Port-Switch für Gigabit- oder 10-Gigabit-Ethernet sowie zwei Stacked-1U-48-Port-Switches fürs Managementnetz vorgesehen. Urika-GX soll ab dem dritten Quartal 2016 erhältlich sein, ein größeres Modell soll Ende des Jahres folgen. (sun)