Kafka 2.3 verspricht unterbrechungsfreies Neuausrichten der Connect Worker

Das Update des Big-Data-Frameworks liefert einige neue Kernfunktionen für Kafka wie auch für Streams und Connect.

In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
Big-Data-Framework Apache Kafka 2.0 erschienen
Lesezeit: 3 Min.
Inhaltsverzeichnis

Die Apache Software Foundation hat Version 2.3 von Apache Kafka offiziell freigegeben. Das Update des auf die Echtzeitverarbeitung großer Datenmengen ausgelegten Message Broker enthält zahlreiche neue Funktionen, die auf Kafka Improvement Proposals (KIP) zurückgehen. Darüber hinaus sind Fehlerbereinigungen und Verbesserungen aus einer Reihe von JIRA-Tickets eingeflossen.

Bei notwendigen Konfigurationen der Konnektoren beherrscht Kafka Connect nun ein unterbrechungsfreies Neuausrichten der Worker Threads (KIP-415). Das sogenannte Rebalancing der über die Worker Nodes verteilten Worker Tasks stellt sicher, dass die Last aller Worker gleichmäßig über den Connect-Cluster verteilt bleibt. In den Kafka-Versionen bis 2.2 kam es beim Deployen eines neuen Connectors, dessen Neukonfiguration oder auch beim Hinzufügen oder Entfernen von Workers stets zu Ausfallpausen während des Rebalancing. Ab Kafka 2.3 verläuft dieser Prozess "incremental cooperative" und damit ohne Unterbrechungen.

Für bessere Einblicke in die Worker Logs soll KIP-449 sorgen. Die Log-Nachrichten erhalten zusätzliche Informationen, aus denen sich der jeweilige Zustand eines einzelnen Connectors eindeutiger ablesen lässt. Aufgrund des asynchronen Betriebs ließen die aus den im Connect-Cluster verteilten Thread Pools stammenden Logs bisher nur eingeschränkte Rückschlüsse auf die einzelnen logischen Operationen zu.

Mehr Infos

Apache Kafka auf der data2day

Schon traditionell ist Kafka auch ein Thema der Big-Data-Konferenz data2day. Bei der diesjährigen Auflage finden sich im Programm mehrere Vorträge und Workshops, die auf Kafka eingehen. Bis zum 30. August läuft übrigens noch die Frühbucherrabattphase der Konferenz.

In Kafka Streams können Anwender nun auch Zeitstempel in RocksDB speichern. In älteren Versionen bestand lediglich die Möglichkeit, Schlüssel und Werte im Statusspeicher abzulegen. KIP-258 soll damit auch die Grundlage schaffen, um künftig Out-of-order Messages sowie TTLs in KTables zu handhaben. Für Fälle, in denen höhere Performance wichtiger ist als Persistenz auf der Speicherplatte, stehen für Kafka Streams auch In-memory-Implementierungen für den Window und den Session Store zur Verfügung. Diese waren bisher auf den State Store beschränkt.

Unter den Neuerungen im Kafka Core sind vor allem Verbesserungen im Umgang mit Replicas zu erwähnen. KIP-351 und KIP-427 liefern erweiterte Informationen zu Überwachung der auf verschiedenen Brokern verteilten Datensicherungs-Replicas. Um etwa die kritische Größe der minimal erforderlichen Zahl von In-sync-Replicas (minimum ISR) im Auge behalten zu können, die Kafka verlangt, um Schreibprozesse auf den jeweiligen Partitionen zuzulassen, stellt KIP-427 ergänzende Kennzahlen parat, die Anwender rechtzeitig warnen. Darüber hinaus erweitert KIP-351 den kafka-topics-Befehl um den Flag –under-min-isr, sodass Anwender Topics mit zu geringer Zahl an In-sync-Replicas leichter erkennen können.

Weitere Informationen zu den Neuerungen im Big-Data-Framework finden sich im Blogbeitrag der Apache Software Foundation zur Ankündigung der neuen Version sowie auf der Projektseite von Apache Kafka, auf der das Release 2.3 auch zum Download parat liegt.

Siehe dazu auf heise Developer:

(map)