zurück zum Artikel

Cloud-native Observability-Plattform: Azure stellt Retina Open Source

Maika Möbus
Server-Hardware

(Bild: Konstantin Yolshin/Shutterstock.com)

Kosteneffizientere Machine-Learning-Workloads sowie das Open-Source-Stellen von Retina zählen zu den aktuellen Azure-Neuerungen.

Im Rahmen der KubeCon + CloudNativeCon Europe 2024 [1] der Cloud Native Computing Foundation (CNCF) in Paris stellte Microsoft sein Open-Source-Projekt KAITO vor – Kubernetes AI Toolchain Operator. Das darauf basierende verwaltete Add-on KAITO für Azure Kubernetes Service (AKS) soll das Ausführen spezialisierter Machine-Learning-Workloads in Microsofts Cloud-Dienst kosteneffizienter gestalten und weniger manuelle Konfiguration erfordern. Daneben steht die Cloud-native Networking-Observability-Plattform nun Open Source bereit.

Bei KAITO handelt es sich um einen Operator, der KI/ML-Inferenzmodell-Deployments in einem Kubernetes-Cluster automatisiert. Laut dem GitHub-Repository [2] des Open-Source-Projekts sind die Zielmodelle quelloffene große Inferenzmodelle wie Falcon [3] und Llama 2 [4]. Das Onboarding großer KI-Inferenzmodelle soll der Operator unter anderem durch das Hosten großer Modell-Images in der öffentlichen Microsoft Container Registry (MCR) vereinfachen, sofern die Lizenz es erlaubt. Auch sorgen auf die GPU-Hardware abgestimmte, vorgefertigte Konfigurationen dafür, dass ein Tuning der Deployment-Parameter entfällt.

Das neue Add-on KAITO für AKS [5] ist nun als Preview verfügbar und erlaubt das Verwenden der KAITO-Fähigkeiten in Azure Kubernetes Service. Der Operator soll das Deployment großer Sprachmodelle über GPU- und CPU-Ressourcen hinweg automatisieren, indem er die optimale Größe der Infrastruktur für das jeweilige Modell wählt.

Durch das Add-on lässt sich das Inferenzieren zudem auf multiple virtuelle Maschinen (VMs) mit niedriger GPU-Zahl aufteilen. Somit erhöht sich die Anzahl der Azure-Regionen, in denen Workloads ausgeführt werden können, was Wartezeiten für Virtual Machines mit höherer GPU-Zahl verhindern und demnach die Gesamtkosten verringern soll. Vorgefertigte Modelle mit AKS-gehosteten Images stehen ebenfalls zur Auswahl bereit.

Die Installation des Add-ons [6] setzt unter anderem einen Azure-Account und die Azure CLI in Version 2.47.0 oder höher voraus. Weitere Details finden sich in der Ankündigung des Add-ons [7], im GitHub-Repository für KAITO [8] und bei Microsoft Learn [9].

Eine weitere Ankündigung [10] zu Cloud-Technologie findet sich auf Microsofts Azure-Blog: Das Unternehmen hat für Retina ein Open-Source-Repository bereitgestellt. Die Cloud-native Networking-Observability-Plattform richtet sich an Kubernetes-User, -Admins und -Entwickler. Sie dient dem Visualisieren, Beobachten, Debuggen und Analysieren von Kubernetes-Workload-Traffic, unabhängig von Container Network Interface (CNI), Betriebssystem und Cloud-Anbieter.

Eines der Schlüsselfeatures von Retina soll laut dem Entwicklungsteam darin liegen, dass es tiefe Einblicke in den Netzwerk-Traffic anbietet, die Layer-4- und DNS-Metriken sowie das Beobachten von im Netzwerk verteilten Paketen einschließt. Dabei soll sich die Multi-Cloud-Plattform durch das Anbieten von Metriken auf Pod-Level mit detailliertem Kontext nahtlos in das Kubernetes-App-Modell einfügen. Networking-Observability-Daten werden im Industriestandard als Prometheus-Metriken bereitgestellt.

Eine Einführung zu Retina [11] bietet weitere Informationen zu der nun quelloffen verfügbaren Plattform.

(mai [12])


URL dieses Artikels:
https://www.heise.de/-9661642

Links in diesem Artikel:
[1] https://www.heise.de/news/Das-neue-DevOps-Cloud-Native-AI-9661233.html
[2] https://github.com/Azure/kaito
[3] https://huggingface.co/tiiuae
[4] https://github.com/meta-llama/llama
[5] https://azure.microsoft.com/en-us/updates/public-preview-kubernetes-ai-toolchain-operator-kaito-addon-for-aks/
[6] https://learn.microsoft.com/en-us/azure/aks/ai-toolchain-operator#prerequisites
[7] https://azure.microsoft.com/en-us/updates/public-preview-kubernetes-ai-toolchain-operator-kaito-addon-for-aks/
[8] https://github.com/Azure/kaito
[9] https://learn.microsoft.com/en-us/azure/aks/ai-toolchain-operator
[10] https://azure.microsoft.com/en-us/blog/microsoft-open-sources-retina-a-cloud-native-container-networking-observability-platform/
[11] https://retina.sh/docs/intro/
[12] mailto:mai@heise.de