Alles auf KI: PaLM 2 und Gemini stehen im Zentrum von Googles Produktstrategie

Google I/O setzt auf KI: Modell PaLM 2 und Gemini bilden die Grundlage neuer Produkte. Highlights der Developer-Keynote und ein Blick in den Technical Report.

In Pocket speichern vorlesen Druckansicht 3 Kommentare lesen

Google I/O 2023: Alphabet-CEO Sundar Pichai bei der Developer-Keynote am 10. Mai

(Bild: Google)

Lesezeit: 13 Min.
Von
  • Silke Hahn
Inhaltsverzeichnis

Google setzt ganz auf die KI-Karte: Im Zentrum der Developer-Keynote der Hauskonferenz Google I/O stand am 10. Mai das neue KI-System PaLM 2 (Pathways Language Model), das laut CEO Sundar Pichai ab sofort in über 25 Features und Produkten steckt. Etwa eine Stunde lang stellten leitende Google-Mitarbeiter die für Developer relevanten Neuigkeiten vor, eingebettet in die zweistündige Gesamt-Keynote. Entwicklern steht PaLM 2 über die PaLM-API, Firebase sowie Colab Notebooks offen. Es soll insbesondere auch zum Coden und Debuggen von Code geeignet sein und wurde auf 20 Programmiersprachen trainiert, unter anderem dient es dem Modell Codey als Grundlage.

Pichai stellte die zwei Haupt-KI-Projekte vor: Gemini AI und PaLM 2. Mit dem großen Sprachmodell Gemini plant Google, künftig der GPT-Serie von OpenAI Konkurrenz zu machen und die Fähigkeiten der PaLM-Serie auszubauen. PaLM 2 ist das grundlegende Modell hinter den aktuellen Produkten von Google, die KI nutzen wie der Chatbot Bard und alle weiteren gestern veröffentlichten KI-Angeboten. Zu Gemini hält Google sich weiterhin etwas bedeckt, es befindet sich noch in Arbeit. Verglichen mit PaLM 2 solle es laut Pichai über ein besseres Erinnerungsvermögen (Memory) und weitreichende Fähigkeiten zum Planen (Planning) verfügen.

Ein Release-Termin wurde nicht genannt. Die wenigen belastbaren Fakten zu Gemini legen nahe, dass es sich hierbei um das bislang größte und teuerste sowie rechenintensivste KI-Modell handeln dürfte, das Google bislang trainiert hat. Ende März war bekannt geworden, dass Google die damals noch getrennten KI-Abteilungen Google Brain und DeepMind zur gemeinsamen Arbeit an einem großen KI-Modell unter dem Projektnamen Gemini verpflichtet hat. Mitte April 2023 wurde die KI-Entwicklung in der Forschungseinheit Google DeepMind fusioniert.

Greifbarer ist hingegen PaLM 2, die neue Version von Googles derzeit größtem fertig trainierten KI-Sprachmodell ist nun in den Markt eingeführt. Es soll mächtiger sein als das bisherige PaLM, das bereits eindrucksvolle Fähigkeiten aufwies: Es umfasste 540 Milliarden Parametern, beherrschte Arithmetik besser als seine Vorgänger und konnte englischsprachige Witze erklären. Google hatte PaLM (Pathways Language Model) im April 2022 vorgestellt und es für einen Durchbruch erklärt. PaLM 2 soll laut dem jetzt veröffentlichten Technical Report bessere multilinguale Fähigkeiten haben und im "logischen Denken" (Reasoning, dem Ziehen von Schlüssen) stärker sein, zudem soll es weniger Rechenkraft brauchen als sein Vorgänger.

Der Architektur nach ist PaLM 2 weiterhin ein Transformermodell, das Training sei ähnlich vonstattengegangen wie bei UL2 (einem von Google 2023 präsentierten Modell). Das Training habe neben Englisch auch in anderen Sprachen wie Arabisch, Japanisch, Koreanisch, Russisch, Thai und Türkisch stattgefunden, auch für Deutsch finden sich Beispiele im technischen Bericht. Wie daraus hervorgeht, hat das Team am Querübersetzen in unterschiedliche Zielsprachen besonders gefeilt. Hier wäre ein Vergleich mit dem derzeit leistungsstärksten KI-Übersetzungsdienst DeepL interessant, der bislang noch nicht vorliegt. Zumindest im Beispiel einer mit "German-Swahili" betitelten Anfrage ist kein Wort in Suaheli enthalten, offenbar benötigt die Übersetzung den Zwischenschritt über Englisch.

Sprachverteilung im Trainingsdatensatz: mehrsprachige Webdokumente außer Englisch

(Bild: Technical Report zu PaLM 2 von Google (Tabelle 21))

Laut Anhang C im Report hat das Modell in mehreren Sprachen große Sprachprüfungen bestanden, für Deutsch etwa C2 nach den Standards des Goethe-Instituts. Auf diesem Sprachniveau würden ausländische Studenten zum Studium in Deutschland zugelassen und dürften hier auch unterrichten. Ein englischer Muttersprachler müsste über 750 Stunden Deutschunterricht absolvieren, um dieses Niveau zu erreichen. Ähnliche Standards erreicht PaLM 2 laut Google-Team auch für Chinesisch, Japanisch, Französisch, Spanisch und Italienisch.

"Ich verstehe nur Bahnhof": Deutsch-Englisch- und Swahili-Englisch-Übersetzungen von Redewendungen in Googles KI-Modell PaLM 2

(Bild: Technical Report zu PaLM 2 von Google (Abb. 13))

Im Beispiel erklärt PaLM 2 die deutsche Redewendung "Ich verstehe nur Bahnhof" zunächst auf Englisch, obwohl Suaheli in der Überschrift steht. In der daneben stehenden Anfrage erklärt PaLM 2 eine Redewendung aus Suaheli, die jedoch mit der deutschen Redewendung nichts zu tun hat (vielleicht ging hier im Layout etwas vertauscht – möglicherweise war der Technical Report mit heißer Nadel gestrickt). Was das Modell beherrschen soll, ist auch die Transliteration zwischen verschiedenen Schriftsystemen, etwa von lateinischer Schrift in arabische, japanische oder indische Schriftsysteme. In anderen Beispielen erklärt PaLM 2 ein japanisches Haiku auf Englisch, kann eine E-Mail auf Arabisch schreiben oder präsentiert auf Englisch einen Designentwurf für ein Computerspiel mit armenischem Titel.

LLMs werre immer leistigsfähiger un hän s Potenzial, viili verschidini Beraich vu dr Gsellschaft z verändere...

So beherrscht das Modell auch verschiedene deutsche Dialekte wie Badisch. So erklärt PaLM 2 einer Person auf Badisch, wie große Sprachmodelle funktionieren: "Großi Sprachmodell (LLMs) sin e Art vu künstlicher Intelligenz, wo druf traineert worre isch, großi Menge an Textdate z verarbeite un z verstehe. Sie kenne viili verschidini Ufgabe usfihre, z. B. Text ibersetze, Froge beantworte, Code schriibe un sogar kreativi Inhalt wi Gedicht oder Gschichte erschaffe." Bewohnern Baden-Württembergs zufolge kommt das am ehesten der in Nordbaden/ Kurpfalz gesprochenen Variante des badischen Dialekts nah. In Südbaden klinge der Dialekt wiederum anders, und die Unterschiede von Dialekten können von Dorf zu Dorf bereits stark variieren. Das trifft auch für andere Regionen der Welt zu. Daher ist fraglich, inwieweit ein Sprachmodell wie Googles PaLM 2 tatsächlich in der Lage ist, Dialekte originalgetreu zu imitieren. Zahlreiche weitere interessante Beispiele sind im Technical Report einsehbar.

Googles PaLM 2 erklärt auf Deutsch, wie große Sprachmodelle funktionieren, und übersetzt die Antwort weiter in den deutschen Dialekt Badisch.

(Bild: Technical Report zu PaLM 2 von Google (Abb. 20))

Die Inferenz sei schneller und effizienter als bei der ersten Version von PaLM. Näheres zu den Benchmarkwerten lässt sich dem Technical Report entnehmen, der insbesondere ein stabiles Abschneiden bei Standardauswertungen für Responsible AI betont, die Kontrolle über die Inferenzzeit und über die Harmlosigkeit in der Anwendung. Wer sich für die technischen Details interessiert, findet sie (soweit sie Teil der Veröffentlichung sind) in der Modellkarte ab Seite 91 des Technical Report (Tabelle 31). Ein Auszug daraus:

Modellkarte zu PaLM 2 von Google – ein Ausschnitt

(Bild: Technical Report zu PaLM 2 von Google (Tabelle 31))

Das neue PaLM soll als Grundlage (Foundation-Modell) für spezialisierte Modelle und Anwendungen dienen. Laut dem Technical Report und der Modellkarte ist PaLM 2 auf Webdokumenten, Büchern, Code aus über zwanzig verschiedenen Programmiersprachen, mathematischen Daten und Konversationsdaten vortrainiert. Bei den Programmiersprachen sollen bekanntere wie JavaScript und Python sowie weniger verbreitete wie Fortran und Prolog berücksichtigt worden sein. Das Corpus für das Pre-Training soll "deutlich größer" sein als das für PaLM verwendete. Ähnlich wie OpenAI in deren "Technical Report" zu GPT-4 hält Google sich mit genaueren Angaben zu den verwendeten Daten zurück und gibt keine Informationen zum genauen Umfang des Trainingsmaterials und zu den Datenquellen preis. Das Modell ist auf einem Offline-Datensatz trainiert worden und sei statisch.

Die Hardwareanforderungen und die Größe (Parameteranzahl) sind nicht in der Modellkarte angegeben. Trainiert wurde PaLM 2 auf Googles aktuellster Hardware, nämlich TPUs der vierten Generation, und zwar mit JAX (JUst Anach eXecution), einem Framework zum Beschleunigen maschineller Lernaufgaben – einer modifizierten Version von Autograd und dem von TensorFlow bekannten XLA (Accelerated Linear Algebra).

Das Modell ist nicht freigegeben für Dienste und Produkte, die Allzweck-KI (General Purpose AI) anbieten. Für solchen Einsatz müsse es erst eine Risikoeinschätzung und Sicherheits- sowie Fairnessprüfungen durchlaufen. Laut Google sei der Zweck des Modells, "die Erforschung von Sprachmodellen zu beschleunigen" und es diene als Baustein in Googles Produktlinien sowie für einzelne Anwendungen wie Bard und Magi. Über MakerSuite und APIs sollen auch Entwickler auf PaLM 2 zugreifen können (wobei technische Sicherheitsmaßnahmen zu beachten seien).

PaLM 2 erstellt eine einfache Website in HTML-Code

(Bild: Technical Report zu PaLM 2 von Google (Abb. 26))

PaLM 2 sei auf Datenmaterial "aus hunderten Sprachen" trainiert in Form von Quellen und Textpaaren, bei denen eine Seite immer Englisch war. Dem Modell wohne dadurch die Fähigkeit zum Übersetzen inne und es könne Text in vielen Sprachen erzeugen sowie Aufgaben in einer Eingabesprache annehmen und in einer anderen Zielsprache erledigen. Beim Erstellen der Trainingsdatensätze habe man das Material gefiltert, bereinigt, Dubletten entfernt und personenbezogene Daten ausgesondert. Die Qualität des Outputs sei durch eine höhere Datenqualität gestiegen. Ein Teil der Vortrainingsdaten sei mit Control-Token auf "Giftigkeit/ Schädlichkeit" (toxicity) markiert worden mit Signalen über eine Schnittstelle zur Perspective API.

Das neue PaLM 2 bietet vier Untermodelle in verschiedenen Größen: Gecko, Otter, Bison und Unicorn. Davon ist Gecko das kleinste und "leichteste" Modell, das auch auf Mobilgeräten laufen soll. PaLM 2 ist ein Foundation Model, also ein grundlegendes Modell, das sich mit domänenspezifischem Wissensschatz feintunen lässt. Zwei Möglichkeiten hob Pichai hervor, die Google offenbar schon fertiggestellt hat: Sec-PaLM und Med-PaLM, die ihm zufolge für Sicherheitsfragen (Security) im Bereich Cybersecurity und medizinisches Wissen (Medical Knowledge) spezialisierte Versionen von PaLM 2 sind. Hinzu kommt Codey, ein Modell, das speziell auf Programmieraufgaben ausgelegt ist. Med-PaLM 2 soll ab dem Sommer einer kleinen Gruppe von Testpartnern über die Cloud zugänglich gemacht werden: Es könne zu medizinischen Fragen Auskunft geben und ist offenbar auf medizinischer Fachliteratur nachtrainiert. Hier sollen sich künftig auch Röntgenbilder auswerten lassen (Google betont im Blogpost das vorläufige Stadium dieses Modells und seiner Entwicklung).

Beispielmaterial aus Googles Med-PaLM 2, einem noch nicht öffentlichen medizinischen großen Sprachmodell, das künftig auch Röntgenbilder auswerten können soll.

(Bild: Blogpost von Google)

Auch der Bard-Chatbot sitzt ab sofort auf dem neuen Modell PaLM 2 und soll auf Google-Produkte wie Colab (zum Programmieren), Lenses und Maps zugreifen können. Mit einer Anbindung an Adobe Firefly lassen sich aus Textanweisungen Bilder erstellen, wie man es von Stable Diffusion oder DALL·E gewohnt ist (die Frage, warum hier nicht das hauseigene Modell Google Imagen zum Zuge kommt, bleibt derweil offen). Damit erhält Bard multimodale Fähigkeiten und soll auch Fragen zu Bildern beantworten können. Google öffnet Bard für das Einbinden der Produkte von Drittanbietern (ähnlich wie OpenAI ChatGPT für Plug-ins geöffnet hat), und die Warteliste entfällt ab sofort.

Anders als Microsoft will Google den Bard-Chatbot demzufolge als Stand-alone-Chatsystem fortführen und stattdessen "experimentelle KI-Features" in die Suche einführen, was unter dem Projektnamen Magi bereits vor einigen Wochen bekannt wurde. Dabei handelt es sich um eine Opt-in-Funktion, die die klassische Suchfunktion nur dezent antastet und keine Konversations-KI wie Bard ist. Dass Bard nicht in die Suchfunktion integriert wird, könnte Kostengründe haben. Suchanfragen über ein KI-System laufen zu lassen, erfordert deutlich mehr Rechenkapazität und Energie als traditionelle Suchanfragen. Davon abgesehen sind KI-Chatbots zurzeit nicht auf Informationsbeschaffung optimiert, sondern für andere Aufgaben wie das Schreiben, Beschreiben, Zusammenfassen oder Entwerfen von Programmcode besser geeignet.

Weitere KI-News betrafen Google Cloud: So hat Google offenbar Oracle Cloud ein KI-Start-up als Kunden weggeschnappt, Character AI. Das von ehemaligen Google-Forschern gegründete KI-Unternehmen ermöglicht Menschen, sich mit Chatbots im Stil (Character) fiktiver oder realer Personen zu unterhalten, etwa mit Physikern, Schriftstellerinnen oder Stars, die teils nicht mehr unter den Lebenden weilen. Ob Character AI komplett zur Google Cloud wechselt, bleibt dabei offen. Ein weiterer bekannter Kunde im KI-Bereich ist Midjourney, die seit März die Google-Cloud nutzen.

Mit AWS oder Microsoft Azure kann Google sich dadurch noch nicht messen, allerdings scheint die Cloudsparte hier weiter aufschließen zu wollen und präsentierte sich bei der Developer-Keynote gezielt als Alternative zu den beiden größten Cloudanbietern. So warb Google etwa damit, durch KI-Implementierungen künftig deutlich günstigere Cloudpreise bieten zu können als bisher (oder als die Konkurrenz: Microsoft zieht seit dem Frühjahr Kritik auf sich, da die Preise für Cloudnutzung zum zweiten Mal in rascher Folge stark angehoben wurden und künftig halbjährlich steigen sollen – in Deutschland läuft bereits ein Kartellverfahren gegen den Plattformanbieter wegen mutmaßlichen Missbrauchs der Marktmacht).

Dass die Keynote Entwicklerinnen und Entwickler gezielt ansprach, scheint Teil der sich nun herauskristallisierenden Google-Strategie zu sein: Mehrfach betonten Pichai und seine Kollegen, dass sie die Community stärker ins Boot holen wollen, auf die Entwicklergemeinde und deren Mitwirkung hoffen. Vor allem setzen sie bei fast allen vorgestellten Produkten und Projekten auf KI. Insgesamt entsprachen die vorgestellten Tools und (KI-)Funktionen weitgehend den auch bei Microsoft und OpenAI verfügbaren Angeboten.

Weitere Informationen zu Googles Hausmesse I/O und Aufzeichnungen der Keynotes lassen sich auf der Konferenzwebsite aufrufen. Das Programm ist online durchsuchbar.

(sih)