Google I/O: Video-KI, Suche-KI und noch mehr KI

Die Google I/O 2024 ist eine ziemliche KI-Show: AI Overviews für die Suche, Gemini 1.5 Pro mit zwei Millionen Token, Video-KI Veo und Project Astra.

In Pocket speichern vorlesen Druckansicht 47 Kommentare lesen

Liz Reid, Head of Search, auf der Bühne der Google I/O.

Lesezeit: 10 Min.
Inhaltsverzeichnis

Die Liste der KI-Dienste und Produkte, die Google auf seiner Entwicklerkonferenz I/O vorstellt, ist lang – sehr lang. "Wir investieren seit über zehn Jahren in KI und haben Innovationen auf allen Ebenen geschaffen", sagte CEO Sundar Pichai zum Auftakt der Google I/O am Dienstagabend. Google sei gerade in der "Gemini-Ära" – und auch auf der I/O wird es viel um Gemini und seine Epigonen gehen.

Das KI-Modell Gemini soll noch leistungsfähiger werden und erscheint in einer neuen Version, die Google nun "Gemini 1.5 Flash" nennt. Zu den weiteren Höhepunkten dürfte Veo gehören, eine Video-KI, die es mit Sora von OpenAI aufnehmen können soll. Die Suchmaschine bekommt eine "AI Overview", das sind automatisch verfasste Zusammenfassungen zur Suchanfrage, die oberhalb der Suchergebnisse angezeigt wird. Mit Project Astra arbeitet Google an einer Funktion, die in OpenAIs ChatGPT frisch eingezogen ist – dabei kann man zugleich mittels Kamera und Sprache mit Gemini (dem Chatbot) interagieren. Unter dem Namen Gemini Live steckt die Funktion demnächst auch in der Gemini-App für Advanced-Kunden.

Gemini ist das aktuelle KI-Modell von Google, das es in verschiedenen Versionen gibt. Die bisher größte Version, Gemini 1.5 Pro, kommt ab sofort mit einer Kontextlänge von einer Million Token daher – für Vertex AI und Google AI Studio Kunden. Die Kontextlänge für Entwickler, die die API nutzen und Kunden von Google Cloud, wird nun sogar auf zwei Millionen Token erweitert. Gemini 1.5 Pro ist laut Google in allen Bereichen verbessert worden. Über die API und Google AI Studio kann das Model bereits mit Audio und Video umgehen.

Außerdem wird Gemini in mehr Dienste einziehen, beispielsweise in Googles Messages. Die Erweiterungen werden mehr, etwa eine Youtube-Extension, der Kalender wird integriert, ebenso Tasks. Dadurch kann man über die Gemini-App beispielsweise ein Foto von einem Veranstaltungshinweis machen, der in den Kalender übertragen wird. Gems sind personalisierte KI-Chatbots, die Advanced-Nutzer für sich erstellen können. Das scheint ähnlich Metas AI Personas zu sein. Beispielsweise kann man sich einen Lauf-Coach erstellen.

Als offenes Modell stellt Google Gemma 2 vor, ein Modell mit neuer Architektur – konkreter wird es zunächst nicht. Neu ist auch das offene PaliGemma, ein Vision-Language Model.

Gemini 1.5 Flash soll besonders kosteneffizient und schnell sein. Google sagt, das sei eine oft gewünschte Eigenschaft. Das Modell eignet sich laut Google hervorragend für sämtliche Aufgaben von Chat bis Bild- und Videobeschriftung oder Datenanalysen. "Das liegt daran, dass es von 1.5 Pro durch einen Prozess namens 'Destillation' trainiert wurde, bei dem die wichtigsten Kenntnisse und Fähigkeiten aus einem größeren Modell auf ein kleineres, effizienteres Modell übertragen werden", erklärt Demis Hassabis, CEO von Google DeepMind.

Der Unterschied zu Gemini Nano liegt darin, dass das bisher kleinste Gemini Model für Mobilgeräte optimiert ist. Mit Pixel-Geräten ist es bald möglich Nano mit Multimodalität zu verwenden, also nicht nur durch Text, sondern auch mittels Sehen, Hören und gesprochener Sprache.

Google bündelt seine Arbeit an KI-Agenten im "Project Astra". Diese Agenten müssten die Welt verstehen, sich Dinge merken und handeln können, damit sie sinnvoll nutzbar sind. Project Astra setzt auf Gemini, sowie auf Aufgaben-spezialisierte Modelle, die Google nicht näher benennt. Der zukünftige Google-KI-Assistent soll via Smartphone oder Brillen erreichbar sein. Wann diese "Glasses", die im Video auf der I/O zu sehen sind, verfügbar werden, sagt Google noch nicht. Die Gemini-App soll noch in diesem Jahr manche der Fähigkeiten bekommen: Gemini Live ist dann allerdings nur für Advanced-Nutzer verfügbar.

OpenAI ist Google mit dieser Anwendung ein bisschen zuvorgekommen. Am Tag vor der I/O hat OpenAI GPT-4o vorgestellt, ein Omnimodel, das, wie sie sagen, nativ Text, Audio und Vision gemeinsam verarbeitet und mit dem dadurch gleichzeitig über die Kamera und per Sprache interagiert werden kann. Als Beispiel hat OpenAI gezeigt, wie man ChatGPT per Sprache nach Code fragen kann, der auf einem Bildschirm zu sehen ist. Auch Google zeigt ein Beispiel, bei dem der KI-Assistent Informationen über Code geben kann – was kann er, was ist vielleicht falsch und mehr. Er kann sich offensichtlich auch einiges merken, denn in dem Beispielvideo weiß Gemini, wo er an der Brille, die auf einem Tisch lag, vorbeigekommen ist.

Google ist mit der eigenen Video-KI zwar später dran als OpenAI mit Sora, allerdings ist die auch noch nicht verfügbar. Veo kann Videos in Full-HD (1080p) generieren, die länger als eine Minute sind – und damit länger als die von Sora. Das Modell versteht Kamera-Einstellungen wie "Zeitraffer" und "Luftaufnahme". Google betont auch, wie konsistent und kohärent die Videos seien – testen kann man das noch nicht. Zuletzt hatte ein Künstler erklärt, dass er bei Sora sehr viel Zeit in die Nachbearbeitung habe stecken müssen. Auch Google lässt Filmmacher mit Veo experimentieren, erste Künstler sollen Zugriff über VideoFX haben. Einige Funktionen ziehen zudem in Youtube Shorts ein, erklärt Google.

Veo heißt Googles Video-KI.

Der Bildgenerator Imagen erscheint in Version 3 und soll rundherum verbessert worden sein: beim Umgang mit Text, in der Wiedergabe von Stilen, im Verständnis für Prompts. Imagen 3 ist über ImageFX als Preview verfügbar und kommt bald in Vertex AI.

Lyria ist Googles Generative Musik KI. Künftig werden alle Musik-Dienste in der Music AI Sandbox zusammengeführt. SynthID ist ein nicht wahrnehmbares digitales Wasserzeichen, das in Bilder, Audio, Text und Video eingebettet werden kann.

Google weitet die KI-Suche aus. Das heißt allerdings nicht, dass Google die bisherige Suche durch eine neuartige KI-Suche ersetzt. Stattdessen versucht Google weiterhin, das Beste aus beiden Welten zu verbinden: Die gigantische Wissensbasis, die Google neben der Suchfunktion bereithält, wird weiterhin als solche verfügbar sein und bestehen bleiben. Hinzukommt AI Overview, die KI-generierten Antworten, die oberhalb der Linklisten stehen, aber nur erscheinen, wenn es nach der Meinung von Google auch Sinn macht.

In der Google Suche steckt eine angepasste Version von Gemini, dem KI-Modell. "Es vereint die fortschrittlichen Fähigkeiten von Gemini – einschließlich mehrstufiger Entscheidungsfindung, Planung und Multimodalität – mit unseren erstklassigen Suchsystemen", sagt Liz Reid, Head of Search, bei ihrer Vorstellung der Such-Zukunft. Die Menschen, die bisher AI Overviews in der Testumgebung von Google ausprobiert haben, seien zufriedener mit den Ergebnissen gewesen, als vorher. Ende des Jahres ist es nun soweit, dass die Funktion aus der Testphase in den normalen Betrieb wechselt. Wer dann darauf zugreifen kann, bleibt dennoch unklar – es heißt, "Milliarden Menschen". Bisher ist AI Overview über Google Labs nicht in der EU verfügbar.

Der Sorge, dass wegen der neuen Antwortform weniger Menschen auf die Webseiten von Verlagen, Künstlern und anderen Urhebern surfen und ihnen damit Werbeanzeigen wegbrechen, hält Google entgegen, dass nach ihren Erfahrungen mehr Menschen auf weiterführende Links klicken, wenn diese im KI-generierten Text auftauchen. Werbung wird weiterhin seinen Platz in der Suche finden, heißt es, wo genau, wird sich zeigen – ebenso, wie dass wirklich nach wie vor gleich viele Klicks auf den Webseiten landen. Schon die Einführung von Antwortkästen ("Position Null") in den Suchergebnissen hat manchen Seitenbetreibern Einbußen gebracht.

AI Overview soll bald anpassbar werden, etwa in der Art der Antwort, in der Sprache oder der Tiefe. Zunächst ist das allerdings nur in den USA möglich. Ebenfalls kann die KI-Suche dort künftig Anfragen beantworten, die aus mehreren Teilen bestehen – das nennt Google "multi-step reasoning".

Bei der Suche nach mehreren Informationen innerhalb von einer Anfrage, teilt Google künftig in der KI-Version die Antworten auf.

Absolut nicht fehlen darf das Beispiel, wie die Suche beim Planen einer Reise helfen kann. Diese Aufgabe ist immer, ob bei Google oder anderen Anbietern, und seit Jahren der offensichtliche Maßstab aller Anwendbarkeit. Daneben soll die KI-Suche aber auch hilfreich sein, wenn man etwa einen Ernährungsplan für die Woche erstellen möchte. Es sei ein Leichtes, das zu tun, man könne dabei auch einfach Anpassungen vornehmen, etwa vegetarisch zur Bedingung machen. "Die Suche passt deinen Essensplan an dich an." Das ist bisher wahrhaft keine klassische Such-Anfrage gewesen.

Neu ist auch, dass die Suchergebnisse eine neue Aufteilung bekommen – dank KI und erneut nur in den USA und auf Englisch. Das betrifft zunächst allerdings einzelne Suchanfragen, beispielsweise Essen, Rezepte, Filme, Musik und weitere.

Die Suche bekommt auch eine Video-Erweiterung. Die Funktion kann man als Erweiterung von Google Lens, aber auch Search-to-Circles verstehen, bei dem man ein Element eines Fotos umkreisen kann und daraufhin Suchergebnisse angezeigt bekommt. So ist es beispielsweise bald möglich, ein Video als Input zu geben und dazugehörige Fragen zu stellen. Bei der Präsentation ist das Beispiel ein Schallplattenspieler, bei dem die Nadel immer raushüpft samt der Frage, warum. Diese visuelle Suche ist freilich erneut mit OpenAIs neuer Funktionen für ChatGPT vergleichbar, bei der man zugleich etwas in die Kamera halten und eine Frage dazu stellen kann.

Reid sagte abschließend: "Schon bald wird Google das Suchen, Vereinfachen, Recherchieren, Planen, Brainstorming und vieles mehr übernehmen."

(emw)