KI von Google bedient grafische Oberflächen und versteht Infografiken

Mit ScreenAI stellt Google eine KI vor, die grafische Oberflächen und Infografiken analysiert. Sie kann Fragen dazu beantworten und auf UIs navigieren.

7

(Bild: heise medien)

20.03.2024, 15:42 Uhr

Lesezeit: 2 Min.

Developer

Von

Wolf Hosbach

Ein neues Bild-Sprache-Modell von Google versucht, bildliche Sprache zu verstehen und nutzbar zu machen. Dazu zählen unter anderem grafische Oberflächen (UIs), Symbole, Tabellen, Infografiken, Layouts, die dann großen Sprachmodellen (LLM) zur weiteren Verwendung zur Verfügung stehen.

Nach Gemma hat Google Research mit ScreenAI ein weiteres KI-Modell vorgestellt. Forscherinnen und Forscher haben es so trainiert, dass es UI-Elemente und -Informationen entziffern kann, unter anderem die Art des Elements, den Ort und die Beschreibung. LLMs sollen mit diesen Informationen eine Webseite oder Infografiken verstehen, Fragen dazu beantworten und auf deren Oberfläche navigieren können.

Die von ScreenAI umfassten Elemente haben ähnliche Designmuster und -prinzipien, sodass sich ein gemeinsames KI-Modell dafür eignet. Es basiert auf der PaLI-Architektur, erweitert mit pix2struct. Trainiert haben es die Google-Forscherinnen und -Forscher mit einem multimodalen Encoder-Block und einem autoregressiven Decoder. Ein Vision-Transformer (ViT) liefert eine semantische Beschreibung der Bilder (Image Embedding), was dem Encoder als Input dient. ViT verarbeitet dabei auch Bilder unterschiedlicher Seitenformate.

ScreenAI von Google — Ein Anwendungsbeispiel für ScreenAI: Den Inhalt einer bildlichen Darstellung zusammenfassen.

(Bild: Google Reserch)

Training in zwei Schritten

Das Training erfolgte in zwei Schritten, erst automatisiert und selbstlernend für ViT sowie das Sprachmodell, dann manuell nur noch für das Sprachmodell. Als Grundlage diente eine "umfangreiche Sammlung" an Screenshots von Desktops, Smartphones und Tablets. Neben der Analyse der Elemente (Bilder, Text, Steuerelemente) fand eine spezielle Einordnung der Piktogramme mit einem Icon Classifier in 77 Icon-Typen statt. Das war laut Ankündigung notwendig, da die Piktogramme subtile Informationen enthalten. Ferner hat eine optische Zeichenerkennung (OCR) die Texte in Bildern verwertbar gemacht.

Im Anschluss trainierte das Google-Research-Team ein LLM mit künstlich generierten User-Fragen zu Bildkontexten. Das beinhaltete Fragen wie "Wann öffnet das Restaurant?", Oberflächenaktionen wie "Klicke auf den Button" und Zusammenfassungen wie "Was enthält der Screenshot, in zwei Sätzen".

Am 24. und 25. April 2024 findet in Köln die Minds Mastering Machines statt. Die von iX und dpunkt.verlag ausgerichtete Fachkonferenz jenseits des KI-Hypes richtet sich an Data Scientists, Data Engineers und Developer, die Machine-Learning-Projekte in die Realität umsetzen.

Das Programm der Konferenz bietet an zwei Tagen gut 30 Vorträge in drei Tracks unter anderem zu folgenden Themen:

Einführung in Large Language Models
Mehr Nachvollziehbarkeit dank Explainable AI
Federated Learning in Theorie und Praxis
Automatische Codemigration mit LLMs
Vektordatenbanken-Optimierung
Spagat zwischen Bias und Fairness
AI Act & Co.

In einer Reihe von KI-Benchmarks erzielte ScreenAI gute State-of-the-art-Ergebnisse (WebSRC, MoTIF Chart QA und DocVQA), aber: "Wir stellen jedoch auch fest, dass unser Ansatz noch hinter großen Modellen zurückbleibt und weitere Forschung erforderlich ist, um diese Lücke zu schließen." Um die Frage-und-Antwort-Fähigkeiten zu testen, stellte Google Research zwei neue, eigene Benchmarks vor: ScreenQA Short und Complex ScreenQA.

Weitere Informationen finden sich im wissenschaftlichen Paper und im erwähnten Blogbeitrag.

(who)

nach oben

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}

${intro} ${title}

KI von Google bedient grafische Oberflächen und versteht Infografiken

Training in zwei Schritten

Spiele

1 Jahr nur 1,90 € pro Woche

Das digitale Abo für IT und Technik.