KI von Google bedient grafische Oberflächen und versteht Infografiken

Mit ScreenAI stellt Google eine KI vor, die grafische Oberflächen und Infografiken analysiert. Sie kann Fragen dazu beantworten und auf UIs navigieren.

In Pocket speichern vorlesen Druckansicht 7 Kommentare lesen

(Bild: heise medien)

Lesezeit: 2 Min.

Ein neues Bild-Sprache-Modell von Google versucht, bildliche Sprache zu verstehen und nutzbar zu machen. Dazu zählen unter anderem grafische Oberflächen (UIs), Symbole, Tabellen, Infografiken, Layouts, die dann großen Sprachmodellen (LLM) zur weiteren Verwendung zur Verfügung stehen.

Nach Gemma hat Google Research mit ScreenAI ein weiteres KI-Modell vorgestellt. Forscherinnen und Forscher haben es so trainiert, dass es UI-Elemente und -Informationen entziffern kann, unter anderem die Art des Elements, den Ort und die Beschreibung. LLMs sollen mit diesen Informationen eine Webseite oder Infografiken verstehen, Fragen dazu beantworten und auf deren Oberfläche navigieren können.

Die von ScreenAI umfassten Elemente haben ähnliche Designmuster und -prinzipien, sodass sich ein gemeinsames KI-Modell dafür eignet. Es basiert auf der PaLI-Architektur, erweitert mit pix2struct. Trainiert haben es die Google-Forscherinnen und -Forscher mit einem multimodalen Encoder-Block und einem autoregressiven Decoder. Ein Vision-Transformer (ViT) liefert eine semantische Beschreibung der Bilder (Image Embedding), was dem Encoder als Input dient. ViT verarbeitet dabei auch Bilder unterschiedlicher Seitenformate.

Ein Anwendungsbeispiel für ScreenAI: Den Inhalt einer bildlichen Darstellung zusammenfassen.

(Bild: Google Reserch)

Das Training erfolgte in zwei Schritten, erst automatisiert und selbstlernend für ViT sowie das Sprachmodell, dann manuell nur noch für das Sprachmodell. Als Grundlage diente eine "umfangreiche Sammlung" an Screenshots von Desktops, Smartphones und Tablets. Neben der Analyse der Elemente (Bilder, Text, Steuerelemente) fand eine spezielle Einordnung der Piktogramme mit einem Icon Classifier in 77 Icon-Typen statt. Das war laut Ankündigung notwendig, da die Piktogramme subtile Informationen enthalten. Ferner hat eine optische Zeichenerkennung (OCR) die Texte in Bildern verwertbar gemacht.

ScreenAI analysiert die Elemente einer grafischen Bedienoberfläche und übersetzt sie in maschinenlesbaren Code.

(Bild: Google Research)

Im Anschluss trainierte das Google-Research-Team ein LLM mit künstlich generierten User-Fragen zu Bildkontexten. Das beinhaltete Fragen wie "Wann öffnet das Restaurant?", Oberflächenaktionen wie "Klicke auf den Button" und Zusammenfassungen wie "Was enthält der Screenshot, in zwei Sätzen".

Die Machine-Learning-Konferenz von Heise
M3-Konferenz

Am 24. und 25. April 2024 findet in Köln die Minds Mastering Machines statt. Die von iX und dpunkt.verlag ausgerichtete Fachkonferenz jenseits des KI-Hypes richtet sich an Data Scientists, Data Engineers und Developer, die Machine-Learning-Projekte in die Realität umsetzen.

Das Programm der Konferenz bietet an zwei Tagen gut 30 Vorträge in drei Tracks unter anderem zu folgenden Themen:

  • Einführung in Large Language Models
  • Mehr Nachvollziehbarkeit dank Explainable AI
  • Federated Learning in Theorie und Praxis
  • Automatische Codemigration mit LLMs
  • Vektordatenbanken-Optimierung
  • Spagat zwischen Bias und Fairness
  • AI Act & Co.

In einer Reihe von KI-Benchmarks erzielte ScreenAI gute State-of-the-art-Ergebnisse (WebSRC, MoTIF Chart QA und DocVQA), aber: "Wir stellen jedoch auch fest, dass unser Ansatz noch hinter großen Modellen zurückbleibt und weitere Forschung erforderlich ist, um diese Lücke zu schließen." Um die Frage-und-Antwort-Fähigkeiten zu testen, stellte Google Research zwei neue, eigene Benchmarks vor: ScreenQA Short und Complex ScreenQA.

Weitere Informationen finden sich im wissenschaftlichen Paper und im erwähnten Blogbeitrag.

(who)