Bild- und Videoanalyse im Browser

Immersive Webapplikationen lassen sich mit Sprache, Gestik und Mimik steuern. Externe Bibliotheken wie OpenCV und MediaPipe bringen Gesichts- und Gestenerkennung in den Browser.

Von Sebastian Springer

Mit Bild- und Videoanalyse lassen sich neue Interaktionsmöglichkeiten in eine Webapplikation integrieren. Diese Techniken ergänzen vorhandene Browserschnittstellen wie die WebXR-Schnittstelle in Virtual-Reality- und Augmented-Reality-Applikationen, um diese besser in die Umgebung der Nutzer einzubetten [1]. Nutzer können die Applikationen dann nicht nur über traditionelle Eingabemechanismen wie Maus und Tastatur, sondern auch über Objekte in der realen Welt oder über Bewegungen steuern. Dieser Artikel zeigt, wie man mit den Bibliotheken OpenCV und MediaPipe Gesten- und Gesichtserkennung in eine Webapplikation integriert.

Webanwendungen können auf immer mehr Systemschnittstellen wie die Kamera des Systems, die Sprach-, Geolocation- und Bluetooth-API zugreifen [2]. Browser stellen viele dieser Schnittstellen nur in der lokalen Entwicklungsumgebung oder in einem sicheren Kontext zur Verfügung und fragen Nutzer um Erlaubnis, bevor sie bestimmte sicherheitsrelevante Schnittstellen verwenden. Moderne Webapplikationen folgen der Idee von Progressive Web Apps und bieten Nutzern in nahezu jeder Umgebung Basisfunktionen, die erweiterbar sind. Applikationen können so möglichst viele ansprechen und unabhängig von der Umgebung funktionieren. Allerdings setzen einige Browser noch nicht alle Schnittstellen um. Bei der WebXR-Schnittstelle hinken Safari und Firefox mit der Entwicklung hinterher. Chrome spielt hier die Vorreiterrolle und unterstützt Hit Testing und die Ambient Light API. Doch erst neue Browserschnittstellen in Kombination mit WebGL und WebAssembly sowie externen Bibliotheken führen zu Innovationen bei der User Experience.