Parallele Welten

Das tragische Ende eines Videos in ein Happy End verwandeln. Selber bestimmen, wie viele Werbeeinblendungen ein Film enthält. Den Gegner des geliebten Tennisstars aktiv behindern. Dies und mehr soll MPEG4, der neue Standard für audio-visuelle Übertragungen, möglich machen.

16.11.1998, 02:00 Uhr

Lesezeit: 13 Min.

iX Magazin

Von

Andreas Rau
Frank Renner

Während die ersten drei Standards der Motion Picture Experts Group (MPEG1-MPEG3) ein möglichst günstiges Verhältnis zwischen Audio-/Videokompression und der Bildqualität beim Abspielen anstrebten, bietet MPEG4 nun endgültig den holistischen Ansatz, alles mit allem verknüpfen zu wollen. Die einstmals überschaubare Welt von MPEG-Karten, Softwaredecodern und CD-ROM-basierten Anwendungen wird sich dabei in ein Parallel-Universum auflösen.

Das beim letzten Meeting vom 12. bis 16. Oktober in Atlantic City von den MPEG4-Detektiven zum ‘Final Draft International Standard’ erkorene Werk bringt als Neuerungen Interaktivität, Objektsegmentierung, parallele Datenströme, Integration natürlicher und synthetischer Daten, mehr Effizienz bei niedrigen Datenströmen und inhaltsbasierte Zugriffs- und Skalierungsmöglichkeiten. Es dürfte die Multimediawelt bei Vorliegen geeigneter Hard- und Softwareimplementierungen zumindest gehörig in Schwung bringen.

Was audiovisuell bisher geschah

MPEG1 ist seit 1993 verabschiedet und wurde seit 1988 im wesentlichen mit dem Ziel entwickelt, Audio- und Videodaten auf CD-ROMs speichern und ruckelfrei wieder abspielen zu können. Dieses Ziel wurde zunächst durch Hardwareimplementierungen (MPEG-Karten) erreicht. Im Handel ist derzeit eine Fülle von MPEG-CD-ROMs erhältlich, die bis zu 70 Minuten Audio/Video in erstaunlicher Qualität bieten. Darüber hinaus ist man heute nicht mehr von Zusatzhardware abhängig, da bereits handelsübliche Prozessoren und Rechnerkonfigurationen in der Lage sind, MPEG1-Videos per Softwaredekodierung in der gleichen Qualität abzuspielen wie frühere Hardwarelösungen (zum Beispiel Macintosh G3 mit 300 Mhz und QuickTime 3.0 Softwaredecoder).

Die Funktionsweise von MPEG1 ist ebenso genial wie einfach: da in den schnell aufeinanderfolgenden Videobildern (30 Bilder pro Sekunde bei NTSC-Video) nur sehr geringfügige Änderungen von einem Bild zum nächsten auftreten und viele Bildinhalte praktisch gleich bleiben, kann diese Redundanz mit Hilfe von einfachen Algorithmen eliminiert werden. Hierdurch sinkt der Speicherbedarf und damit auch der Rechenaufwand für die Wiedergabe der Bilder. Da aber auch die Qualität von Bild zu Bild nachläßt, wird nach einem variablen Zeitraum oder nach einer entsprechenden Anzahl von Bildern wieder ein Originalbild eingespielt, von dem aus dann wie oben skizziert weitergerechnet werden kann. Zusätzliche Kompression und schnellere Datenströme werden durch ergänzende Methoden der Signalverarbeitung (DCT, ‘Diskrete Kosinustransformation’) erreicht, die auf Matrizen von nebeneinanderliegenden Bildpunkten angewendet werden.

Bessere Qualität mit MPEG2

MPEG2 sollte auf dieser Funktionsweise aufbauen und einen Standard für Fernsehübertragungen schaffen, also bei hohen Datenübertragungsraten von bis zu 15 Mbit/s (gegenüber den 1,5 Mbit/s bei CD-ROM-Anwendungen) arbeiten. Durch eine Modifikation der Signalverarbeitungsalgorithmen bietet MPEG2 gegenüber MPEG1 eine verbesserte Bildqualität, und es stellte sich schnell heraus, daß dieser Standard auch auf die langsameren Datenraten angewendet werden kann. So sprach vieles dafür, fortan MPEG2 für Implementierungen zu verwenden.

Für Anwendungen unter HDTV wurde als nächstes MPEG3 diskutiert, wobei man festgestellt hat, daß MPEG2 sie bereits abdeckt. MPEG3 ist daher heute fast ohne Bedeutung, während fast alle MPEG-Anwendungen mit Datenübertragungsraten zwischen 1,5 und 15 Mbit/s auf MPEG2 beruhen.

Die ersten drei MPEG-Standards waren also auf eindeutige Anwendungen festgelegt. In der Zwischenzeit entwickelten sich aber nicht zuletzt durch die gesteigerte Performance der Geräte neben Audio- und Videoverarbeitung innovative Anwendungsgebiete, die ein neuer MPEG4-Standard zu integrieren in der Lage sein müßte:

‘künstliche’ Animationen (2D-Modelle, 3D-Modelle, Sprites, …)
Online-Publikation im WWW
Interaktive Multimedia-Anwendungen
Telekommunikation (Bildtelefonie, …)

Vor diesem Hintergrund wurde der kürzlich verabschiedete MPEG4-Standard entwickelt.

Bei der Gründung der MPEG4-Gruppe wurden 1993 zunächst unter Berücksichtigung der geringen Bandbreiten im Internet Ziele definiert, die gute Videoqualität auch bei 64 Kbit/s ermöglichen sollten. Nicht zuletzt aufgrund der ersten technischen Realisierungsvorschläge konnten diese Ziele bald dahingehend modifiziert werden, daß sowohl höhere Datenübertragungsraten als auch Anwenderinteraktionen unterstützt werden konnten. Dies haben die vorgeschlagenen Algorithmen ermöglicht, die in der Lage sind, einzelne bewegte Objekte aus dem Gesamtbild zu separieren und auf mehreren Kanälen separat zu speichern und wiederzugeben.

Rechenintensive Algorithmen

Der Tennisspieler ist als Objekt separierbar und steht so benutzerspezifischen Manipulationen zur Verfügung (Abb. 1).

(Bild: MPEG)

Diese beiden voneinander abhängigen Punkte sind die wichtigste Neuerung von MPEG4. Im Gegensatz zu den vorherigen Standards, bei denen nur auf Änderungen der Bildmatrix gerechnet wurde, fallen dabei rechenintensive Algorithmen an, bei denen die Objekte lokalisiert, abgetastet und geeignet kodiert werden müssen. Als gutes Beispiel kann dabei ein Tennisspiel dienen: Objekte der Szene sind die beiden Spieler, der Ball und der Hintergrund mit dem Spielfeld, den Zuschauern und dem Horizont. Diese Objekte bewegen sich mit unterschiedlicher Geschwindigkeit. Während beispielsweise der Hintergrund fast stillsteht, agieren die Spieler recht schnell, verändern ihre Position jedoch immer noch langsam im Vergleich zum Spielball.

Anhand dieses Beispiels kann man sich gut vorstellen, daß es zu einer gewaltigen Ersparnis an Speicherplatz und Rechenleistung kommen kann, wenn es gelingt, Spieler und Ball als eigenständige Objekte zu separieren und auf getrennten Kanälen wiederzugeben, da für den Großteil des Bildes, den Hintergrund, kaum Rechenleistung benötigt wird. Ebenso ist dann leicht vorstellbar, die Szene bei unterschiedlichen Datenübertragungsraten in unterschiedlichen Qualitäten anzubieten: während etwa beim digitalen Fernsehen alle Kanäle mit der ‘Höchstgeschwindigkeit’ von 30 fps (Frames pro Sekunde) wiedergegeben werden können, ließen sich auf der üblichen Internet-Bandbreite von 64 Kbit/s zum Beispiel der Hintergrund nur mit langsamen 4 fps, die Spieler mit 10 fps und lediglich der Ball mit vollen 30 fps wiedergeben.

Die Steuerung der einzelnen Kanäle erfolgt über einen Kanal, in dem die einzelnen Objekte mit Zusatzdaten, ähnlich Regieanweisungen, verwaltet werden. Bei der Wiedergabe werden die Objektdaten zusammengefügt, so daß beim Abspielen zunächst kein Unterschied zu einer ‘normalen’ Videosequenz besteht. Zurück zum Beispiel bedeutet dies aber natürlich auch, daß die so separierten Objekte für Interaktionen nutzbar sind. Hier wäre es vorstellbar, die üblichen Spielstatistiken (‘Unforced Errors’, Anzahl der ersten und zweiten Aufschläge, Doppelfehler, …) durch Klick auf einen der Spieler abzurufen.

Da der Anwender mit einem MPEG4-fähigen System letztendlich sogar die einzelnen Objekte innerhalb vorgegebener Grenzen manipulieren, also beispielsweise verschieben, skalieren, abfragen und anordnen kann, wäre es in letzter Konsequenz sogar möglich, das Spielgeschehen zu beeinflussen. Dabei wird das Erscheinungsbild der Szene praktisch am ‘Benutzerende’ modifiziert, was bei einem ‘echten’ Tennisspiel wenig Sinn macht, von Videospieleherstellern jedoch begrüßt werden dürfte.

Manipulation durch den Benutzer

Weiterhin könnte sogar auf der Seite der Serviceanbieter interagiert werden, wenn eine Rückverbindung besteht (Interaktionskanal). Hier wären Onlinedienste aller Art denkbar wie virtuelle Callcenter, Videoconferencing und ähnliche Services. Auch für das Authoring ist es interessant, daß sich Inhalte und Informationen auf beliebigen Plattformen dekodieren lassen, vorausgesetzt, es stehen geeignete Tools zur Verfügung. Als Systemsoftware gibt es hier bereits unzählige Tools, von VRML bis Java, die MPEG4 integriert. Die Objektbeschreibung basiert übrigens hauptsächlich auf Apples Quicktime 3.0, was das Rendering diverser Media-Objects für die Bildschirmausgabe betrifft.

Für die Objektsegmentierung wurden verschiedene Algorithmen und Lösungsvorschläge diskutiert. Zum einen die der Arbeitsgruppe um Murat Telkap, University of Rochester, der die zu verfolgenden Objekte mit einem Polygonnetz belegt, das auf Bildveränderungen reagiert und aufgrund seiner sehr geringen Datengröße sogar den Transport über herkömmliche Telefonleitungen realisieren könnte. Zum anderen die der Arbeitsgruppe des Berliner Heinrich-Hertz-Institutes um Thomas Sikora, den Leiter der Videogruppe der MPEG. Er hat ein Verfahren entwickelt, das sich beliebigen Formen von Objekten anpaßt und Szenen mit 20 bis 30 kbit/s in guter Videoqualität zuläßt. Der ‘Final Draft’ des Standards integriert beide Lösungsansätze.

Hardwaredecoder noch erforderlich

Wie bei der Verabschiedung der ‘alten’ MPEG-Standards dürfte auch heute eine reine Softwaredekodierung der MPEG4-Algorithmen die derzeitigen Rechnerleistungen überfordern, so daß ein geeigneter Kompromiß zwischen Soft- und Hardwarelösungen gefunden werden muß. Mit diesen Fragen beschäftigt sich die Arbeitsgruppe ‘Videosignalverarbeitung’ der TU München, von deren Homepage aus sich ein guter Einstieg in die wissenschaftliche Diskussion um MPEG4 herstellen läßt (viele Forschungsarbeiten, sehr gute Literaturverweise).

Die Scene Description Language aus MPEG4-Part 1 organisiert den Aufbau einer Szene hierarchisch (Abb. 2).

Der Aufbau des MPEG4-Standards ist symptomatisch für amerikanischen Definitionsbürokratismus und ähnelt dem von MPEG1. Er besteht aus sechs Teilen (Parts, manchmal auch Layers genannt), von denen der sechste Teil bei den ‘alten’ Standards fehlt. Dieser Teil beschreibt das DMIF (Delivery Multimedia Integration Framework) mit ‘neuen’ Features wie die Objektsegmentierung. Es ist für Einzelpersonen unüberschaubar und richtet sich an die Giganten der Softwarebranche, die ihn ja auch, neben wissenschaftlichen Mitarbeitern, entwickelt haben und letztendlich auch davon profitieren werden.

Die Homepage der MPEG bietet einen ‘Overview’ an, der die wesentlichen Aspekte beschreibt und - Nomen est Omen - einen gewissen Überblick schafft. Sehr umfassende Information erhält man, wenn man zum Beispiel den nebenstehenden Quellenangaben und den vielen dort angegebenen Literaturangaben und Links folgt.

Die erste im Internet gefundene MPEG4-Datei war bezeichnenderweise ein Amateurvideo (Abb. 5).

Gesondert sollte in diesem Zusammenhang übrigens MP3 erwähnt werden, denn dieser Audiostandard führt mittlerweile abseits vom MPEG-Geschehen ein sehr populäres Eigenleben. Es handelt sich hierbei um Part 3 des MPEG1-Standards, auch Layer 3 genannt, der in Ergänzung zur Videokompression die Speicherung von Audiodaten auf kleinstem Raum behandelt. Da die verwendeten Algorithmen die subjektive Wahrnehmung berücksichtigen, können Kompressionsraten von 10 : 1 bis 15 : 1 erreicht werden, ohne individuelle Qualitätsverluste. Die Fangemeinde ist derart groß, daß eine Vielzahl von Tools zur MP3-Wiedergabe und -Bearbeitung als Freeware im Internet verfügbar sind und sich zahllose Homepages damit befassen.

Der Movieplayer von Apples Quicktime 3.0 erkennt MPEG4-Dateien, will sie aber nicht abspielen (Abb. 4).

Obwohl der Standard gerade erst verabschiedet wurde, finden sich im Internet überraschenderweise bereits einige Dateien im ‘MPEG4’-Format. Besonders überraschend ist, daß gerade nicht-professionelle Anwender hierzu Beiträge leisten (siehe das ‘Treppenfest’-Amateurvideo). Nach der Ankündigung der MPEG-Gruppe, daß das Datenformat von Apples QuickTime 3.0 als Basis für das MPEG4-Dateiformat verwendet werden sollte, waren wir persönlich nach unserem Artikel über QuickTime 3.0 natürlich besonders gespannt auf diesen Aspekt.

Nach Installation des Netshow Players taucht ein weiteres Codec in der Multimediasteuerung auf (Abb. 3).

Versucht man, eine der heruntergeladenen MPEG4-Dateien mit dem QuickTime Movie Player abzuspielen, moniert der, daß ein entsprechendes Codec nicht vorhanden sei. Eine Internet-Recherche mit der Suchmaschine der Firme Apple ergab daraufhin 195 Seiten, auf denen die genannte Pressemitteilung der MPEG4-Gruppe zitiert wird, die jedoch außer Selbstbeweihräucherung leider keinen Hinweis auf ein geeignetes Codec enthält. Windows hingegen machte kaum Schwierigkeiten bei der Wiedergabe; nach Installation von Microsofts Netshow Player konnten sogar MPEG4-Videodateien erstellt werden. Um Verwirrungen vorzubeugen: der Netshow Player ist nicht in der Lage, die MPEG4-Dateien abzuspielen, es geht nur um das Codec, das nach der Installation in bekannter Weise dem System zur Verfügung steht und die Kodierung und Komprimierungsmethode bestimmt. Erste Versuche mit Adobe Premiere zeigten zwar extreme Kompressionsraten, lieferten aber keine revolutionären Ergebnisse. Hier müssen noch einige Ecken und Kanten beseitigt werden, was in naher Zukunft sicherlich auch geschehen wird.

Metadaten für Multimedia

Bei den Beispieldateien handelt es sich um ‘ganz normale’ Videos ohne erkennbaren Unterschied zu MPEG1/2-Videos. Wer hier die neuen Features erwartet, wird leider enttäuscht. Diese waren außer in theoretischen Skizzen bis zum Redaktionsschluß nicht als Praxisbeispiele aufzutreiben.

Im Jahr 2000 soll der bereits in Bearbeitung befindliche MPEG7-Standard fertiggestellt werden. Dabei handelt es sich um ein ‘Multimedia Content Description Interface’, das ähnlich den textbasierten Suchmaschinen des WWW nun die Beschreibungsmöglichkeiten zur extensiven Datenbankabfrage und -eingabe für audiovisuelle Inhalte bereitstellen soll. Die Grundidee ist, daß nach heutigem Entwicklungsstand Audio- oder Videoquellen weltweit auf Servern und Datenbanken verteilt sind, mit teilweise erheblicher Redundanz, ohne echte Verfügbarkeit der Informationen. Wer schon einmal versucht hat, eine Audiodatei über AltaVista zu finden, nur mit Hilfe von Textattributen, kennt das Problem.

Die Zukunft heißt MPEG7

MPEG7 soll da Abhilfe schaffen. Es wird darüber nachgedacht, die Informationen direkt mit den Multimediaobjekten zu assoziieren, um schneller und effizienter Suchergebnisse zu erzielen. Am 9. April 97 trafen sich erstmals 250 Experten aus aller Welt in Bristol, um Erfahrungen und Projekte zu diskutieren, die die Entwicklung von MPEG7 vorantreiben. Man darf also auf erste integrative Schritte in naher Zukunft gespannt sein. Freuen wir uns schon jetzt darauf, mit unserem Mobiltelefon während eines Gesprächs die Kinderfotos unseres Gesprächspartners im Display einzublenden.

ANDREAS RAU
ist Inhaber einer Agentur, die unter anderem Multimedia-Anwendungen entwirft und realisiert.

FRANK RENNER
ist freiberuflicher Informatikberater in den Bereichen Macintosh, Windows, Datenbanken und Medizininformatik.

Literatur

[1] Andreas Rau, Frank Renner; Salz in der Suppe; Apples Quicktime 3.0; iX 7/98, S. 46 ff.

iX-TRACT

Nach MPEG1 und 2 hat die Motion Picture Experts Group MPEG4 als neuen Standard für audiovisuelle Daten verabschiedet.
MPEG4 beinhaltet vor allem zwei Neuerungen: Multiplexing und Demultiplexing unterschiedlicher Mediaobjekte in einem gemeinsamen Datenstrom und Interaktionsmöglichkeiten für den Anwender.
Bereits in Arbeit befindet sich MPEG7, das für einen effizienten Informationsabruf Multimediaobjekte mit Metadaten verknüpfen soll.

Mögliche Anwendungsgebiete

Konferenzen mit realen Gesprächspartnern im virtuellen Tagungsraum via ISDN
mobiles Bildtelefon mit Sprache, Bilddaten und Informationsaustausch bei geringer Bandbreite
interaktives Homeshopping im virtuellen Warenhaus über Kabel oder Satellit; der Kunde kann das Interieur des Shops am Bildschirm verändern
drahtlose Fernüberwachung mobiler Kameras oder Alarmsysteme über Internet-Server
Telearbeit, Tele-Teaching und Tele-Learning mit Online-Bildunterstützung, auch für Callcenter und ähnliche Dienstleister
Videospiele mit Spielfilmcharakter, die auch nicht-lineare Spielentwicklungen zulassen
Bildanimation und Visualisierung für Produktpräsentationen und Architektur
Internet-Anwendungen und Präsentationen von größerer Komplexität mit ähnlichen Features, die bisher nur direkt von der CD möglich sind
digitales Fernsehen mit Videorecorderfunktion: Film kurz anhalten, eine Stelle wiederholen et cetera
digitales Fernsehen mit Pay-per-view-Staffelung: der Kunde bestimmt den Preis über die Anzahl der Werbeunterbrechungen

Quellen

Arbeitsgruppe ‘Videosignalverarbeitung’ der TU München
Startpunkt für wissenschaftliche Auseinandersetzung mit MPEG4, viele Aktivitäten, Links und Literaturhinweise
Die MPEG-Homepage
Offizielle Homepage der Motion Picture Experts Group
‘Multimedia Crash Test Area for Dummies’
Verschiedene Videoformate zum Testen der Browser- beziehungsweise Rechnerkonfiguration, unter anderem eine Datei im MPEG4-Format
‘The total distortion of reality…’
Komprimierung eines Videos mit verschiedenen Formaten, darunter MPEG4
Das Treppenfest-Video in MPEG4
Amateur-Video als Einladung zu einer jährlich wiederkehrenden Feier
Microsoft Netshow (www.microsoft.com/ntserver/nts/mediaserv/default.asp)
Möglichkeit zum Download der Netshow-Software, die ein MPEG4-Codec enthält
Q-Team
Anbieter von MPEG-Lösungen. Viel Wissenswertes über MPEG; insbesondere das Terminology Dictionary und die Meeting History bieten einen guten Überblick
Gabriele Gühring
Seminarvortrag mit MPEG1-Schwerpunkt

(ka)

nach oben

Alle Angebote

Newsletter heise-Bot

${intro} ${title}