Screenshots des Avatars mit zwei unterschiedlichen Gesten, basierend auf den Bewegungen des Menschen. Bildnachweis: Schreer et al. © 2008 IEEE.

Es ist ein bisschen wie ein Blick in den Spiegel auf Ihr Cartoon-Double, nur dass die „Reflektion“ ein Avatar auf Ihrem Computerbildschirm ist. Winken Sie mit der Hand, nicken Sie mit dem Kopf, sprechen Sie einen Satz, und Ihr Avatar tut dasselbe.

Die Technologie ist bereits in der Zentrale der Deutschen Telekom in Bonn und in den Deutschen Telekom Laboratories in Berlin zu sehen. Besucher können damit experimentieren, Gesten zu machen und zu beobachten, wie Comicfiguren sie in Echtzeit nachahmen.

Die Resonanz in der Öffentlichkeit ist laut den Forschern Oliver Schreer, Peter Eisert und Ralf Tanger vom Fraunhofer Heinrich-Hertz-Institut in Berlin und Roman Englert von den Deutsche Telekom Laboratories und der Ben Gurion-Universität in Beer-Sheva, Israel, sehr positiv. Das Team wird die Ergebnisse seiner Studie zu seiner visionären und sprachgesteuerten Avatar-Technologie in einer kommenden Ausgabe von IEEE Transactions on Multimedia veröffentlichen .

"Der vorgestellte Ansatz ermöglicht eine intuitive, berührungslose Benutzerinteraktion", sagte Schreer gegenüber PhysOrg.com . "Aufgrund der Erkennungsfunktionen kann jede neuartige Schnittstelle für die interaktive Mensch-Computer-Interaktion entwickelt werden."

Das Prototypensystem der Forscher ist mit einem normalen PC kompatibel. Als Hardware werden lediglich eine kostengünstige Webcam und ein Paar Standardkopfhörer benötigt. Die gesamte audiovisuelle Analyse erfolgt in Echtzeit, was eine sofortige Animation des virtuellen Charakters ermöglicht. Zu Beginn würde das Programm keine Schulung oder individuelle Eingabe von Gesten erfordern. Da das System jedoch darauf angewiesen ist, dass die Hautfarbenerkennung den Bewegungen von Händen und Kopf folgt, müssen Benutzer zunächst mit den Händen winken, damit das System die Hautfarbe der Person bestimmen kann. Das Tragen von hautfarbener Kleidung sollte vermieden werden.

Das System kann eine Reihe von 66 Parametern erkennen, die den Gesichtsausdruck definieren, und es enthält auch eine Reihe von Gesichtsausdrücken auf hoher Ebene (wie Freude, Trauer, Überraschung und Ekel). Benutzer können auch Tasten drücken, um diese Ausdrücke manuell zu aktivieren. Das System erkennt auch "Viseme", die die Lippen entsprechend dem gesprochenen Phonem auf der Grundlage der Sprachanalyse bewegen. Ein Satz von 15 Visemen kann alle Phoneme darstellen. Das System erkennt auch einen Satz von 186 Körperbewegungsparametern, die die Gelenkrotation in den Armen und im Oberkörper definieren.
Die Kopfdrehung wird ebenfalls erfasst, um Kopfnicken, Kopfschütteln und Kopfrollen darzustellen.

Durch Erkennen der Fingerpositionen kann das System viele grundlegende Gesten erkennen, darunter auch viele aus dem amerikanischen Gebärdensprachalphabet. Manchmal ahmen die Hände des Avatars die des Benutzers nicht genau nach, da das Hauptziel darin besteht, die Bewegungen des Avatars so glatt und natürlich wie möglich zu gestalten.

In Zukunft planen die Forscher, das System in virtuellen Chatrooms und Online-Call-Center-Anwendungen wie dem technischen Support einzusetzen. In beiden Situationen werden Benutzer durch Avatare dargestellt. Die Avatare werden basierend auf den Bewegungen und der Sprache der Benutzer animiert, während die Privatsphäre der Benutzer gewahrt bleibt. Die Forscher hoffen auch, das Avatar-System in mobile Geräte zu integrieren, wo es neben Touchscreens, einem Stift oder Spracherkennungssystemen als benutzerfreundliche Oberfläche dienen könnte.

"Einige Aspekte wie Gesten, die auf Handerkennung basieren, sind bereits marktreif", sagte Schreer. „Die Analyse und Interpretation von Fingern ist komplizierter und kann ein oder zwei Jahre dauern, um robuste Algorithmen zu erhalten, die unter realen Bedingungen, dh in der realen Umgebung, arbeiten. Erste Anwendungen sind das Scrollen von Menüs in Mobiltelefonen (z. B. SMS-Browsing) und im medizinischen Bereich zur Steuerung von Schnittstellen in Operationssälen. “

Weitere Informationen: Schreer, Oliver; Englert, Roman; Eisert, Peter; und Tanger, Ralf. "Echtzeit-Vision und sprachgesteuerte Avatare für Multimedia-Anwendungen." IEEE-Transaktionen für Multimedia . Wird in einer zukünftigen Ausgabe veröffentlicht.

Copyright 2008 PhysOrg.com.
Alle Rechte vorbehalten. Dieses Material darf ohne die ausdrückliche schriftliche Genehmigung von PhysOrg.com weder ganz noch teilweise veröffentlicht, gesendet, umgeschrieben oder weiterverbreitet werden.