Kinect: Revolution der User Interfaces? – Teil 2

Frederic Friess

30. September 2011

Der erste Teil dieses Artikels gab eine Übersicht über die Konzepte innerhalb der aktuell realisierten User Interfaces für den Kinect™-Sensor sowie einen Einblick in die technischen Spezifikationen und erläuterte die Mensch-Maschine-Interaktion innerhalb von Kinect-Spielen. Der vorliegende Teil 2 hinterfragt nun diese Interaktionsmöglichkeiten und gibt eine Abschätzung für den industriellen Einsatzbereich.

Analyse der bestehenden Möglichkeiten

Wie Teil 1 dieses Artikels zeigte, entwickelten sich im Spiele-Kontext bereits eine Fülle an Navigations- und Interaktions-Möglichkeiten per Kinect-Sensor. Die beschriebenen Metaphern und Gesten ergeben innerhalb des Spiele-Kontextes auch durchaus Sinn. Kinect-Spiele springen nicht von einem Inhalt zum anderen, so wie es in der Geschäftswelt der Fall ist. Wird ein Spiel begonnen, taucht der User für einen längeren Zeitraum in den Kontext ab und sieht nichts von anderen Anwendungen oder Spiele („Immersion“). Da unterschiedliche Spiele oft sehr verschiedene Aktivitäten und Ziele haben, sind die variierenden Kontrollmöglichkeiten zwischen verschiedenen absolut legitim: Autorennen und Tanzen haben kaum etwas miteinander zu tun. Beim Versuch, die im Teil 1 des Artikels erläuterten Interaktionsparadigmen in die Geschäftswelt zu übertragen, treten Probleme auf:

Die Präsentation der Interaktion

Zunächst müssen fast alle Gesten sehr ausschweifend und gut sichtbar ausgeführt werden, um vom Sensor registriert zu werden. Eine solche Art der Interaktion ist auf Dauer anstrengend und aufwändig. Um den Nutzer nicht zu überanstrengen, können solche Gesten also nur vereinzelt zum Einsatz kommen.

Keine Referenzen oder Richtlinien

Kontraproduktiv sind auch die variierenden Herangehensweisen innerhalb der allgemeingültigen Interaktionskonzepte wie etwa Menüführung und Menünavigation. Es gibt bis heute keinen Standard, der eine generische Interaktion oder Navigation innerhalb von Menü-Systemen ermöglicht. Das erschwert die Interaktion, da der User für jede Anwendung (Spiel) die Basisoperation erneut lernen muss.
Die Kinect unterstützt nur eine generische Geste. Diese lässt das Spiel pausieren. Dazu muss der Anwender beide Arme an seinen Hüften positionieren. Dann bewegt sich der linke Arm in einem 45 Grad Winkel zu dem Sensor. Ob diese Geste intuitiv ist, ist fraglich. Abgesehen von dieser Pause-Geste, gibt es keine Richtlinien für weitere Operationen wie „Zurück“, „Löschen“ oder „Texteingabe“. Ryan Challinor, Interface Entwickler von „DanceCentral™“ formulierte einen passenden Vergleich:

„It would be like if your mouse worked differently with every program!“

Bei einem so neuen und innovativen Interaktionssystem stellt sich nun die Frage, warum Microsoft® als Plattform-Besitzer nicht im Voraus die Forschungsarbeit geleistet hat, um gewisse Richtlinien oder einen Styleguide an Kinect-Entwickler weiterzugeben. Eventuell wollte Microsoft diese Forschungsarbeit der Industrie überlassen, um ein vielfältiges Spektrum an Interaktionslösungen zu fördern, damit sich zu einem späteren Zeitpunkt die bewährten Konzepte etablieren.
Nichtdestotrotz können solche User Interface Guidelines dazu beitragen, dass sich verschiedene Entwickler an einen gemeinsamen Standard halten und so die Erlernbarkeit eines Systems erhöhen. Dieses Thema wird auch in dem Artikel User Interface Guidelines für mobile Geräte: Fluch oder Segen? thematisiert.

Technische Einschränkungen

Durch rudimentäres Experimentieren mit dem SDK kamen auch diverse technische Einschränkungen zum Vorschein. Wie schon erwähnt, ist es nicht möglich, die Fingerbewegungen zu verfolgen. Die Kinect bildet eine Hand lediglich durch zwei Punkte ab. Diese ergeben dann nur ein Knochen in der Skelett-Repräsentation des Nutzers. Mit diesen Punkten können weder die Fingerbewegungen, noch die Ausrichtung oder Stellung der Hand erfasst werden. Es kann also nicht festgesellt werden, ob die Hand geschlossen oder geöffnet ist, die Handflächen zum Sensor oder von ihm weg zeigen. Anlass zur Hoffnung ist die Tatsache, dass die Hardware bereits eine Auflösung von 640×480 Pixel des Tiefenbildes liefern kann. Diese wird zur Zeit allerdings wegen technischer Einschränkungen nicht ausgenutzt. Einer der Hauptgründe für die Einschränkung ist, laut Eurogamer das Xbox 360 USB Interface. Es ermöglicht einen Datendurchsatz von 35MB/s. Es werden aber nur ca. 16MB/s genutzt. Die künstliche Begrenzung wurde eingeführt, da mehrere USB-Geräte auf einmal an einer Xbox 360 verwendet werden können müssen.Mit einer höheren Auflösung und der Weiterentwicklung des SDK besteht daher die Möglichkeit, dass in Zukunft auch Finger-Tracking integriert werden könnte.

Die Kinect im industriellen Einsatz?

Als Bilanz des vorherigen Abschnitts lässt sich festhalten, dass es schwierig sein wird, geeignete Anwendungsfelder der Kinect im industriellen Bereich zu finden. Hauptsächlich könnte der Sensor eine Rolle in Anwendungen spielen, bei denen der komplette Körper im Zentrum des Interesses steht. Speziell bei der Entwicklung von barrierefreien Systemen könnte diese Technologie neue Wege ermöglichen.

Seriöse User Interfaces

Betrachten wir das Interaktions-Konzept der Desktopmetapher für die Kinect. Der Maus-Cursor wird also von den Händen und eventuell kleinen Bestätigungs-Gesten gesteuert. Trotz der erläuterten Nachteile der berührungsfreien Interaktion in der Luft könnte die Medizintechnik von diesem Konzept profitieren. Diese Industrie bemüht sich schon seit längerem, berührungslose Interfaces zu realisieren, wie das Projekt Gestix [PDF] des Washington Hospital Center zeigt. Der Kinect-Sensor könnte für dieses Feld einen sehr großen Schritt nach vorne bedeuten.Sie würde eine berührungslose Interaktion mit Computer-Systemen ermöglichen. Der Nutzer lauft somit nicht in Gefahr eine sterile Arbeitsumgebung oder sich selbst zu verunreinigen.
Auch in Berufsfeldern, in denen Schutzkleidung getragen werden muss könnte diese Form der Interaktion Vorteile mitbringen. Müssen beispielsweise Handschuhe ständig an- und ausgezogen werden, um Einstellungen an einer Maschine vorzunehmen, besteht die Gefahr, dass diese irgendwann gar nicht mehr angezogen werden. Ein Interface, das auch mit Handschuhen oder sperriger Kleidung zu bedienen ist, würde hier der Sicherheit entgegenkommen. Allerdings ist darauf zu achten, dass es im Bereich der Touch-Screens allerdings schon Lösungen gibt, die auch mit Handschuhen bedient werden können. Diese Multi-Touch Displays arbeiten mit Hilfe eines Infrarot Rasters, also optischer Touch-Technologie. Siehe z.B. ST2220T von Dell™.

Gesten in der Industrie

Wie zuvor schon angesprochen wurden Probleme in Bezug auf Finger-Tracking festgestellt. Sieht man von den offiziellen SDK ab, gibt es aber auch schon diverse Projekte, die sich um genau dieses Feature bemühen. Ein sehr gelungenes prototypisches Projekt wird von Antonis A. Argyros an der Universität von Kreta entwickelt, welches den Namen Efficient model-based 3D tracking of hand articulations using Kinect trägt. Dieses Projekt beschäftigt sich nicht nur mit der markerlosen Erfassung und Verfolgung der 3D-Position und Orientierung der kompletten menschlichen Hand, sondern auch mit der Erkennung der einzelnen Fingern und ihrer Gelenke.
Wagt man einen Blick in die Zukunft, könnte die zur Zeit eher wenig komfortable Gesten-Unterstützung der Kinect durch entsprechende Middleware verfeinert werden. Gesten könnten in jedem erdenklichen Kontext der Menüführung einen intuitiven Einsatz finden. Metaphern wie „Drag and Drop“ bekämen dann eine noch eindeutigere Bedeutung und im Bezug auf Barrierefreiheit könnte sogar Gebärdensprache als ein solider Gesten-Pool dienen.

Mehrwert durch Skelett-Tracking

Trotz weniger guter Auflösung der Skelet-Rekonstruktion eines erfassten Nutzers könnten die gewonnenen Informationen beispielsweise für ergonomische Anpassungen genutzt werden. Bevor eine Person an eine Maschine tritt,wird ihre Größe abgeschätzt und die Maschine (z.B. Arbeitsplattenhöhe) entsprechend automatisiert angepasst.Eine manuelle Einstellung ist somit nicht mehr nötig. Interessant könnte dieser Ansatz bei Maschinen werden, die laufend von unterschiedlichen Personen genutzt werden.
In einem anderen Kontext könnte die Kinect als Observations-Hilfe dienen. Das Paper Human Activity Detection from RGBD Images beschäftigt sich mit dem Klassifizieren von Bewegungsabläufen anhand der Skelett-Daten. Die Kategorisierung der Bewegung einer observierten Person kann dann wiederum als Informationsquelle für Roboter-Assistenten dienen, um Menschen bei Aufgaben aus dem täglichen Leben zu unterstützen. Dazu zählen Tätigkeiten wie Zähneputzen, Kochen, am Computer Arbeiten oder Telefonieren.
Im Bereich der Gebäudesicherheit könnte anstelle von ganzen Video-Dateien nur die 20 Marker einer erkannten Personen gespeichert werden. Dies würde die Archivierung von Überwachungsdaten entlasten. Ein Manko bei dieser Anwendung wäre jedoch der geringe Erfassungsbereich des Sensors. Die zu observierende Person müsste sich immer in einem etwa 4 Quadratmeter großen Bereich aufhalten und frontal zum Sensor stehen, was wohl selten gegeben ist.
Durchaus könnte auch die Werbeindustrie von dem Skelett-Tracking profitieren. Es ist sogar sehr wahrscheinlich, dass sie die erste Industrie neben der Spiele-Industrie sein wird, die sich den Sensor zu Nutze machen wird. Der Artikel With Xbox’s New In-Game Advertising, Engagement Is the Goal beschreibt das Konzept der NUad‘s, was für „Natural User-Interface Advertisement“ steht. Bei einem passiven Medium wie TV besteht das Szenario, dass der Zuschauer sich zur weiteren Informationsgewinnung anderen Medien widmen muss (Internet). Die Idee hinter NUads besteht nun darin, dem Nutzer eine erweiternde und natürliche Möglichkeit zur Interaktion mit den TV Inhalten zu bieten. Beispielsweise kann durch das Sprachkommando „Xbox near me“ eine Wegbeschreibung zur nächsten Filiale des Werbeträgers auf ein Smartphone geladen werden. Dieses Prinzip soll Werbung zu einem immersiven und interaktiven Erlebnis machen. Abgesehen von der Verwendung am heimischen TV könnte der Sensor auch hinter einem Schaufenster platziert werden, um Personen auf der Straße zu erfassen. Dies ermöglicht es der Zielgruppe, ohne zusätzliche Peripherie, mit Werbeinhalten zu interagieren und der Werbeträger kann gezielt Informationen platzieren. Das Projekt KinectShop – the next-generation of augmented shopping nutzt beispielsweise dieses Setup, um virtuelle Shopping-Touren zu ermöglichen. Solche Anwendungen sind den Casual Games sehr ähnlich, da die Interaktion nie über einen längeren Zeitraum andauert und der Unterhaltung dient.

Automatisierung durch Gesichts-und Sprach-Erkennung

Wie auch schon bei der Xbox 360 in Verwendung, kann die Möglichkeit der Gesichtserkennung einen positiven Einfluss auf die Usability haben. Ein Computersystem könnte nach der Identifizierung einer Person mittels Gesichtserkennung individuelle Profildaten laden. Dieses Szenario würde ebenfalls speziell bei Maschinen Sinn machen, die von vielen unterschiedlichen Personen genutzt werden. In diesem Kontext sollten aber der Aspekte des Datenschutzes kritisch hinterfragt werden.
Ein nicht speziell durch die Kinect hervorgehobenes, aber dennoch erwähnenswertes Feature ist das hochauflösende 3D-Mikrofon. Mit Hilfe dieser Schnittstelle können Sprachkommandos entgegen genommen werden. Dieses Feature könnte insbesondere im Bereich der Barrierefreiheit eine große Rolle spielen.Durch Kombination mit der RGB-Kamera könnte dann beispielsweise auch Video-Telefonie über den Kinect-Sensor ermöglicht werden.

Resümee und Fazit

Dieser Artikel setzte es sich zum Ziel das Thema „Kinect“ von einer seriösen und industriellen Seite zu beleuchten. Er gibt ein Überblick über die bereits existierenden Entwicklungen und hinterfragt diese kritisch. Hierbei wurden technische Einschränkungen des Systems bezüglich des Einsatzes in der Industrie festgestellt. Vor diesem Hintergrund versuchteder Artikel,die Kinect-spezifischen Features in einen geeigneten Anwendungskontext zu setzen. Hierbei scheinen die Gesichts-Erkennung, das 3D-Mikrofon und das rudimentäre Nutzen des Skelet-Tracking die größten Starken des Systems zu sein.
Es bleibt die Hoffnung, dass in Zukunft „Kinderkrankheiten“ behoben und sich ein standardisiertes Menüsystem etabliert. Entwickler könnten sich somit an generische Richtlinien in Bezug auf Menüführung halten und die Nutzer müssten nicht unterschiedliche Interaktions- Konzepte zu deren Bedienung Erlernen. Von technischer Seite ist es wünschenswert, dass die Präzision und Auflösung des Skelett-Trackingserhöht wird.
Alles in allem hat Microsoft den ersten Schritt in Richtung kostengünstiges, leicht zugängliches und markerloses Ganzkörper-Tracking gemacht und bietet mit dieser Hardware eine solide Forschungsgrundlage.Zum jetzigen Zeitpunkt ist die Kinect in erster Linie ein einsteigerfreundliches Casual-Game-System. Es ist weder für Hardcore-Gamer noch für seriöse Anwendungen geeignet und ist primär auf gelegentliche Spielerlebnisse ausgerichtet.
Während der Recherche für diesen Artikel fiel immer wieder auf, dass über das Thema „Kinect“ nicht nur philosophiert und spekuliert werden darf. Ab einem bestimmten Punkt muss auch ausprobiert und getestet werden. Ryan Challinor meint dazu:

„You can’t just talk about it, you have to prototype it. Concepting won’t get you very far!“

Diese Herangehensweise wirkt plausibel und wird auch häufig in unserem Workflow angewandt, wie der Artikel Natural User Interfaces prototypen beschreibt.

Insgesamt erscheint es lohnenswert, weiterhin ein Auge auf diese Technologie zu haben, die sich sicherlich rapide weiterentwickelt und noch manche Innovation ermöglichen wird.

Microsoft, Kinect, Windows und Xbox 360 sind Marken oder eingetragene Marken der Microsoft Corporation in den USA und/oder anderen Ländern.
Harmonix und DanceCentral sind Marken oder eingetragene Marken der Harmonix Music Systems, Inc. in den USA und/oder anderen Ländern.
Dell™ist Marke oder eingetragene Marke der Dell Computer Corporation in den USA und/oder anderen Ländern.

Blog