Blog

Kinect: Revolution der User Interfaces? – Teil 1

Frederic Frieß
Frederic Friess
31. August 2011

Anfang November 2010 veröffentliche Microsoft® die Kinect™. Sie ist eine Erweiterung der Xbox 360™ Spielkonsole, welche im Grundsatz die berührungslose Steuerung von Spielen ermöglichen soll. Schon lange vor ihrer Veröffentlichung wurde ihr das Revolutionieren der Mensch-Maschine-Interaktion nachgesagt. Die Erwartungshaltung gegenüber dieser Technologie war hoch und erinnerte so manchen an das populäre Natural User Interface (NUI) aus Minority Report. Wird diese Zukunftsmusik schon bald Realität?

Die Kinect ermöglicht die Steuerung eines Systems durch Körperbewegungen und Gesten. Es handelt sich hierbei um eine kostengünstige Hardware-Kombination aus Tiefenkamera, RGB-Kamera, 3D-Mikrofon und spezieller Software. Ihr Einsatz beschränkte sich zunächst nur exklusiv auf die Xbox 360. Neben den bereits sehr früh verfügbaren Homebrew -Treibern, steht nun aber seit Juni 2011 auch die Beta Non-Commercial Kinect SDK für Windows zur Verfügung.


Der Kinect-Sensor (Quelle)

An den 8 Millionen verkauften Geräten in den ersten 60 Tagen nach Markteinführung lässt sich ablesen, wie die Kinect in der Gamer-Community einschlug. Einer der beeindruckendsten und ungewöhnlichsten Aspekte moderner Interaktionskonzepte wie Gesten- oder Touchbedienung, ist deren Evolutionsrichtung: In der Vergangenheit wurden neue Technologien zunächst in Geschäftswelt und Wirtschaft (oder auch im militärischen Bereich) etabliert und hielten erst dann Einzug in den privaten Raum. Diese Reihenfolge scheint sich umzukehren.

Wie auch in unserem Artikel „10 Gründe warum „seriöse“ Softwarebranchen hinsichtlich User Experience noch etwas von Computerspielen lernen können“ thematisiert, ist die Spiele-Industrie ein Motor für Innovationen. Warum sollte nicht auch die seriöse Industrie davon profitieren. Dieser Artikel beschäftigt sich speziell mit der Frage, ob die neuartigen Möglichkeiten der Kinect nicht auch im industriellen Kontext einen Mehrwert liefern können.

Die Hard- und Software

In der Regel wird die Kinect über einen speziellen Anschluss mit der Xbox 360 verbunden. Es besteht aber die alternative Möglichkeit, den Sensor über einen mitgelieferten Adapter, an den USB-Port eines Computers anzuschließen. Nach der Installation des SDKs können dann bis zu sechs Personen erkannt werden. Allerdings wird nur von zwei Personen die Skelet-Information rekonstruiert. Hierfür berechnet die Hardware anhand der Tiefeninformationen 20 Punkte pro Person und verfolgt diese auch wenn die Person sich bewegt (sog. „Tracking“). Wie in folgender Abbildung zu sehen ist, entsprechen die Punkte den wichtigsten Gelenken des menschlichen Körpers.


Hauptfenster des „SkeletalViewers“ (Quelle)

Das Datenblatt verrät, dass die Tiefen-Wahrnehmung und somit auch das Skelet-Tracking ab einem Abstand von 1,20 Meter funktioniert. In dieser Entfernung erfasst die Kinect einen knapp 1,30 Meter breiten sensitiven Bereich. Dieser vergrößert sich mit wachsendem Abstand vom Sensor (Bis max. 3,50 Meter, wo er dann 3,80 Meter breit ist). Ein proportionaler Vergleich der Abmessungen im Bezug auf eine Person gibt die folgende Abbildung.


Erfassungsberiech des Tiefen-Sensors (Quelle)

Das beste Tracking-Ergebnis wird durch frontales Stehen vor dem Sensor erzielt. Abgesehen von der Skelet-Struktur liefert der Sensor auch ein 640×480 Pixel großes RGB Bild und ein 320×240 Pixel großes Tiefenbild. Darüber hinaus beherbergt der Sensor ein hochauflösendes 3D-Mikrofon, mit dem beispielsweise Spracherkennung und Geräusch-Lokalisierung realisiert werden können.

UI-Interaktion in Kinect-Spielen

Ziel dieses Beitrages ist es, eine Abschätzung zur industriellen Nutzung der Kinect zu geben. Aus diesem Grund ist es sicherlich hilfreich, aus bereits existierenden NUI-Lösungen der Kinect zu lernen. Ein Artikel von Andrew Webster und ein Beitrag von Jakob Nielsen dienen unter anderem als Grundlage für diesen Abschnitt.

Einer der ersten Entwicklerstudios, das sich mit den Thema Kinect auseinandergesetzt hat, war Harmonix® Music Systems mit dem Spiel DanceCentral™. Die Entwickler sahen sich hierbei mit dem Problem konfrontiert, ein Menü-System zu entwickeln, das Nutzern Spaß macht und das gewöhnliche Gamepad ersetzt. Es sollte intuitiv nutzbar sein und weiterhin eine verständliche Navigation bieten. Bis dato existierten keine soliden Beispiele oder Referenzen für solch ein System. Sie stellten schnell fest, dass es weniger effizient ist, zuerst Arbeit und Zeit in die detaillierte Beschreibung von Konzepten für mögliche Interaktions-Arten oder -Metaphern zu investieren. Der effektivste und direkteste Weg bestand darin, Ideen sehr schnell in kleinen Prototypen zu realisieren und deren Tauglichkeit zu testen. Dieser Denkansatz entspricht exakt der Philosophie von Centigrade und wird im Artikel UI Prototyping begründet. In den folgenden Abschnitten werden aus unterschiedlichsten Kinect-Spielen bekannte Interaktionsarten vorgestellt und klassifiziert.

Desktop in der Luft

Im Kontext der Menüführung und Navigation ist Anwendern die „Point & Click“-Interaktion vertraut. Der Maus-Cursor wird nun mit den Händen des Spielers navigiert. Das Selektieren, also das Click, eines Menü-Punktes stellt sich aber als Problem dar, da durch die Hände nur ein Hover-Event erfasst werden kann, aber kein Click-Event. Um dieses Manko auszugleichen, entwickelten sich verschiedene Bestätigungs-Metaphern.

Clickable-Button

Diese Bestätigung lehnt sich an einen Button aus der realen Welt an. Der Spieler bewegt also seine Hand über einen Menü-Punkt oder zeigt in seine Richtung. Um den Button zu selektieren bewegt er die Hand in seine Richtung, so als ob er ihn drücken würde. Das Fehlen eines echten Druckpunktes („haptisches Feedback“), also das „Drücken“ in der Luft ohne jeglichen Widerstand fühlt sich allerdings sehr unnatürlich an. Darüberhinaus könnte während des Selektierens, die Position des Cursors verändert und somit ein falscher Punkt ausgewählt werden.

Bestätigungs-Button

Nach der primären Selektion eines Menü-Punktes erscheint ein Bestätigungs-Button. Aktiviert der Spieler diesen Button wird die Auswahl verifiziert. Möchte der Spieler nicht bestätigen, bewegt er die Hand einfach vom Menüpunkt weg und der Bestätigungs-Button verschwindet. Diese Art der Bestätigung wird beispielsweise im Spiel „Your Shape“ verwendet.

Countdown

Eine weitere Möglichkeit zur Bestätigung einer Selektion besteht im Einsatz eines Countdowns. Bewegt der Nutzer seine Hand über den Button, erscheint ein sich füllender Kreis, der einen zeitlichen Countdown repräsentiert. Erst nach Ablauf des Countdowns wird die Aktion hinter dem Button ausgelöst. Der Countdown läuft nur so lange der Nutzer seine Hand über dem Button hat. Entfernt sich die Hand schon vor dem Ablaufen des Countdowns wird er abgebrochen. Auf diese Weise wird das versehentliche Aktivieren eines anderen Buttons, aufgrund von fehlerhaften Interpretationen, verhindert.

Magnet-Button

Leider stellt bereits das exakte Treffen der Menü-Punkte für manche Nutzer ein Problem dar. Um Ungenauigkeiten ausgleichen zu können, wurde der magnetische Button entwickelt. Sobald die Hand des Users in die Nähe eines Buttons gelangt, wird der Cursor von ihm angezogen und erleichtert das Zielen.

Bestätigung durch Gesten

Um die Bestätigung von Selektionen nicht innerhalb von GUI’s, unter Zuhilfenahme von speziellen Buttons abbilden zu müssen, kommen oft auch kleinere Gesten zum Einsatz. Beispielsweise findet man die Metapher des „Heranziehens eines Buttons“. Sobald die Hand auf dem entsprechendem Button liegt, zieht der Spieler seinen ausgestreckten Arm in Richtung seines Körpers. Mit dieser Geste bestätigt er die Auswahl. Ähnlich dazu kann zur Bestätigung auch die Hand des ausgestreckten Arms in eine bestimmte Richtung winken, wie es im Spiel Dance Central der Fall ist.

Gesten

Einer der populärsten Gesten für die Kinect ist die Swipe-Geste. Sie wird u.a. verwendet um in einer Auswahl verschiedener aufeinanderfolgender Screens zu navigieren. Sie imitiert das Wegwischen eines Screens durch eine Armbewegung, so dass der nächste Screen ins Bild geschoben wird. Diese Geste findet sich im kleineren Format auch bei Smartphones wieder – natürlich im Touchumfeld und daher mit Fingern durchgeführt. Allerdings birgt das horizontale Wischen mit dem Arm Probleme. Die Entwickler von Harmonix mussten feststellen, dass jeder User seine eigene Art hat mit der Hand zu wischen. Dem System ein großes Spektrum dieser speziellen Bewegung beizubringen, stellte sich als aufwändig dar und eine einhundert prozentige Sicherheit, dass alle erdenklichen Ausprägungen dieser Geste abgedeckt sind, kann dennoch nie gegeben werden. Daher entscheidet man sich, den Nutzer und nicht das Systems zu trainieren. Ob dieser Ansatz dem „User Centered Design“ entspricht ist wiederum fraglich, da der Nutzer trainiert wird und nicht das System um den Nutzer herum gestaltet wird. Im Rahmen eines User-Centered-Design Prozesses ist es allerdings legitim festzustellen, dass es bezogen auf bestimmte Aspekte zu viele Freiheitsgrade gibt, so dass man keine einheitliche Lösung liefern kann und somit doch dem Nutzer in einem gewissen Grad trainieren muss.
Ein ebenfalls interessanter Ansatz zur Navigation/Interaktion sind „Real World Metaphors“. Hierbei werden Funktion und Bedienung von Gegenständen in die Anwendung portiert. Ein solcher Ansatz, der leider an die technischen Grenzen des Systems stieß, war die Rad-Geste, welche von Harmonix erdacht wurde. Hier sollte ein Rad, wie es aus der Fernsehsendung „Der Preis ist heiß“ bekannt ist, imitiert werden. Problem bei dieser Geste war, dass die Skelet-Auflösung der Kinect leider nicht hoch genug ist, um das Loslassen des Rades zu erkennen. Dadurch kann nicht die, für die Bewegung des Rades benötigte, Beschleunigung berechnet werden.
Was allerdings durch dieses Beispiel hervorgeht ist, dass das Nachahmen des Umganges mit realen Gegenständen zur Entwicklung sinnvoller Gesten beiträgt, wie es auch bei Rennspielen der Fall ist. Hier wird das Lenkrad imitiert. Durch gemimte Lenkbewegungen der Fäuste steuert der Spieler ein Vehikel. Über Hüftbewegungen driftet dieses und ein Stoß der Fäuste nach vorn löst einen „Boost“ aus. Leider fehlt trotz der funktionierenden Steuerung die Haptik und das physische Feedback des Vehikels komplett, was im Endeffekt als unnatürlich und störend aufgefasst wird. Trotzdem zeigt diese Geste, dass im Gegensatz zum Menü-System im eigentlichem Spiel (also dem tatsächlichem Spiele-Kontext) die Manipulation von Objekten wieder absolut intuitiv ist. Es wird mit Gegenständen wie Bällen, Sportgeräten, Steuerelementen oder Ähnlichem interagiert, welche sich wie aus der Realität bekannt manipulieren lassen.

Profil Erkennung

Ein weiteres interessantes Feature und das größte Potential der Kinect birgt die Gesichtserkennung. Tritt ein Spieler vor den Sensor wird nicht nur sein Skelet rekonstruiert, sondern auch sein Gesicht erkannt. Die Xbox 360 meldet sich dann automatisch beim Xbox-Live-Profil des Spielers an. Es wird der vom Spieler selbst erstellte Avatar geladen und die Kinect kalibriert sich auf Basis der Account-Daten. Jakob Nielson nennt diese Art der Interaktion „non-command user interface“:

„You don’t feel that you’re issuing commands to a computer; you simply go about your business the way you normally would, and the computer does what’s needed to complete its part of the task.“

Nach diesem Überblick der bisherigen Möglichkeiten zur Realisierung von UI’s für den Kinect-Sensor folgt im Teil 2 dieses Artikels die kritische Hinterfragung des Vorgestellten und eine Einschätzung des Potenzials für den Einsatz von Kinect im industriellen/wirtschftlichen Bereich.


Microsoft, Kinect, Windows und Xbox 360 sind Marken oder eingetragene Marken der Microsoft Corporation in den USA und/oder anderen Ländern.
Harmonix und DanceCentral sind Marken oder eingetragene Marken der Harmonix Music Systems, Inc. in den USA und/oder anderen Ländern.

Möchten Sie mehr zu unseren Leistungen, Produkten oder zu unserem UX-Prozess erfahren?
Wir sind gespannt auf Ihre Anfrage.

Corporate Experience Manager
+49 681 959 3110

Bitte bestätigen Sie vor dem Versand Ihrer Anfrage über die obige Checkbox, dass wir Sie kontaktieren dürfen.