Erste Schritte zur Einführung von UX-Metriken

Kim Qazi

30. April 2023

ux metrics illustration

Ich freue mich, dass ich heute meinen allerersten Blogbeitrag mit euch teilen darf. Wie sind wir hier gelandet?

Ich habe vor kurzem bei Centigrade angefangen und (mit dem Risiko, dass das hier nach einem Werbeartikel klingt) ich kann wirklich sagen, dass es eine großartige Erfahrung war. Wir Mitarbeiter werden nicht nur wie “ Human Resources“ behandelt, sondern wie echte Menschen. Man hat mir Selbständigkeit, Verantwortung und vor allem Vertrauen geschenkt. Ich muss sagen, das ist wirklich ein tolles Gefühl! Anstatt mich als neue Mitarbeiterin mit einer Million Projekten zu überhäufen, wurde ich in ein einziges eingearbeitet, und hatte die Möglichkeit, ein Thema meiner Wahl zu recherchieren und diesen Blogbeitrag darüber zu schreiben. UX-Metriken haben mich schon immer interessiert, vor allem die Frage, wie man sie mit geringem Aufwand integrieren kann, um mehr Stakeholder zum Mitmachen zu bewegen, daher fiel mir die Wahl relativ leicht. Also, los geht’s!

Was sind UX-Metriken und warum braucht man sie?

Fangen wir mit einer Definition an. Mir gefällt diese hier:

„UX-Metriken sind eine Reihe quantitativer Daten, die verwendet werden, um das Benutzererlebnis zu messen, zu vergleichen und das Nutzererlebnis im Laufe der Zeit zu verbessern.“ [1]

Was für mich hier heraussticht, ist der Teil „im Laufe der Zeit“. Das heißt, der allererste Schritt ist eigentlich, in eine kontinuierliche Nutzerforschung zu investieren, sowohl manuell als auch automatisiert, um wirklich brauchbare Daten zu bekommen. Das wäre also der erste wichtige Schritt. Aber keine Angst, wir schauen uns auch an, wie wir mit minimalem Aufwand und ohne bereits etablierte kontinuierliche Nutzerforschung, UX Metriken etablieren können. Schauen wir uns weiter an, warum ich denke, dass UX Metriken ein wichtiges Werkzeug für jeden UX Experten sind.

1. Qualitativ vs. Quantitativ

Qualitative Nutzerforschung ist großartig, um unsere Nutzer besser zu verstehen, Ideen zu generieren, Problembereiche zu navigieren und Lösungen zu erstellen. Kurz gesagt, qualitative Daten beantworten die Frage nach dem Warum? Aber wie können wir messen, wie gravierend ein von uns entdecktes Usability-Problem wirklich ist? Ist es uns gelungen, unser digitales Produkt im Laufe der Zeit zu verbessern? Wie wählen wir den besten aus unterschiedlichen Lösungsansätzen aus? Hier kommen quantitative Daten ins Spiel, die die Fragen „Wie viele?“, „Wie oft?“ und „Wie viel?“ beantworten.

2. Buy-in

Du hast also User Research studiert oder arbeitest mit engagierten User Researchern zusammen, die einige Jahre Erfahrung gesammelt haben, sich der kognitiver Verzerrungen bewusst sind und wissen, wie man sie vermeidet (siehe den Artikel meiner Kollegin). Du hast wissenschaftlich solide Studien durchgeführt und dann gemeinsam fundierte Ergebnisse und Lösungen erarbeitet, sie ansprechend zusammengefasst und dein Storytelling perfektioniert, so dass du deine Erkenntnisse interaktiv und überzeugend präsentieren kannst. Dennoch bekommt das Konzept keine Zustimmung bei den Stakeholdern? Da bist du nicht allein! Es kann wirklich schwierig sein, die Zustimmung der Stakeholder allein auf der Grundlage qualitativer Ergebnisse zu erhalten. Sobald wir jedoch die Probleme der Nutzer quantifizieren und damit die Frage „Wie viele?“ beantworten können, sprechen wir die Sprache der Stakeholder. Für mich, sind Metriken die Übersetzung der Nutzerforschung in greifbare, vergleichbare Zahlen und dadurch visualisierbar in Diagrammen und Grafiken. Und wer kann schon der Überzeugungskraft eines gut gelungenen Diagramms widerstehen? Als UX-Experten denken wir immer an unser Publikum, warum also nicht auch im Falle unserer Stakeholder?

3. Pearsons Law

Karl Pearson war ein Wissenschaftler der Statistik, der für seine Erkenntnisse weltweit bekannt ist. Das Pearsonsche Gesetz besagt:

„Wenn Leistungen gemessen werden, verbessert sich die Leistung. Wenn die Leistung gemessen und die Ergebnisse berichtet werden, steigt das Niveau der Verbesserung noch schneller.“

Mit anderen Worten: Die Messung der Nutzererfahrung führt nicht nur dazu, dass die Stakeholder mitziehen, sondern auch dazu, dass die Nutzererfahrung tatsächlich verbessert wird. Wenn du die Stakeholder in deine Metriken mit einbeziehst und ihnen über die Trends der Metrik im Laufe der Zeit Bericht erstattest, wird sich die User Experience noch stärker verbessern. Da die Verbesserung des Nutzererlebnisses das ultimative Ziel eines jeden User-Experience-Experten ist, gibt es für mich keinen besseren Grund, so bald wie möglich mit dem Einsatz von UX-Kennzahlen zu beginnen.

Betrachten wir also, welche Metriken es gibt und wie man am besten mit dem Einsatz von Metriken in Projekten beginnt.

Welche UX-Metriken gibt es?

Es gibt zahlreiche unterschiedliche Metriken, auf die ich in diesem Blogbeitrag nicht alle einzeln eingehen werde. Stattdessen werde ich die – meiner Meinung nach – am einfachsten zu erfassenden Metriken vorstellen, mit denen man leicht loslegen kann. Solche Metriken, die keine komplizierten Formeln verwenden, wenig Programmierung oder spezielle Technik erfordern. Wenn du bereits User Research betreibst, vor allem kontinuierlich, sollten die von mir identifizierten Metriken nicht allzu schwierig in deine Arbeitsabläufe zu integrieren sein.

Metriken können im Allgemeinen nach ihren verschiedenen Messzielen gruppiert werden. Es gibt unterschiedliche Namenskonventionen, die von verschiedenen Frameworks und Experten verwendet werden, und sie können manchmal etwas unterschiedlich gruppiert werden, aber mir gefällt diese Zusammenfassung der UX-Messziele: Performanz, Präferenz, Perzeption [2].

Performanz-Metriken: werden eingesetzt, um zu messen, wie gut der Nutzer seine Ziele erreichen kann
Präferenz-Metriken messen, was der Nutzer bevorzugt oder mag
Perzeptions-Metriken messen, was der Nutzer denkt.

Um ein besseres und präziseres Verständnis der Nutzererfahrung für dein Produkt zu bekommen, ist es immer eine gute Idee, eine Mischung von Metriken aus diesen drei Kategorien zu wählen.

Wie immer in der User Research müssen wir kognitive Verzerrungen berücksichtigen und zwischen Metriken unterscheiden, die messen, was der User sagt („attitudinal“) und was der User tatsächlich tut („behavioral“). Es ist immer am besten, eine Mischung aus „attitudinal“ und „behaviroal“ Metriken zu wählen, um akkuratere Resultate zu erhalten.

Es folgt eine Liste der einfachsten Metriken für den Einstieg. Ich habe sie nach ihren Messzielen (Performance, Präferenz, Perzeption) gruppiert und in „attitudinal“ und „behaviroal“ Metriken unterteilt, damit die Auswahl leichter fällt und du dir dein eigenes Metrik-Framework zusammenstellen kannst, mit dem du die User Experience deines Projekts möglichst genau messen kannst.

Performanz

„Behavioral“ Metriken: Task success rate, Task completion time, Task error rate

Diese Messungen sind einfach errechnete Durchschnittswerte der Erfolgsrate, der Bearbeitungszeit oder der Fehlerrate für alle Nutzer. Wenn du keine kontinuierliche Nutzerforschung betreibst oder die Stakeholder den Wert von Nutzertests (noch) nicht verstehen, ist es häufig sinnvoller, die Fehlerrate zu messen, da alle Nutzererfahrungen zu Fehlermeldungen führen und einfache Code-Hooks eingesetzt werden können, um diese zu zählen. Denk daran, deine Fehlerspanne im Auge zu behalten (die mit einem einfachen Online-Rechner berechnet werden kann).

„Attitudinal“ Metriken: SEQ oder SUS (Erwartung/Pre-Task und Erfahrung/Post-Task)

SUS steht für System Usability Scale und ist eine gängige Methode zur Messung der Nutzerwahrnehmung. SEQ ist eine sehr vereinfachte Version der SUS, so dass sie für den Anfang die nächstliegende sein könnte. Hier ist ein Beispiel dafür, wie wir die SEQ in einem Metaverse-Forschungsprojekt eingesetzt haben. Der Trick, um diese Wahrnehmungsmessung in eine Performanzmessung zu verwandeln, besteht darin, sie zweimal zu erfragen. Wenn wir den Nutzer bitten, die Umfrage vor der Erledigung einer Aufgabe und danach erneut auszufüllen, kann sie als Performanzmessung verwendet werden. Wenn wir diese Umfrage für mehr als eine Aufgabe ausfüllen und die Daten der verschiedenen Aufgaben in ein Diagramm eingeben, kann sie sogar eine visuelle Darstellung der zu priorisierenden Themen liefern. Ein Beispiel dafür finden wir unten.

Average Expecation vs Average Rating Diagram

Albert, William & Dixon, E. (2003). Is this what you expected? The use of expectation measures in usability testing

Präferenz

„Behaviroal“ & „Attitudinal“ Metriken: Prototypen, A/B-Tests oder multivariate Tests

Beim Testen der Nutzerpräferenzen müssen wir an den Return on Investment (ROI) denken. Am Anfang der Produktreise gibt es viele offene Fragen, und wir können nicht einfach mit einem A/B-Test von zwei Varianten des Button-Placements beginnen. Das würde bedeuten, dass wir von der Annahme ausgehen, dass die Journey zu diesem Button das ist, was der Nutzer bevorzugt. Daher ist es üblich, mit einem Prototyp-Test zu beginnen und sich dann zu einem A/B-Test zur Detailverbesserung vorzuarbeiten. Das folgende Diagramm bietet eine schöne Veranschaulichung, welche Art von Benutzertest in welcher Phase des Projekts angemessen ist, um die Risiken von Annahmen und Ungewissheiten zu reduzieren.

The Fountain Institute: Getting started in User testing and experimentation as Designers Guide (thefountaininstitute.com/blog/getting-started-in-testing-and-experimentation-a-designers-guide)

Auch wenn die obige Grafik den Stakeholdern präsentiert wurde und sie aufgrund eines mangelnden Verständnisses für UX nicht für Benutzertests zu begeistern sind, kann dies vielleicht helfen, die Stakeholder zu überzeugen:

Statistisch gesehen kann man 85% der Usability-Probleme mit nur fünf Nutzern [3] (oder, je nach Komplexität des Projekts, fünf Nutzern pro Persona. Mehr dazu kannst du hier nachlesen) feststellen, so dass ein einfacher Prototypentest gar nicht so viel Zeit und Mühe kostet, wie deine Stakeholder vielleicht denken. Halten dem Team immer wieder vor Augen: Ein frühzeitiges Testen ist billiger, als ein Produkt auf der Grundlage von möglicher Weise falschen Annahmen zu entwickeln und erst dann festzustellen, dass es die Probleme der Nutzer nicht löst.

Perception

„Behavioral“: Fingerklopfen während der Erledigung einer Aufgabe

Heutzutage gibt es viele Anwendungen, die die Beobachtung des Nutzerverhaltens erleichtern, auch ohne komplizierte Geräte. Ich finde allerdings dieses sehr einfache Methode zur Messung der kognitiven Belastung, die ein Benutzer bei der Erledigung einer Aufgabe erfährt, sehr effizient:

Bitten den Nutzer, während der Erledigung einer Aufgabe wiederholt und recht schnell mit dem Finger zu klopfen. Wenn die kognitive Belastung zunimmt, verlangsamt sich die Frequenz des Fingertippens oder hört sogar kurzzeitig auf, während sich der Benutzer voll und ganz auf seine Aufgabe konzentrieren muss.

„Attitudinal“: SEQ oder SUS (evtl im Vergleich mit Konkurrenten)

Die Umfragen SEQ und SUS habe ich bereits weiter oben erwähnt. Es handelt sich dabei um eine großartige Methode, für die es bereits generelle Leitlinien gibt, wie die Ergebnisse zu interpretieren sind:

Hadi Althas 2018: How to Measure Product Usability with the System Usability Scale (SUS) Score (uxplanet.org/how-to-measure-product-usability-with-the-system-usability-scale-sus-score)

Diese Kategorien sind für alle Stakeholder sehr leicht zu verstehen, und deshalb können wir mit ihnen äußerst aussagekräftige Diagramme erstellen.

Und das waren schon alle Metriken. Es sind wirklich nicht viele und diese sind doch relativ einfach zu etablieren.

Wenn du ein Pragmatiker bist, so wie ich, dann fragst du dich jetzt wahrscheinlich: Okay, aber wie könnte ich nun wirklich damit anfangen? Was ist hier der erste Schritt? Mit welcher Metrik fange ich an?

Wie fange ich nun wirklich an?

Ich wünschte, ich könnte jetzt ein Framework vorstellen, wie z. B. das Google HEART-Framework, das USER-Framework oder irgendein anderes Framework, und dann behaupten, man müsse nur diese Metriken eine nach der anderen implementieren, und schon könne man loslegen! Allerdings ist keines dieser Frameworks für sämtliche Projekte geeignet. Das HEART-Framework von Google beispielsweise verwendet verschiedene Metriken zur Messung von Happiness, Engagement, Adoption, Retention und Task-Erfolg, die für Google oder andere B2C-Produkte gut funktionieren. Jedoch sind Adoptions- und Retention-Metriken für B2B-Produkte oft nicht aussagekräftig.

Jared Spool meint dazu:

„Die Theorie, dass eine große, einheitliche Metrik uns sagen kann, wie gut unsere Produkte und Dienstleistungen sind, ist leider nur ein Traum. Eine solche Metrik gibt es nicht wirklich. Es gibt viele Möglichkeiten, Erfolg zu messen.“

Und ich meine: Man muss sich für jedes Projekt – oder sogar für jeden Anwendungskontext – eigene Metriken zur Erfolgsmessung (und -definition) erarbeiten.

Die Messung von Zielen ist auf verschiedenen Ebenen möglich, wie in der unten stehenden Grafik dargestellt. Wenn wir ein Ziel messen das zu allgemein ist, wird es schwieriger zu erkennen, was wir tun können, um die Metrik (und die User Experience) zu verbessern. Je präziser bzw. je tiefer wir in die Ebenen einsteigen können, desto genauer können wir messen, bewerten und schrittweise optimieren.

Centigrade (Thomas Immich, Britta Karn) 2020: Nutzungsdatenanalyse

Um die möglichen Metriken zu identifizieren, bietet sich der Goals, Signals, Metrics Prozess von Google in Kombination mit unseren Messzielen Performanz, Perception und Präferenz an.

Goals Signals Metrics kombiniert mit Performance Perception Preference

Angenommen, du beginnst ein neues Projekt, hast eine generative User Research durchgeführt und ein oder mehrere Ziele für deine Persona(s) identifiziert, dann hast du bereits den ersten Schritt zur Definition der Metriken für dein Projekt getan. Glückwunsch! Wenn du nun den Goals, Signals, Metrics-Prozess verwendest und mindestens zwei der Metriken Performance, Preference und Perception auswählst, wobei du darauf achtest, eine Mischung aus Behavioral und Attitudinal Measures zu verwenden, kannst du ganz einfach dein eigenes erstes Set an Metriken erstellen, mit dem du loslegen kannst.

Das hört sich etwas kompliziert an, aber sehen wir uns einmal an, wie Goals Signals Metrics funktioniert und wie diese mit den Metriken Performance, Preference und Perception kombiniert werden kann.

Goals Signals Metrics ist sehr simpel: Zunächst legt man die zu messenden Goals fest und identifiziert dann die Signals, die zeigen, dass dieses Ziel erreicht wurde. Andere nennen dies „Objektives“, aber die Kernaussage bleibt dieselbe. Signals können mehrere für dasselbe Ziel sein. Ein Beispiel: In der Abbildung unten habe ich das sehr allgemeine Ziel verwendet, dass der Nutzer seine Aufgaben erledigen kann. Hierfür kann es mehrere Signale geben. Es könnte sein, dass es eine niedrige Fehlerquote gibt, es könnte aber auch sein, dass die Zeit für die Bearbeitung der Aufgabe niedrig ist. Man muss sich also wirklich sicher sein, wann man welche Signale wählt. Man sollte sich immer fragen, welche Signale tatsächlich für das Ziel sprechen, das man zu messen versucht, und ob sie im Kontext der User Journey zutreffen. (z. B. Manchmal ist eine lange Verweilzeit bei einer Aufgabe besser, solange die Aufgabe am Ende abgeschlossen ist. Beispielsweise wenn das Ziel darin besteht, dass der Nutzer das Produkt erkundet). Das bedeutet auch, dass es langfristig und zur genaueren Messung sogar besser ist, ein Ziel mit verschiedenen Signalen zu messen (und um sicherzustellen, dass diese sich in die gleiche Richtung bewegen und unsere Daten korrelieren).

Das bedeutet auch, dass es auf lange Sicht und für eine genauere Messung sogar besser ist, ein Ziel mit verschiedenen Signalen zu messen (und sicherzustellen, dass sie denselben Trend zeigen und unsere Daten aufeinander abgestimmt sind). Kurzfristig oder für den Anfang ist es akzeptabel, unser Ziel mit einem einzigen Signal zu messen, solange wir wirklich sicher sein können, dass dieses Signal tatsächlich aussagt, ob unser Ziel erreicht wird.

Auf dem Board weiter unten habe ich dargestellt, wie die Metriken für einige sehr allgemeine und übergreifende Ziele aussehen könnten. Natürlich sollte man solche allgemein gehaltene Ziele niemals für das eigentliche Produkt verwenden und stattdessen so spezifisch wie möglich sein. Die Wahl der Ziele und der Metriken ist ebenso wichtig wie die Art und Weise, wie sie ermittelt werden.

Performance vs Preference vs Perceptipn Metrics

Buy-in beginnt schon mit der Einführung einer Metrik

Schon bei der Entscheidung, welche Metriken gemessen werden sollen, sollten die Stakeholder mit einbezogen werden, damit nicht nur das UX-Team für die Metrik zuständig ist. Alle sollten sich dessen bewusst sein und einverstanden sein, dass es sich um eine sinnvolle Metrik handelt; denn schon hier beginnt der Einsatz der Metrik zur Verbesserung des Stakeholder-Buy-in. Dies ist vergleichbar mit den Akzeptanzkriterien oder der „Definition der Fertigstellung“ in einem agilen Entwicklungskontext.

Goodhart’s law

Natürlich wäre es keine User-Forschung, wenn es nicht auch Verzerrungen oder Regeln gäbe, die wir im Auge behalten müssen. Genauer gesagt: Goodharts law.

Auf UX-Metriken angewandt bedeutet das Goodharts Gesetz, dass wir, sobald wir eine Metrik zur Messung eines bestimmten Verhaltens eingeführt haben, so sehr mit dem Versuch beschäftigt sind, die Werte zu verbessern, dass wir vergessen, warum wir sie überhaupt gewählt haben und ob sie immer noch das misst, was wir messen wollen. Daher ist es wichtig, die Metriken ständig aus verschiedenen Blickwinkeln zu betrachten, verschiedene Metriken zur Messung eines Ziels zu verwenden und die von uns gewählten Metriken zu hinterfragen, insbesondere im Laufe der Zeit.

Ich hoffe, dass euch mein Blogartikel gefallen hat und dass er euch bei der Anwendung von UX-Metriken in euren Projekten genauso helfen wird, wie mir. Zum guten Schluss möchte ich natürlich noch allen UX-Experten danken, auf deren Ideen und Erkenntnissen ich zurückgreifen konnte, um diesen Artikel zu schreiben. Vielen Dank dafür! Eine detaillierte Liste meiner Quellen befindet sich am Ende des Artikels.

Übrigens: Ich freue mich darauf euch bald wiederzusehen, denn ich werde meine eigenen Vorschläge in meinem aktuellen und in zukünftigen Projekten umsetzen und in einem UX Metrics 2.0 Blogpost darüber berichten!

—

[1] Ratkliff & Kelakar 2020: https://www.userzoom.com/ux-blog/what-ux-metrics-and-kpis-do-the-experts-use-to-measure-experience/

[2] Jeff Humble 2022: https://www.thefountaininstitute.com/free-masterclass-ux-metrics?utm_source=webinar&utm_medium=talk+slide&utm_campaign=DPE+Fall+2022

[3] Jakob Nielsen 2000: https://www.nngroup.com/articles/why-you-only-need-to-test-with-5-users/

The Fountain Institute: Choosing the Right Metrics https://www.youtube.com/watch?v=wBxnuk4sIns

Bill Albert, Tom Tullis 2008: Measuring the User Experience: Collecting, Analyzing, and Presenting UX Metrics

Ben Davison 2019: UX Metrics https://www.youtube.com/watch?v=PU5i-Y1m1l4

Jared Spool 2017: Is Design Metrically Opposed? https://www.youtube.com/watch?v=aMqgTAlpVVc&t=2646s