Blog

Sample Size in Usability Tests und User Interviews – Weniger ist mehr?

Marvin Mader
Marvin Mader
26. Januar 2023

User Research in Form von Usability Tests oder User Interviews sind mittlerweile nicht mehr aus der UX-Welt wegzudenken, gerade wenn es um die Neuentwicklung oder Verbesserung eines Produktes geht. Die Entwickler*innen bekommen Einblicke, was die Nutzer*innen wirklich brauchen und welche möglichen Probleme es mit dem Produkt geben kann. Ein Kernpunkt des Researchs ist dabei die Auswahl der richtigen Stichprobe. Ist die Stichprobe nicht aussagekräftig bzw. repräsentativ für die definierte Nutzergruppe, leidet darunter die Aussagekraft der Erkenntnisse und damit auch die Qualität des Produktes.

Was ist nochmal eine Stichprobe?

Eine Stichprobe ist ein Teil einer Grundgesamtheit. Im UX-Bereich also alle Personen, die einer bestimmten Nutzergruppe angehören und später das Produkt nutzen. Die Grundgesamtheit aller Nutzer*innen eines Produktes setzt sich aus den verschiedenen Nutzergruppen zusammen. Eine Nutzergruppe wird durch eine Persona repräsentiert, also eine*n archetypischen Nutzer*in. Möchte man eine Aussage über eine Persona treffen, ohne jede einzelne Person aus einer Nutzergruppe zu befragen, zieht man eine Stichprobe. Damit die Stichprobe aussagekräftig ist, müssen vor allem zwei Bedingungen erfüllt sein:

  • Die Stichprobe muss groß genug sein, um valide Aus- und Vorhersagen treffen zu können.
  • Die Stichprobe muss repräsentativ sein, sie sollte also die Nutzergruppe auf allen Ebenen möglichst gut abbilden.

Damit eine Stichprobe möglichst repräsentativ wird, sollte darauf geachtet werden, dass Personen aus allen Bereichen der Grundgesamtheit berücksichtigt werden.

Das Beispiel im Bild wäre also nur eingeschränkt repräsentativ, da die rot markierten Personen in der Grundgesamtheit die Mehrheit ausmachen, in der Stichprobe jedoch überhaupt nicht berücksichtigt werden.

Die Abbildung ist jedoch nicht eins-zu-eins auf das nutzerzentrierte Vorgehen im UX-Bereich zu übertragen, da die Stichprobe hier aus einer konkreten Nutzergruppe gezogen wird. Da eine Nutzergruppe meist durch eine Persona mit bestimmten Motivationen, Frustrationen und Eigenschaften repräsentiert wird, sollte versucht werden vor allem die projektrelevanten Aspekte der Personen repräsentativ abzubilden.

Doch wie viele Testpersonen braucht man dann eigentlich, um ein Produkt sinnvoll zu evaluieren?

Auf den ersten Blick könnte man vermuten, dass man mit immer mehr Testpersonen, auch aussagekräftigere Ergebnisse erzielen kann. Doch warum werden dann gerade im User Research häufig nur 4-5 Personen in Usability Tests oder Interviews herangezogen? Und warum werden auf der anderen Seite in wissenschaftlichen Studien teils mehrere hundert Teilnehmende rekrutiert? Kann man mit dieser Handvoll Tester*innen im User Research überhaupt fundierte Aussagen über ein neuentwickeltes Produkt treffen, das später einmal einer größeren Nutzergruppe dienen soll?

Um diese Fragen zu beantworten, werfen wir zunächst einen Blick auf die wissenschaftliche Perspektive der Stichprobenwahl.

Die wissenschaftliche Perspektive der Stichprobenwahl

Gerade in psychologischen Studien wird nicht einfach blind darauf losgetestet. Es wird bereits im Vorhinein die benötigte Anzahl an Versuchsteilnehmer*innen berechnet, um anschließend so lange Personen zu erheben, bis die gewünschte Anzahl erreicht wird. Bei der Erhebung muss immer die Repräsentativität im Auge behalten werden, damit keine Verzerrungen entstehen. Gerade durch den „Sampling Bias“ können hier Probleme entstehen. Diese und andere Verzerrungen in Nutzerstudien werden in einem der folgenden Blogartikel näher beleuchtet.

Doch woher weiß man nun, wie viele Teilnehmende benötigt werden? Die benötigte Anzahl nennt sich „optimaler Stichprobenumfang“ und wird statistisch errechnet. Die Berechnung erspare Ich Ihnen an dieser Stelle. Ohnehin wird dafür meist das freie Softwareprogramm „G*Power“ verwendet.

Der optimale Stichprobenumfang erfüllt zwei Bedingungen:

  • Zum einen ist der Stichprobenumfang so groß, dass der erwartete Effekt statistisch abgesichert werden kann. Dadurch ist der Effekt mit minimalem Aufwand an Zeit, Geld und Proband*innen nachweisbar, sollte er in der Population tatsächlich vorliegen.
  • Zum anderen ist die Stichprobe so klein, dass kleinere Effekte als der erwartete Effekt nicht statistisch bedeutsam werden.

Der optimale Stichprobenumfang stellt also einen Kompromiss zwischen praktischer Relevanz (Kosten und Aufwand) und statistischer Bedeutsamkeit (der erwartete Effekt wird gefunden) dar. Die vorherige Berechnung der erforderlichen Personen spart vor allem Ressourcen und soll trotz alledem dafür sorgen, dass der erwartete Effekt gefunden wird. Gerade dieser ökonomische Faktor spielt auch bei der Definition der Stichprobengröße für Usability Tests und User Interviews eine große Rolle, da die meisten Projekte nur ein begrenztes Budget haben.

Kosten vs. Nutzen

Der „Return on Investment“ oder kurz „ROI“ ist eine Kennzahl, die den Gewinn einer Tätigkeit im Verhältnis zu Ihren Kosten darstellt. Im Beispiel von User Tests oder Interviews bedeutet das, dass jede rekrutierte und getestete Person ein Unternehmen zunächst einmal Geld kostet (Kosten). Gleichzeitig werden nützliche Informationen über ein Produkt generiert (Nutzen). Werden nun immer mehr Personen mit demselben Testmaterial getestet, addieren sich die Kosten auf, während die neu dazugewonnenen Informationen weniger werden. Der ROI sinkt. Die Nielsen-Norman-Group, die weltweit führende Forschungsgruppe im Bereich Usability und User Experience, hat dies am Beispiel der gefundenen User Probleme in einem Usability Test deutlich gemacht.

  • Mit der ersten Person bekommt man die meisten neuen Einblicke
  • Die zweite Person deckt weitere Probleme auf, teils werden jedoch auch bereits bekannte Probleme aufgegriffen
  • Je mehr Personen nun getestet werden, desto weniger neue Informationen werden aus den Tests generiert
  • Schon zwischen sechs und 15 Testpersonen findet sich nur noch ein sehr geringer Zuwachs an gefundenen Problemen

Daher muss genau abgewägt werden, wie viele Testpersonen man für ein Projekt heranzieht, um das Budget für den User Research nicht zu sprengen, aber gleichzeitig alle wichtigen Informationen für die Entwicklung zu bekommen. Doch wie wägt man nun am besten ab, wie viele Personen man testet?

Eine naheliegende Lösung für dieses Problem wäre, sich einfach am Vorbild der Wissenschaft zu orientieren und eine optimale Stichprobengröße für das jeweilige Projekt zu errechnen. Doch warum findet dies in der Praxis so gut wie keine Anwendung?

In wissenschaftlichen, speziell psychologischen Studien dreht sich alles um Statistik. Man möchte signifikante Ergebnisse und große Effektstärken aufzeigen. Gerade dafür ist es auch von Nöten die optimale Stichprobengröße zu bestimmen. Im User Research geht es weniger darum, eine möglichst hohe Effektstärke bei der Nutzung eines Produktes zu erzielen oder signifikante Unterschiede zwischen zwei Prototypen zu finden. Häufig geht es um die qualitativen Eigenschaften eines Produktes und die Nutzungsprobleme, die auftreten können. Die Frage, die sich im User Research also gestellt werden muss, ist die folgende:

Wie viele Personen muss ich mindestens befragen/testen, damit ich ein Produkt entwickeln kann, das die Zielgruppe ansprechend findet und das sich ohne Probleme bedienen lässt?

Für diese Frage ist die Antwort nicht die optimale Stichprobengröße aus wissenschaftlichen Studien.

Wie groß ist denn nun groß genug?

Die entschiedene Antwort lautet: Es kommt auf die verwendete Methodik an.

Die Nielsen-Norman-Group hat bereits Anfang der 2000er versucht, eine Antwort auf diese Frage zu finden und kommt seitdem auf verschiedene Ergebnisse für unterschiedliche Methoden des User Researchs. Im Folgenden wollen wir uns Usability Tests und Interviews etwas genauer anschauen.

Optimale Stichprobe in Usability Tests

In den meisten Usability Tests wird eine optimale Stichprobengröße von 5 +/- 2 verwendet. Diese Anzahl basiert auf den Empfehlungen der Forschungsgruppe. Die Forscher*innen argumentieren dabei mit der Anzahl der Usability Probleme, die pro Testperson aufgedeckt werden (siehe vorherige Abbildung).

Wie man in der Grafik erkennen kann, deckt man mit einer Stichprobengröße von nur 5 Personen, ca. 75% der Usability Probleme in einem Produkt auf. Testet man mehr als 5 Personen, überwiegen im Schnitt die Kosten gegenüber den wenigen Extra-Informationen. Der ROI wäre also zu gering. Die Empfehlung lautet daher, mit einer Stichprobengröße von ungefähr 5 Personen einen Usability Test durchzuführen und im Verlauf der Produktentwicklung so viele Usability Tests wie es das Budget zulässt einzubauen, damit das Produkt kontinuierlich verbessert wird.

Optimale Stichprobe in User Interviews

Bei User Interviews verhält es sich ein wenig anders. Hier gibt es nämlich nicht einfach die eine Zahl, an die man sich halten kann. Dennoch zeichnet sich auch hier ein ähnliches Bild zu den Usability Tests ab. Mehr Personen bringen mehr Ergebnisse, jedoch auch nur bis zu einem gewissen Punkt.

In Interviews geht es oft um die qualitativen Erfahrungen der Nutzer*innen, weshalb die Zahl der benötigten Personen laut der Nielsen-Norman-Group von zwei Faktoren abhängt. Zum einen kommt es auf die Fragestellung und den Scope an. Ist dieser weit gefasst, so braucht es auch mehr Personen, um valide Ergebnisse zu generieren. Ist der Scope schmal, so können auch nur fünf Personen ausreichen, um repräsentative Ergebnisse zu liefern. Daher versuchen wir bei Centigrade in unseren Projekten zu Beginn möglichst eng zu scopen, damit wir für diesen Scope möglichst sichere Ergebnisse erhalten. Zum anderen kommt es auf die Diversität der Nutzer*innen an. Für diversere Nutzer*innen benötigt es mehr Testpersonen als für eine spezielle Gruppe an Nutzer*innen, damit die Repräsentativität gewährleistet ist. Die Empfehlung der Nielsen-Norman-Group ist daher klein anzufangen (z.B. mit fünf Testpersonen). Wenn während der Tests auffällt, dass alle Testpersonen viele neue Informationen generieren, so kann die Anzahl der Testpersonen schrittweise erhöht werden, bis ausreichend Informationen gesammelt wurden.

Fazit

Zusammenfassend lässt sich also festhalten, dass es im User Research häufig ausreichend ist, nur eine geringe Anzahl von etwa fünf Testpersonen zu befragen. Der Unterschied im Erkenntnisgewinn zu einer großen Stichprobe ist häufig nur gering und die Kosten werden bei weniger Tester*innen klein gehalten. Gerade bei schmalen Scopes ist es lohnenswert, weniger Personen zu testen. Dennoch sollte bei der Auswahl der Stichprobe immer die Repräsentativität im Auge behalten werden und falls es die Fragestellung oder die Methode verlangt, auch zu mehr Testpersonen gegriffen werden.

 

Quellenverzeichnis:

Sauro, J., & Lewis, J. R. (2016). Quantifying the user experience: Practical statistics for user research. Morgan Kaufmann.

https://www.netizenexperience.com/blog/usability-testing-how-many-test-users/

https://www.redalyc.org/journal/5722/572262176013/html/

https://dorsch.hogrefe.com/stichwort/optimaler-stichprobenumfang

https://studyflix.de/statistik/stichprobe-4389 aufgerufen am 05.01.2023

https://www.nngroup.com/articles/how-many-test-users/

https://www.nngroup.com/articles/quantitative-studies-how-many-users/

https://www.nngroup.com/articles/interview-sample-size/

https://www.nngroup.com/articles/why-you-only-need-to-test-with-5-users/

 

Wir haben Dein Interesse geweckt? Schau Dir unsere Leistungen an!

UX Research

 

 

Möchten Sie mehr zu unseren Leistungen, Produkten oder zu unserem UX-Prozess erfahren?
Wir sind gespannt auf Ihre Anfrage.

Senior UX Manager
+49 681 959 3110

Bitte bestätigen Sie vor dem Versand Ihrer Anfrage über die obige Checkbox, dass wir Sie kontaktieren dürfen.