{"id":15799,"date":"2023-01-26T09:49:25","date_gmt":"2023-01-26T08:49:25","guid":{"rendered":"https:\/\/www.centigrade.de\/?post_type=blog&#038;p=15799"},"modified":"2023-01-26T11:33:01","modified_gmt":"2023-01-26T10:33:01","slug":"sample-size-in-usability-tests-und-user-interviews-weniger-ist-mehr","status":"publish","type":"blog","link":"https:\/\/www.centigrade.de\/de\/blog\/sample-size-in-usability-tests-und-user-interviews-weniger-ist-mehr\/","title":{"rendered":"Sample Size in Usability Tests und User Interviews \u2013 Weniger ist mehr?"},"content":{"rendered":"<p>User Research in Form von Usability Tests oder User Interviews sind mittlerweile nicht mehr aus der UX-Welt wegzudenken, gerade wenn es um die Neuentwicklung oder Verbesserung eines Produktes geht. Die Entwickler*innen bekommen Einblicke, was die Nutzer*innen wirklich brauchen und welche m\u00f6glichen Probleme es mit dem Produkt geben kann. Ein Kernpunkt des Researchs ist dabei die Auswahl der richtigen Stichprobe. Ist die Stichprobe nicht aussagekr\u00e4ftig bzw. repr\u00e4sentativ f\u00fcr die definierte Nutzergruppe, leidet darunter die Aussagekraft der Erkenntnisse und damit auch die Qualit\u00e4t des Produktes.<!--more--><\/p>\n<h2>Was ist nochmal eine Stichprobe?<\/h2>\n<p>Eine Stichprobe ist ein Teil einer Grundgesamtheit. Im UX-Bereich also alle Personen, die einer bestimmten Nutzergruppe angeh\u00f6ren und sp\u00e4ter das Produkt nutzen. Die Grundgesamtheit aller Nutzer*innen eines Produktes setzt sich aus den verschiedenen Nutzergruppen zusammen. Eine Nutzergruppe wird durch eine Persona repr\u00e4sentiert, also eine*n archetypischen Nutzer*in. M\u00f6chte man eine Aussage \u00fcber eine Persona treffen, ohne jede einzelne Person aus einer Nutzergruppe zu befragen, zieht man eine Stichprobe. Damit die Stichprobe aussagekr\u00e4ftig ist, m\u00fcssen vor allem zwei Bedingungen erf\u00fcllt sein:<\/p>\n<ul>\n<li>Die Stichprobe muss <strong>gro\u00df genug<\/strong> sein, um valide Aus- und Vorhersagen treffen zu k\u00f6nnen.<\/li>\n<li>Die Stichprobe muss <strong>repr\u00e4sentativ<\/strong> sein, sie sollte also die Nutzergruppe auf allen Ebenen m\u00f6glichst gut abbilden.<\/li>\n<\/ul>\n<p>Damit eine Stichprobe m\u00f6glichst repr\u00e4sentativ wird, sollte darauf geachtet werden, dass Personen aus allen Bereichen der Grundgesamtheit ber\u00fccksichtigt werden.<\/p>\n<div id=\"attachment_15811\" style=\"width: 1034px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-15811\" class=\"wp-image-15811 size-full\" src=\"https:\/\/www.centigrade.de\/wordpress\/wp-content\/uploads\/WP_Stichprobe-1024x576-1.jpg\" alt=\"Stichprobe \/ Sample Size Schaubild\" width=\"1024\" height=\"576\" srcset=\"https:\/\/www.centigrade.de\/wordpress\/wp-content\/uploads\/WP_Stichprobe-1024x576-1.jpg 1024w, https:\/\/www.centigrade.de\/wordpress\/wp-content\/uploads\/WP_Stichprobe-1024x576-1-300x169.jpg 300w, https:\/\/www.centigrade.de\/wordpress\/wp-content\/uploads\/WP_Stichprobe-1024x576-1-768x432.jpg 768w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><p id=\"caption-attachment-15811\" class=\"wp-caption-text\">Abbildung 1: <a href=\"https:\/\/d1g9li960vagp7.cloudfront.net\/wp-content\/uploads\/2022\/02\/WP_Stichprobe-1024x576.jpg\" target=\"_blank\" rel=\"noopener\">cloudfront.net\/wp-content\/uploads\/2022\/02\/WP_Stichprobe-1024&#215;576.jpg<\/a><\/p><\/div>\n<p>Das Beispiel im Bild w\u00e4re also nur eingeschr\u00e4nkt repr\u00e4sentativ, da die rot markierten Personen in der Grundgesamtheit die Mehrheit ausmachen, in der Stichprobe jedoch \u00fcberhaupt nicht ber\u00fccksichtigt werden.<\/p>\n<p>Die Abbildung ist jedoch nicht eins-zu-eins auf das nutzerzentrierte Vorgehen im UX-Bereich zu \u00fcbertragen, da die Stichprobe hier aus einer konkreten Nutzergruppe gezogen wird. Da eine Nutzergruppe meist durch eine Persona mit bestimmten Motivationen, Frustrationen und Eigenschaften repr\u00e4sentiert wird, sollte versucht werden vor allem die projektrelevanten Aspekte der Personen repr\u00e4sentativ abzubilden.<\/p>\n<h2>Doch wie viele Testpersonen braucht man dann eigentlich, um ein Produkt sinnvoll zu evaluieren?<\/h2>\n<p>Auf den ersten Blick k\u00f6nnte man vermuten, dass man mit immer mehr Testpersonen, auch aussagekr\u00e4ftigere Ergebnisse erzielen kann. Doch warum werden dann gerade im User Research h\u00e4ufig nur 4-5 Personen in Usability Tests oder Interviews herangezogen? Und warum werden auf der anderen Seite in wissenschaftlichen Studien teils mehrere hundert Teilnehmende rekrutiert? Kann man mit dieser Handvoll Tester*innen im User Research \u00fcberhaupt fundierte Aussagen \u00fcber ein neuentwickeltes Produkt treffen, das sp\u00e4ter einmal einer gr\u00f6\u00dferen Nutzergruppe dienen soll?<\/p>\n<p>Um diese Fragen zu beantworten, werfen wir zun\u00e4chst einen Blick auf die wissenschaftliche Perspektive der Stichprobenwahl.<\/p>\n<h2>Die wissenschaftliche Perspektive der Stichprobenwahl<\/h2>\n<p>Gerade in psychologischen Studien wird nicht einfach blind darauf losgetestet. Es wird bereits im Vorhinein die ben\u00f6tigte Anzahl an Versuchsteilnehmer*innen berechnet, um anschlie\u00dfend so lange Personen zu erheben, bis die gew\u00fcnschte Anzahl erreicht wird. Bei der Erhebung muss immer die Repr\u00e4sentativit\u00e4t im Auge behalten werden, damit keine Verzerrungen entstehen. Gerade durch den \u201eSampling Bias\u201c k\u00f6nnen hier Probleme entstehen. Diese und andere Verzerrungen in Nutzerstudien werden in einem der folgenden Blogartikel n\u00e4her beleuchtet.<\/p>\n<p>Doch woher wei\u00df man nun, wie viele Teilnehmende ben\u00f6tigt werden? Die ben\u00f6tigte Anzahl nennt sich \u201e<strong>optimaler Stichprobenumfang<\/strong>\u201c und wird statistisch errechnet. Die Berechnung erspare Ich Ihnen an dieser Stelle. Ohnehin wird daf\u00fcr meist das freie Softwareprogramm \u201e<a href=\"https:\/\/www.psychologie.hhu.de\/arbeitsgruppen\/allgemeine-psychologie-und-arbeitspsychologie\/gpower\">G*Power<\/a>\u201c verwendet.<\/p>\n<p>Der optimale Stichprobenumfang erf\u00fcllt zwei Bedingungen:<\/p>\n<ul>\n<li>Zum einen ist der Stichprobenumfang so gro\u00df, dass der erwartete Effekt statistisch abgesichert werden kann. Dadurch ist der Effekt mit minimalem Aufwand an Zeit, Geld und Proband*innen nachweisbar, sollte er in der Population tats\u00e4chlich vorliegen.<\/li>\n<li>Zum anderen ist die Stichprobe so klein, dass kleinere Effekte als der erwartete Effekt nicht statistisch bedeutsam werden.<\/li>\n<\/ul>\n<p>Der optimale Stichprobenumfang stellt also einen <strong>Kompromiss zwischen praktischer Relevanz (Kosten und Aufwand) und statistischer Bedeutsamkeit (der erwartete Effekt wird gefunden)<\/strong> dar. Die vorherige Berechnung der erforderlichen Personen spart vor allem Ressourcen und soll trotz alledem daf\u00fcr sorgen, dass der erwartete Effekt gefunden wird. Gerade dieser \u00f6konomische Faktor spielt auch bei der Definition der Stichprobengr\u00f6\u00dfe f\u00fcr Usability Tests und User Interviews eine gro\u00dfe Rolle, da die meisten Projekte nur ein begrenztes Budget haben.<\/p>\n<h2>Kosten vs. Nutzen<\/h2>\n<p>Der \u201e<strong>Return on Investment<\/strong>\u201c oder kurz \u201e<strong>ROI<\/strong>\u201c ist eine Kennzahl, die den Gewinn einer T\u00e4tigkeit im Verh\u00e4ltnis zu Ihren Kosten darstellt. Im Beispiel von User Tests oder Interviews bedeutet das, dass jede rekrutierte und getestete Person ein Unternehmen zun\u00e4chst einmal Geld kostet (Kosten). Gleichzeitig werden n\u00fctzliche Informationen \u00fcber ein Produkt generiert (Nutzen). Werden nun immer mehr Personen mit demselben Testmaterial getestet, addieren sich die Kosten auf, w\u00e4hrend die neu dazugewonnenen Informationen weniger werden. Der ROI sinkt. Die <a href=\"https:\/\/www.nngroup.com\/\">Nielsen-Norman-Group<\/a>, die weltweit f\u00fchrende Forschungsgruppe im Bereich Usability und User Experience, hat dies am Beispiel der gefundenen User Probleme in einem Usability Test deutlich gemacht.<\/p>\n<div id=\"attachment_15801\" style=\"width: 296px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-15801\" class=\"wp-image-15801 size-full\" src=\"https:\/\/www.centigrade.de\/wordpress\/wp-content\/uploads\/Number-of-testuser-vs-usability-problems-found.png\" alt=\"Number of testuser vs usability problems found\" width=\"286\" height=\"171\" \/><p id=\"caption-attachment-15801\" class=\"wp-caption-text\">Abbildung 2: <a href=\"https:\/\/www.nngroup.com\/articles\/why-you-only-need-to-test-with-5-users\/\">www.nngroup.com\/articles\/why-you-only-need-to-test-with-5-users\/<\/a><\/p><\/div>\n<ul>\n<li>Mit der ersten Person bekommt man die meisten neuen Einblicke<\/li>\n<li>Die zweite Person deckt weitere Probleme auf, teils werden jedoch auch bereits bekannte Probleme aufgegriffen<\/li>\n<li>Je mehr Personen nun getestet werden, desto weniger neue Informationen werden aus den Tests generiert<\/li>\n<li>Schon zwischen sechs und 15 Testpersonen findet sich nur noch ein sehr geringer Zuwachs an gefundenen Problemen<\/li>\n<\/ul>\n<p>Daher muss genau abgew\u00e4gt werden, wie viele Testpersonen man f\u00fcr ein Projekt heranzieht, um das Budget f\u00fcr den User Research nicht zu sprengen, aber gleichzeitig alle wichtigen Informationen f\u00fcr die Entwicklung zu bekommen. Doch wie w\u00e4gt man nun am besten ab, wie viele Personen man testet?<\/p>\n<p>Eine naheliegende L\u00f6sung f\u00fcr dieses Problem w\u00e4re, sich einfach am Vorbild der Wissenschaft zu orientieren und eine optimale Stichprobengr\u00f6\u00dfe f\u00fcr das jeweilige Projekt zu errechnen. Doch warum findet dies in der Praxis so gut wie keine Anwendung?<\/p>\n<p>In wissenschaftlichen, speziell psychologischen Studien dreht sich alles um Statistik. Man m\u00f6chte signifikante Ergebnisse und gro\u00dfe Effektst\u00e4rken aufzeigen. Gerade daf\u00fcr ist es auch von N\u00f6ten die optimale Stichprobengr\u00f6\u00dfe zu bestimmen. Im User Research geht es weniger darum, eine m\u00f6glichst hohe Effektst\u00e4rke bei der Nutzung eines Produktes zu erzielen oder signifikante Unterschiede zwischen zwei Prototypen zu finden. H\u00e4ufig geht es um die <strong>qualitativen Eigenschaften <\/strong>eines Produktes und die <strong>Nutzungsprobleme<\/strong>, die auftreten k\u00f6nnen. Die Frage, die sich im User Research also gestellt werden muss, ist die folgende:<\/p>\n<p><em>Wie viele Personen muss ich mindestens befragen\/testen, damit ich ein Produkt entwickeln kann, das die Zielgruppe ansprechend findet und das sich ohne Probleme bedienen l\u00e4sst?<\/em><\/p>\n<p>F\u00fcr diese Frage ist die Antwort nicht die optimale Stichprobengr\u00f6\u00dfe aus wissenschaftlichen Studien.<\/p>\n<h2>Wie gro\u00df ist denn nun gro\u00df genug?<\/h2>\n<p>Die entschiedene Antwort lautet: Es kommt auf die verwendete Methodik an.<\/p>\n<p>Die Nielsen-Norman-Group hat bereits Anfang der 2000er versucht, eine Antwort auf diese Frage zu finden und kommt seitdem auf verschiedene Ergebnisse f\u00fcr unterschiedliche Methoden des User Researchs. Im Folgenden wollen wir uns Usability Tests und Interviews etwas genauer anschauen.<\/p>\n<h3>Optimale Stichprobe in Usability Tests<\/h3>\n<p>In den meisten Usability Tests wird eine optimale Stichprobengr\u00f6\u00dfe von 5 +\/- 2 verwendet. Diese Anzahl basiert auf den Empfehlungen der Forschungsgruppe. Die Forscher*innen argumentieren dabei mit der Anzahl der Usability Probleme, die pro Testperson aufgedeckt werden (siehe vorherige Abbildung).<\/p>\n<p>Wie man in der Grafik erkennen kann, deckt man mit einer Stichprobengr\u00f6\u00dfe von nur 5 Personen, ca. 75% der Usability Probleme in einem Produkt auf. Testet man mehr als 5 Personen, \u00fcberwiegen im Schnitt die Kosten gegen\u00fcber den wenigen Extra-Informationen. Der ROI w\u00e4re also zu gering. Die Empfehlung lautet daher, mit einer Stichprobengr\u00f6\u00dfe von ungef\u00e4hr 5 Personen einen Usability Test durchzuf\u00fchren und im Verlauf der Produktentwicklung so viele Usability Tests wie es das Budget zul\u00e4sst einzubauen, damit das Produkt kontinuierlich verbessert wird.<\/p>\n<h3>Optimale Stichprobe in User Interviews<\/h3>\n<p>Bei User Interviews verh\u00e4lt es sich ein wenig anders. Hier gibt es n\u00e4mlich nicht einfach die eine Zahl, an die man sich halten kann. Dennoch zeichnet sich auch hier ein \u00e4hnliches Bild zu den Usability Tests ab. Mehr Personen bringen mehr Ergebnisse, jedoch auch nur bis zu einem gewissen Punkt.<\/p>\n<div id=\"attachment_15803\" style=\"width: 296px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-15803\" class=\"wp-image-15803 size-medium\" src=\"https:\/\/www.centigrade.de\/wordpress\/wp-content\/uploads\/Interview-samples-and-diminishing-return-286x300.png\" alt=\"\" width=\"286\" height=\"300\" srcset=\"https:\/\/www.centigrade.de\/wordpress\/wp-content\/uploads\/Interview-samples-and-diminishing-return-286x300.png 286w, https:\/\/www.centigrade.de\/wordpress\/wp-content\/uploads\/Interview-samples-and-diminishing-return.png 581w\" sizes=\"auto, (max-width: 286px) 100vw, 286px\" \/><p id=\"caption-attachment-15803\" class=\"wp-caption-text\">Abbildung 3: <a href=\"https:\/\/www.nngroup.com\/articles\/interview-sample-size\/\">www.nngroup.com\/articles\/interview-sample-size\/<\/a><\/p><\/div>\n<p>In Interviews geht es oft um die qualitativen Erfahrungen der Nutzer*innen, weshalb die Zahl der ben\u00f6tigten Personen laut der Nielsen-Norman-Group von zwei Faktoren abh\u00e4ngt. Zum einen kommt es auf die Fragestellung und den Scope an. Ist dieser weit gefasst, so braucht es auch mehr Personen, um valide Ergebnisse zu generieren. Ist der Scope schmal, so k\u00f6nnen auch nur f\u00fcnf Personen ausreichen, um repr\u00e4sentative Ergebnisse zu liefern. Daher versuchen wir bei Centigrade in unseren Projekten zu Beginn m\u00f6glichst eng zu scopen, damit wir f\u00fcr diesen Scope m\u00f6glichst sichere Ergebnisse erhalten. Zum anderen kommt es auf die Diversit\u00e4t der Nutzer*innen an. F\u00fcr diversere Nutzer*innen ben\u00f6tigt es mehr Testpersonen als f\u00fcr eine spezielle Gruppe an Nutzer*innen, damit die Repr\u00e4sentativit\u00e4t gew\u00e4hrleistet ist. Die Empfehlung der Nielsen-Norman-Group ist daher klein anzufangen (z.B. mit f\u00fcnf Testpersonen). Wenn w\u00e4hrend der Tests auff\u00e4llt, dass alle Testpersonen viele neue Informationen generieren, so kann die Anzahl der Testpersonen schrittweise erh\u00f6ht werden, bis ausreichend Informationen gesammelt wurden.<\/p>\n<h2>Fazit<\/h2>\n<p>Zusammenfassend l\u00e4sst sich also festhalten, dass es im User Research h\u00e4ufig ausreichend ist, nur eine geringe Anzahl von etwa f\u00fcnf Testpersonen zu befragen. Der Unterschied im Erkenntnisgewinn zu einer gro\u00dfen Stichprobe ist h\u00e4ufig nur gering und die Kosten werden bei weniger Tester*innen klein gehalten. Gerade bei schmalen Scopes ist es lohnenswert, weniger Personen zu testen. Dennoch sollte bei der Auswahl der Stichprobe immer die Repr\u00e4sentativit\u00e4t im Auge behalten werden und falls es die Fragestellung oder die Methode verlangt, auch zu mehr Testpersonen gegriffen werden.<\/p>\n<p>&nbsp;<\/p>\n<h2>Quellenverzeichnis:<\/h2>\n<p>Sauro, J., &amp; Lewis, J. R. (2016).\u00a0<em>Quantifying the user experience: Practical statistics for user research<\/em>. Morgan Kaufmann.<\/p>\n<p><a href=\"https:\/\/www.netizenexperience.com\/blog\/usability-testing-how-many-test-users\/\">https:\/\/www.netizenexperience.com\/blog\/usability-testing-how-many-test-users\/<\/a><\/p>\n<p><a href=\"https:\/\/www.redalyc.org\/journal\/5722\/572262176013\/html\/\">https:\/\/www.redalyc.org\/journal\/5722\/572262176013\/html\/<\/a><\/p>\n<p><a href=\"https:\/\/dorsch.hogrefe.com\/stichwort\/optimaler-stichprobenumfang\">https:\/\/dorsch.hogrefe.com\/stichwort\/optimaler-stichprobenumfang<\/a><\/p>\n<p><a href=\"https:\/\/studyflix.de\/statistik\/stichprobe-4389%20aufgerufen%20am%2005.01.2023\">https:\/\/studyflix.de\/statistik\/stichprobe-4389 aufgerufen am 05.01.2023<\/a><\/p>\n<p><a href=\"https:\/\/www.nngroup.com\/articles\/how-many-test-users\/\">https:\/\/www.nngroup.com\/articles\/how-many-test-users\/<\/a><\/p>\n<p><a href=\"https:\/\/www.nngroup.com\/articles\/quantitative-studies-how-many-users\/\">https:\/\/www.nngroup.com\/articles\/quantitative-studies-how-many-users\/<\/a><\/p>\n<p><a href=\"https:\/\/www.nngroup.com\/articles\/interview-sample-size\/\">https:\/\/www.nngroup.com\/articles\/interview-sample-size\/<\/a><\/p>\n<p><a href=\"https:\/\/www.nngroup.com\/articles\/why-you-only-need-to-test-with-5-users\/\">https:\/\/www.nngroup.com\/articles\/why-you-only-need-to-test-with-5-users\/<\/a><\/p>\n<p>&nbsp;<\/p>\n<p><strong>Wir haben Dein Interesse geweckt? Schau Dir unsere <a style=\"color: #2d373b; text-decoration: underline;\" href=\"https:\/\/www.centigrade.de\/de\/leistungen\/uebersicht\">Leistungen<\/a> an!<\/strong><\/p>\n<span class='maxbutton-4-container mb-container'><a class=\"maxbutton-4 maxbutton maxbutton-ux-design-de-large\" title=\"UX Design\" href=\"https:\/\/www.centigrade.de\/de\/leistungen\/ux-research\"><span class='mb-text'>UX Research<\/span><\/a><\/span>\n<p>&nbsp;<\/p>\n<p>&nbsp;<\/p>\n","protected":false},"author":71,"featured_media":0,"template":"","tags":[74,623,419,756],"class_list":["post-15799","blog","type-blog","status-publish","hentry","tag-usability-de","tag-usability-test","tag-user-research-de","tag-ux-research-de-2"],"acf":[],"_links":{"self":[{"href":"https:\/\/www.centigrade.de\/de\/wp-json\/wp\/v2\/blog\/15799","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.centigrade.de\/de\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/www.centigrade.de\/de\/wp-json\/wp\/v2\/types\/blog"}],"author":[{"embeddable":true,"href":"https:\/\/www.centigrade.de\/de\/wp-json\/wp\/v2\/users\/71"}],"version-history":[{"count":8,"href":"https:\/\/www.centigrade.de\/de\/wp-json\/wp\/v2\/blog\/15799\/revisions"}],"predecessor-version":[{"id":15824,"href":"https:\/\/www.centigrade.de\/de\/wp-json\/wp\/v2\/blog\/15799\/revisions\/15824"}],"wp:attachment":[{"href":"https:\/\/www.centigrade.de\/de\/wp-json\/wp\/v2\/media?parent=15799"}],"wp:term":[{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.centigrade.de\/de\/wp-json\/wp\/v2\/tags?post=15799"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}