Blog

Chatbot Research 101 – welche Herausforderungen UX Research zu Conversational AI mit sich bringt, und wie man ihnen begegnet

Carla Biegert
25. September 2025

Illustration eines Arbeitsplatzes mit Bildschirm Tastatur und Roboter

Chatbots und Conversational AIs sind in aller Munde und finden sich inzwischen in zahlreichen Anwendungen und Oberflächen wieder. Doch stellt sich die Frage: Sind Conversational AIs wirklich immer die beste Wahl?

Wenn Nutzer*innen Unterstützung bei der Erledigung ihrer Aufgaben brauchen und sich an einen Support-Bot wenden, scheinen viele möglichst schnell an einen Menschen weitergeleitet werden zu wollen, statt sich mit dem Chatbot auseinanderzusetzen.

Wie wir bereits in unserem Artikel „Welche Faktoren die UX zu Conversational AI beeinflussen“ sehen konnten, gibt es verschiedene Faktoren, die die Nutzung und User Experience von Conversational AI beeinflussen. Nun möchten wir uns anschauen, was passiert, wenn wir UX Research zu Conversational AIs durchführen. Welche Herausforderungen können uns dabei begegnen? Wie müssen wir unsere Research-Methoden anpassen, um valide und zuverlässige Ergebnisse herauszubekommen?

Was ist Conversational AI?

Nochmal als kurze Erinnerung:

„Conversational Artificial Intelligence (AI) umfasst Technologien wie Chatbots oder virtuelle Agenten, mit denen Nutzer*innen sprechen können. Sie nutzen große Datenmengen, maschinelles Lernen und Natural Language Processing (NLP), um menschliche Interaktionen zu imitieren, Sprache und Texteingaben zu erkennen und deren Bedeutung in verschiedene Sprachen zu übersetzen.“[1]

Gute UX liegt immer auch UX Research zugrunde, also die Einbeziehung echter Nutzer*innen mit dem Ziel, deren Bedürfnisse, Motivationen und Frustrationen herauszuarbeiten. Auch bei Research zu Conversational AI bleiben die grundlegenden Fragestellungen von UX Research erhalten:

  • Was ist der Nutzungskontext, also wann/wie/wo wird eine Interaktion benötigt?
  • Welche Bedürfnisse haben die Nutzer*innen?
  • Welche Probleme bei der Nutzung existieren vielleicht bereits?
  • Was sind Erwartungen, die Nutzer*innen an ein digitales Produkt haben? Welche Motivationen liegen diese zugrunde?

Bei Research zu Conversational AI gibt es jedoch einige Besonderheiten, auf die wir besonders achten sollten.

Welche Herausforderungen und Unterschiede gibt es beim UX Research zu Conversational AI?

Ein wesentlicher Unterschied zwischen Conversational UIs und herkömmlichen UIs ist, dass die Interaktion auf einem dialogbasierten Ansatz beruht, der auf Text- und Sprachinteraktion setzt. Dies bedeutet zum einen, dass multimodale Interaktionsformen möglich sind (also z.B. geschriebener Text und gesprochene Sprache), aber auch, dass Nutzer*innen sehr unterschiedlichen Input geben. Während Nutzer*in A beispielsweise einfach anfängt zu sprechen und möglicherweise einen ungenauen Prompt verwendet und sogar Füllwörter verwendet, tippt Nutzer*in B kurz und knackig ein, was gewünscht wird.

Zitat Konversation zu einer Rechnung

Abbildung 2: eigene Abbildung

Sprache hat Varianz und wird unterschiedlich genutzt, Inputs unterscheiden sich, auch z.B. in Sprachstilen. Zudem ist Sprache auch immer mehrdeutig, was Missverständnisse hervorrufen kann – anders als beim Klick auf einen Button. Ein weiterer Punkt, der unbedingt mitgedacht werden sollte, ist: Sprache – sowohl geschrieben als auch gesprochen – kann eine Barriere für die Nutzung von Conversational UIs darstellen, insbesondere wenn sie nicht auf die Bedürfnisse der Zielgruppe abgestimmt ist.

Obwohl unsere Ziele beim Research zu Conversational AI prinzipiell die gleichen bleiben, gibt es Themen und Bereiche, die dazukommen oder stärker beleuchtet werden sollten; kurz um, unser Fokus erweitert sich um neue Aspekte. Im bereits erwähnten Artikel meiner Kollegin wird deutlich, welche Faktoren besonderen Einfluss auf die Nutzung von Conversational AI haben. Diese und noch weitere Themenbereiche bieten sich auch an, im UX Research tangiert zu werden. Psychologische, ethische und sicherheitsrelevante Fragen geraten in den Fokus.

Bei der Durchführung von Interviews und Usability-Tests für Conversational AI ist es wichtig, flexibel zu sein und auf die unvorhersehbaren Wege der Interaktion einzugehen, die sich von denen bei traditionellen UIs unterscheiden. Dies müssen wir auffangen und darauf reagieren können. Technik entwickelt sich rasant weiter, was zum einen bedeutet, dass Prototypen für Usability Tests zu Conversational AI technisch eher weit entwickelt sein müssen, während man bei „herkömmlichen“ UIs auch reine Konzepte testen kann. Zum anderen benötigen wir anpassungsfähige Research-Methoden, um mit neueren Entwicklungen überhaupt Schritt halten zu können. Daher ist es notwendig, neue Metriken einzubeziehen oder zu entwickeln, um Aspekte wie Vertrauen und den Fluss der Konversation zu messen. Und, technische Herausforderungen (bei remote Research), wie Hintergrundgeräusche oder Spracherkennung, spielen bei Conversational AI eine noch größere Rolle.

Im Folgenden möchte ich bei den drei klassischen Research-Methoden Interviews, Usability Tests und Befragungen/Fragebögen vorstellen, worauf man bei der jeweiligen Methode besonders achten sollte, wenn man sie beim UX Research zu Conversational AI anwendet. Um dies zu veranschaulichen, werde ich die Vorgehensweise jeweils an einem Beispiel erklären: unser Assistentbot für Abwesenheit „Stevie Sloth“. Die Idee dafür war aufgekommen, als immer wieder von Unsicherheiten unserer Mitarbeitenden rund um An- und Abwesenheitszeiten berichtet wurde. Obwohl die Informationen dazu als bekannt erwartet wurden, kamen Fragen auf, die deshalb manchmal unangenehm zu stellen waren. Unser Ziel bei der Entwicklung des Bots war es, die Unsicherheit bei basalen Fragen zu An- und Abwesenheiten abzubauen.

Interviews im Kontext von Conversational AI

Interviews sind eine UX Research Methode, bei der einige sorgfältig ausgewählte Personen eingehend befragt werden, mit dem Ziel, ein besseres Verständnis des Nutzungskontextes zu erlangen.[2]

Bevor wir die Interviews durchführen, müssen wir zunächst klären, was wir in den Gesprächen herausfinden wollen. Zentrale Themen sind hierbei die Erforschung des mentalen Modells der Nutzer*innen, ihre bisherigen Erfahrungen und die Herausarbeitung von User Needs, also den Bedürfnissen der Nutzer*innen. Später wird dann entschieden, welche User Needs mit dem Produkt überhaupt bedient werden sollen und ob eine Conversational AI überhaupt die richtige Lösung ist. Zusätzlich zu unseren regulären Fragen zum Nutzungskontext gilt es im Kontext von Conversational AI noch Weiteres zu erfragen, z.B. Besonderheiten im Sprachgebrauch/Prompting, oder auch Einstellungen zu ethischen Fragestellungen, also Daten- und Informationsschutz, Verantwortlichkeit und Transparenz, sowie Ressourcenverbrauch.

Unser Assistentbot für Abwesenheit: Interviews

Auch für unser internes Projekt, einen Assistentbot zum Thema „Abwesenheit“, haben wir UX Research durchgeführt: Vier neue Kolleg*innen hatten sich bereit erklärt, im Januar 2024 Interviews durchzuführen. Den dafür erstellten Interviewleitfaden haben wir auf folgende drei Themen fokussiert:

  • Bisherige Erfahrungen mit ChatGPT und Chatbots (und damit einhergehende Einstellungen und Erwartungen)
  • Onboarding-Erfahrungen bei Centigrade und bisherigen Arbeitgebern
  • Urlaubsplanung und -anträge (Erfahrungen, Prozesse, Gefühle)

Aus diesen Interviews konnten wir wichtige Erkenntnisse für die Entwicklung des Assistentbots herausziehen. Wichtig war z.B. für die Interviewpartner*innen, dass sie die Antwort auf eine Frage in dem Moment bekommen, in der sie auftaucht, anstatt beim Onboarding die Intranet-Seite zu Urlaubsanträgen zu lesen und wieder zu vergessen. Auch wurde klar, dass Nutzer*innen individuelle, rollen- und themenspezifische Beantwortungen der Fragen benötigen, unter Berücksichtigung des eigenen Arbeitsmodells, Arbeitszeit, Termin-Engpässen und Ressourcenplanung. Ein weiterer Punkt, den wir sicher vorher nicht auf dem Schirm hatten, war: Nutzer*innen möchten selbst entscheiden, wen sie fragen; bei manchen Fragen kann es angenehmer sein, einen Chatbot zu fragen, anderes möchte man lieber mit einem*einer Kolleg*in besprechen.

Auf Basis der Interviews haben wir User Needs abgeleitet und uns somit für die Konzeptionierung des Assistentbots auf drei Punkte fokussiert: Support und gutes Gefühl in dem Moment erhalten, wenn Fragen aufkommen, verbindliche Informationen (z.B. zu persönlichen Fristen) priorisiert erhalten, und selbstbestimmt eigenmächtig und zielgerichtet-kommunikativ Urlaub beantragen.

Screenshot aus LeanScope AI

Abbildung 3: Screenshot aus LeanScope AI

Entstanden ist aus diesen Ergebnissen – wie schon oben erwähnt – unser neuer „Kollege“ Stevie Sloth. Stevie Sloth hat eine klare Roadmap mit aktivem Support und/oder Hilfe zur Selbsthilfe. Er bietet Transparenz und Erwartungsmanagement zu nächsten Schritten, User können selbst wählen, wie viel Support sie brauchen und er schickt Quellen zum Nachlesen mit. Bei der Entwicklung wurde ein Fokus auf „Taking Turns“ gelegt, d.h., dass der Bot Rückfragen stellt, nachfragt, wie viel Support der*die Nutzer*in braucht (kurze oder lange Antwort), er selbst auf Rückfragen reagiert und Informationen à la „Könnte dich auch interessieren“ anbietet. Dadurch werden Nutzer*innen mehr involviert, ihnen aktiv schneller Support geboten und Learnings gestärkt.

Usability Tests im Kontext von Conversational AI

In Usability Tests führen repräsentative Nutzer*innen ausgewählte Aufgaben in einem interaktiven System aus, mit dem Ziel, Probleme zu analysieren und Effektivität, Effizienz und Zufriedenstellung zu messen. [2]

Um Usability Tests durchzuführen, müssen wir zunächst einmal definieren, wer an den Tests teilnehmen soll. Dafür werden Screening-Kriterien für Proband*innen an die definierte Nutzendengruppe angepasst und dann entschieden, welche Anwendungsfälle getestet werden sollen. Diese bereitet man dann in einem Testszenario vor mit einem Pre-Interview, dem Hauptteil mit den Aufgaben, sowie einem Post-Interview. Bei Usability Tests zu Conversational AI sollen Aufgaben durchaus auch vordefiniert werden, aber bestenfalls so, dass das Prompting vollständig den Proband*innen überlassen werden kann.

Während der Durchführung wird gerne die Methode des lauten Denkens („Think aloud protocol“) angewendet, d.h. dass Proband*innen zu Beginn des Tests gebeten werden, währenddessen laut zu denken, also ihre Gedanken zu verbalisieren, während sie sich durch das User Interface bewegen. Wichtig bei Conversational AI ist es, Flexibilität zuzulassen, da viele verschiedene Interaktionswege möglich sind, und keine Hinweise aufs Prompting zu geben. Bei Bedarf sollte man gezielte (Rück-)fragen stellen, um das zugrundeliegende mentale Modell aufzudecken. Bei der Beobachtung sollte der Fokus auf das Verhalten und Reaktionen der Proband*innen und auftretende Usability-Probleme gelegt werden, aber besonders auch auf den sprachlichen Ausdruck der Proband*innen in der Kommunikation mit der Conversational AI geachtet werden.

Wizard-of-Oz-Methode als Abwandlung des klassischen Usability Tests

Diese Methode beschreibt ein Test-Vorgehen, bei dem Proband*innen mit einem Interface interagieren, das scheinbar autonom ist, aber (ganz oder teilweise) von einem Menschen gesteuert wird.[3]

Die Methode ist eine Abwandlung des klassischen Usability Tests und erfordert weniger technischen Aufwand, da eben eine weitere Person das Interface, in dem Fall die Conversational AI, steuert und die Antworten gibt. Sie bietet so die Möglichkeit, früh in der Produktentwicklung Erkenntnisse über die Interaktion mit Conversational AI zu sammeln und sehr detailliert zu erfassen, welche Erwartungen Nutzer*innen haben, wie sie Prompts formulieren und v.a. wie sie auf verschiedene Outputs reagieren.

Unser Assistentbot für Abwesenheit: Usability Tests

Die erste Version von Stevie Sloth wurde auch direkt mit Usability Tests getestet, dabei sollten die Proband*innen zwei konkrete Aufgaben bearbeiten:

  • „Bitte unterhalte dich mit Stevie, um herauszufinden, wie du deinen Traumurlaub beantragen kannst.“
  • „Bitte gib Stevie nun eine unpassende/unfreundliche Antwort oder stell ihm eine unpassende Frage.“

Beobachtungen, weitere Rückfragen zur wahrgenommenen User Experience und Screenshots, die zeigten, wie Proband*innen Prompts geschrieben haben, haben uns wertvolle Erkenntnisse geliefert, mit denen wir dann den Assistentbot verbessern konnten. Wer noch mehr zu Stevie Sloth und weiteren Assistentbot-Projekten erfahren will, kann gerne den Blogartikel meiner Kollegin Sarah lesen.

Fragebögen

Fragebögen erlauben eine weniger detailliertere, aber dafür breiter gestreute Erfassung von Daten, Fakten und Meinungen.

Zur Erfassung der UX von User Interfaces wird häufig der UEQ (User Experience Questionnaire)[4] genutzt, denn er erfasst valide mehrere Facetten von Usability und User Experience: Attraktivität, Durchschaubarkeit, Effizienz, Steuerbarkeit, Stimulation und Originalität. Durch Alessandras Artikel wissen wir, dass es bei Conversational AI weitere Faktoren gibt, die Einfluss auf die Nutzung und das Nutzungserlebnis haben. Hier bieten sich Fragebögen an, um herauszufinden, wie die verschiedenen Faktoren empfunden werden und welche Rolle sie in einer definierten Nutzendengruppe spielen.

Der UEQ lässt sich als UEQ+[5] modular erweitern, mit Fragen, die zur Conversational AI passen; ob und wie genau Anweisungen verstanden werden, inwiefern der AI vertraut wird und sie als sicher, seriös und transparent eingeschätzt wird, oder auch ob das Antwortverhalten als natürlich und passend empfunden wird.

Es ist aber auch möglich, spezifische Fragebögen zu verwenden, wie die „Semantic Differential Scale for AI Trust“, in der kognitives und affektives Vertrauen über verschiedene Subskalen und semantische Differentiale erfasst wird. Inzwischen existieren sogar Fragebögen, die speziell die UX von Conversational AI messen möchten, z.B. CASUX[6], in dem die Autor*innen auch Anthropomorphismus berücksichtigen indem sie die „Menschlichkeit“ der Conversational AI erfassen.

Fazit

UX Research zu Conversational AI bringt Herausforderungen mit sich, für die man gewappnet sein sollte, die aber durch kleine Anpassungen – besonders in der Vorbereitung – gut umzusetzen sind. Wichtig ist es vor allem, Themen wie Vertrauen und zu bedenken, und insbesondere bei Usability Tests einen gewissen Grad an Flexibilität bereitzuhalten.

Essenziell ist aber vor allem überhaupt UX Research durchzuführen, denn natürlich kann dieser auch zu der Erkenntnis führen, dass Conversational AI nicht die richtige Lösung ist, um die bestehenden User Needs zu bedienen. Conversational AI ist keine Universallösung.

Quellen

[1] What is conversational AI? (2021, September 28). IBM. https://www.ibm.com/think/topics/conversational-ai

[2] UXQB e.V. (2023). CPUX-F Curriculum Version 4.01. UXQB. Abgerufen am 06.August 2025, von https://uxqb.org/public/documents/CPUX-F_DE_Curriculum-und-Glossar.pdf

[3] Paul, S., & Rosala, M. (2024, April 19). The Wizard of Oz Method in UX. Nielsen Norman Group. https://www.nngroup.com/articles/wizard-of-oz/

[4] Laugwitz, B., Held, T., & Schrepp, M. (2008, November). Construction and evaluation of a user experience questionnaire. In Symposium of the Austrian HCI and usability engineering group (pp. 63-76). Berlin, Heidelberg: Springer Berlin Heidelberg.

[5] Schrepp, M. (2021, October). Measuring user experience with modular questionnaires. In 2021 International Conference on Advanced Computer Science and Information Systems (ICACSIS) (pp. 1-6). IEEE.

[6] Faruk, L. I. D., Pal, D., Funilkul, S., Perumal, T., & Mongkolnam, P. (2024). Introducing CASUX: A Standardized Scale for Measuring the User Experience of Artificial Intelligence Based Conversational Agents. International Journal of Human–Computer Interaction, 1–25. https://doi.org/10.1080/10447318.2024.2359206

Alles beginnt mit einem guten Gespräch. Lassen Sie uns daher gemeinsam über Möglichkeiten für Ihre digitale Produktentwicklung sprechen. Wir sind gespannt auf Ihre Anfrage.

Senior UX Manager
+49 681 959 3110

Bitte bestätigen Sie vor dem Versand Ihrer Anfrage über die obige Checkbox, dass wir Sie kontaktieren dürfen.