Wer eine Umfrage baut, kommt an Likert-Skalen kaum vorbei. Zustimmung zu einer Aussage von 1 bis 5, Zufriedenheit von „sehr unzufrieden" bis „sehr zufrieden", Wichtigkeit von „unwichtig" bis „sehr wichtig" – das Grundprinzip ist immer dasselbe. Und doch entstehen bei der Umsetzung und Auswertung immer wieder dieselben Fehler.
Dieser Artikel ist kein Statistik-Lehrbuch. Er beantwortet die Fragen, die sich beim Bauen und Interpretieren von Umfragen tatsächlich stellen.
Das Schulnotenproblem
Beginnen wir mit dem häufigsten Missverständnis.
Eine Umfrage fragt: „Wie zufrieden sind Sie mit unserem Service?" Antwortoptionen: 1 bis 5. Ein Befragter wählt 1.
Was bedeutet das? In Deutschland: sehr zufrieden – weil Schulnote 1 das Beste ist. In einer internationalen Umfrage oder bei einem anderen Auftraggeber: sehr unzufrieden – weil 1 der niedrigste Wert auf der Skala ist.
Dasselbe Kreuz, zwei entgegengesetzte Bedeutungen.
Das ist kein Randproblem. Es passiert sobald die Beschriftung der Antwortoptionen unklar ist oder fehlt. Die Lösung ist einfach: immer explizit beschriften. Nicht nur Zahlen zeigen, sondern jeden Pol benennen.
Schlecht:
1 2 3 4 5
Gut:
1 5
sehr sehr
unzufrieden zufrieden
Noch besser: jede Stufe beschriften, statt nur die Pole. Dann gibt es keinen Interpretationsspielraum.
Was eine Likert-Skala eigentlich ist
Streng genommen bezeichnet eine Likert-Skala die Zustimmung zu einer Aussage – von „stimme voll zu" bis „stimme gar nicht zu". In der Praxis wird der Begriff jedoch häufig auch für ähnliche Bewertungs- und Zufriedenheitsskalen verwendet. Wer fragt „Wie zufrieden sind Sie?" statt „Ich bin zufrieden", arbeitet methodisch mit einer verwandten Konstruktion, die in der Praxis unter denselben Begriff fällt.
Das Entscheidende bleibt dasselbe: eine Likert-Skala misst eine Einstellung zu einer Aussage oder einem Sachverhalt, keine abstrakte Eigenschaft. Statt zu fragen „Wie gut ist die Kommunikation?" fragt man: „Die Kommunikation in meinem Team funktioniert gut." Das ist eine kleine aber wichtige Verschiebung – Aussagen sind leichter einzuschätzen als abstrakte Begriffe.
In der Praxis werden Likert-Skalen für fast alles eingesetzt: Zufriedenheit, Wichtigkeit, Häufigkeit, Qualität. Das ist methodisch nicht immer ideal, aber pragmatisch verbreitet.
Die Bedeutung der Kodierung
Wie man die Antwortoptionen nummeriert, ist keine rein technische Frage.
Die häufigste Kodierung ist 1 bis 5 – vertraut, einfach, weit verbreitet. Die Alternative −2 bis +2 macht die Richtung sofort sichtbar: negative Werte bedeuten Ablehnung, positive Werte Zustimmung, null ist die Mitte. Für die Interpretation in Berichten kann das intuitiver sein.
Mathematisch macht es keinen Unterschied. Wer 1–5 erhebt und später in −2 bis +2 umrechnen will, verschiebt die Skala einfach um 3 Einheiten nach unten. Die Abstände bleiben dieselben, die Berechnungen ergeben dieselben Ergebnisse.
Was jedoch nicht egal ist: ob höhere Werte besser oder schlechter bedeuten. Das muss vor der Auswertung klar festgelegt und konsequent durchgehalten werden. In LimeSurvey gibt es Fragetypen die eine feste Richtung haben (etwa der 5-Point-Choice-Typ mit 1 bis 5), und Templates die davon abweichen. Wer verschiedene Quellen zusammenführt, muss die Richtung aktiv prüfen.
Faustregel: Höhere Werte = positiver Pol. Also 5 = sehr zufrieden, 1 = sehr unzufrieden. Das ist konsistenter mit internationalen Standards und vermeidet die Schulnoten-Verwechslung.
Darf man Mittelwerte berechnen?
Ehrliche Antwort: es kommt darauf an.
Streng genommen ist eine Likert-Skala eine Ordinalskala. Sie sagt etwas über die Reihenfolge aus – 4 ist besser als 3, 3 ist besser als 2 – aber nicht darüber, ob die Abstände zwischen den Stufen gleich groß sind. Ob der Schritt von 3 auf 4 genauso groß ist wie der Schritt von 4 auf 5, ist nicht garantiert. Mittelwerte setzen aber gleiche Abstände voraus.
In der Praxis werden Mittelwerte trotzdem fast überall berechnet – und das ist in den meisten Fällen vertretbar. Bei 5- oder 7-stufigen Skalen mit ausreichend großen Stichproben liefern Mittelwerte eine brauchbare Zusammenfassung. Die Forschung zeigt, dass die Ergebnisse robust sind, solange man keine kleinen Unterschiede überinterpretiert. Deshalb arbeiten die meisten Mitarbeiterbefragungen, Kundenzufriedenheitsstudien und NPS-nahen Auswertungen in der Praxis mit Mittelwerten – und das zu Recht.
Wann Mittelwerte problematisch werden:
- Bei sehr kleinen Stichproben (unter 20–30 Personen)
- Wenn die Verteilung stark schief ist
- Wenn kleine Unterschiede als bedeutsam dargestellt werden (ein Mittelwert von 3,4 vs. 3,6 ist in den meisten Kontexten kein messbarer Unterschied)
- Bei 3- oder 4-stufigen Skalen mit wenigen Abstufungen
Die Alternative zum Mittelwert ist die Häufigkeitsverteilung: wie viele Prozent haben 1, 2, 3, 4, 5 gewählt? Das ist immer zulässig und oft aussagekräftiger.
Eine weitere Möglichkeit ist der Median. Er gibt die mittlere Antwortkategorie an und benötigt keine Annahme über gleiche Abstände zwischen den Stufen. Deshalb bevorzugen viele Statistik-Lehrbücher den Median bei ordinalen Daten – er umgeht die Skalenniveau-Problematik, die beim Mittelwert auftaucht.
Warum ein Mittelwert oft nicht genügt
Das ist die wichtigste Stelle dieses Artikels.
Nehmen wir eine Frage aus einer Mitarbeiterbefragung:
Ich bin mit meiner Arbeitssituation zufrieden.
Zwei Abteilungen, beide mit demselben Mittelwert:
Abteilung A
Antworten: 1, 1, 3, 5, 5
Mittelwert: 3,0
Abteilung B
Antworten: 3, 3, 3, 3, 3
Mittelwert: 3,0
Gleiche Zahl. Völlig unterschiedliche Situation.
In Abteilung A ist die Belegschaft gespalten: die Hälfte ist sehr unzufrieden, die andere Hälfte sehr zufrieden. Das ist ein Alarmsignal – nicht wegen des Mittelwerts, sondern wegen der Polarisierung. In Abteilung B ist alle Welt mittelmäßig zufrieden. Das ist kein Alarmsignal, aber auch kein Erfolg.
Wer nur den Mittelwert zeigt, sieht denselben Wert und zieht denselben Schluss. Wer die Verteilung zeigt, sieht zwei vollständig verschiedene Geschichten.
Das ist kein akademisches Problem. Es ist der Unterschied zwischen einem Bericht der informiert und einem Bericht der täuscht – unbeabsichtigt, aber wirksam.
Konsequenz für die Berichterstattung: Mittelwerte sind ein nützlicher Einstieg. Sie sollten jedoch immer von der Verteilung begleitet werden – zumindest eine visuelle Darstellung wieviele Befragte welche Antwortoption gewählt haben. Genau deshalb sollten Berichte nicht nur Kennzahlen zeigen, sondern auch Muster erkennen und beschreiben. Zwei identische Mittelwerte können völlig unterschiedliche Situationen repräsentieren.
5 oder 6 Antwortstufen?
Die Frage klingt technisch. Sie hat aber unmittelbare praktische Konsequenzen.
5 Stufen haben eine neutrale Mitte (Stufe 3). Befragte die sich nicht positionieren wollen oder tatsächlich neutral sind, haben eine Möglichkeit das auszudrücken. Das kann ehrlich sein – oder eine Fluchtoption.
6 Stufen haben keine Mitte. Wer antwortet, muss sich in eine Richtung entscheiden. Das klingt nach mehr Information. In der Praxis passiert aber oft folgendes: Befragte nutzen die Stufen 3 und 4 als Ersatzmitte. Die erzwungene Entscheidung ist keine wirkliche Entscheidung – sie verschiebt nur die Flucht von einer Stufe auf zwei.
Wann 5 Stufen sinnvoll sind:
- Wenn eine echte neutrale Position möglich ist („weder zufrieden noch unzufrieden" ist ein valider Zustand)
- Bei Themen bei denen Befragte legitim keine Meinung haben können
- Bei langen Befragungen, um Ermüdung zu reduzieren
Wann 6 Stufen sinnvoll sind:
- Wenn eine Tendenzaussage erforderlich ist und „neutral" inhaltlich keinen Sinn ergibt
- Bei Schulnoten-analogen Bewertungen wo eine Mitte konzeptuell nicht existiert
- Wenn man sicherstellen will dass jede Antwort eine Richtung hat
In wissenschaftlichen Studien sind auch 7-stufige Skalen weit verbreitet. Sie erlauben feinere Abstufungen, erhöhen aber gleichzeitig die kognitive Belastung für Befragte – und damit das Risiko, dass Antworten weniger sorgfältig gesetzt werden. Für die meisten Praxisanwendungen sind 5 Stufen der bessere Kompromiss.
Die ehrliche Empfehlung: Wer die neutrale Mitte aus methodischen Gründen vermeiden will, sollte hinterfragen ob das tatsächlich das Messmodell verbessert oder nur unbequeme Antworten verhindert. Befragte die keine Meinung haben, weichen auf Randkategorien oder brechen ab – das ist schlechter als eine ehrliche Mittelstufe.
Praktische Empfehlungen für LimeSurvey
Beschriftung: Immer alle Stufen beschriften, mindestens aber beide Pole. In LimeSurvey lässt sich das bei Matrix-Fragen über die Antwortoptionen-Beschriftung steuern.
Richtung: Höhere Werte = positiver Pol als Standard festlegen. Konsequent durchhalten, besonders wenn mehrere Fragegruppen zusammengeführt werden.
Kodierung: 1–5 ist Standard und ausreichend. Eine Umrechnung auf −2 bis +2 kann für die Darstellung in Reports hilfreich sein, ändert aber nichts an den Auswertungsergebnissen.
Mittelwerte: Berechnen ja, aber immer mit Verteilung zeigen. Ein Mittelwert ohne Streuung ist eine halbe Information.
Stufenzahl: 5 Stufen für die meisten Anwendungsfälle. 6 Stufen nur wenn inhaltlich begründbar, nicht nur um die Mitte zu verhindern.
Skalenkonsistenz: Innerhalb einer Umfrage dieselbe Richtung und dieselbe Stufenzahl für alle Likert-Fragen. Unterschiedliche Skalen im selben Fragebogen erhöhen die Fehlerquote bei Befragten und bei der Auswertung.
Fazit: Nicht die Zahl ist das Problem, sondern ihre Interpretation
Eine Likert-Skala ist ein einfaches Werkzeug. Die meisten Probleme entstehen nicht beim Erheben, sondern beim Lesen.
Ein Mittelwert von 3,8 ist kein Befund. Er ist ein Ausgangspunkt für die Frage: Wie ist dieser Wert verteilt? Welche Gruppen haben unterschiedlich geantwortet? Hat sich etwas verändert im Vergleich zur letzten Erhebung?
Die eigentliche Herausforderung beginnt deshalb nicht bei der Datenerhebung, sondern bei der Auswertung. Gute Reports zeigen nicht nur Mittelwerte und Verteilungen. Sie helfen dabei, die Bedeutung hinter den Zahlen zu erkennen.
Die Kennzahl ist nicht das Ergebnis.
Die Interpretation ist das Ergebnis.