Strona główna Analiza ankiet i skale Skala Likerta: jak kodować odpowiedzi i liczyć wyniki

Analiza ankiet i skale

Skala Likerta: jak kodować odpowiedzi i liczyć wyniki

Przez

Filip Kubiak

19 maja, 2026

Drewniane klocki z napisem feedback na zielonej podstawce — Źródło: Pexels | Autor: Markus Winkler

Rate this post

Nawigacja po artykule:

Po co w ogóle kodować skalę Likerta

Osoba, która korzysta ze skali Likerta, zazwyczaj ma prostą intencję: na kilku pytaniach o postawy lub opinie zbudować konkretny wynik liczbowy, który da się policzyć, porównać i opisać w pracy dyplomowej lub raporcie. Żeby to było sensowne, trzeba zrozumieć, jak działają skale porządkowe, czym różni się pojedyncze pytanie od całej skali oraz jak bezbłędnie przejść od odpowiedzi typu „zdecydowanie się zgadzam” do poprawnych liczb, średnich, sum i wskaźników.

Skala Likerta jest wygodnym narzędziem, ale łatwo ją „zepsuć” błędnym kodowaniem, niewłaściwym traktowaniem odwróconych pytań czy mieszaniem różnych kierunków odpowiedzi. Dobrze zaprojektowana i poprawnie policzona skala pozwala obronić się w dyskusji metodologicznej, uniknąć podstawowych błędów statystycznych i wyciągać sensowne wnioski z ankiet.

Frazy pomocnicze: skala Likerta kodowanie odpowiedzi, skale porządkowe i przedziałowe, odwrócone pytania w skali Likerta, sumowanie i uśrednianie wyników, analiza skali Likerta w Excelu, skala Likerta w SPSS/R, interpretacja średnich i odchyleń, tworzenie indeksów z wielu pozycji, rzetelność skali alfa Cronbacha, analiza ankiet w pracach dyplomowych, błędy w konstrukcji skali Likerta, prezentacja wyników skali Likerta

Czym jest skala Likerta i kiedy ma sens jej użycie

Definicja skali Likerta i podstawowe pojęcia

Skala Likerta (ang. Likert scale) to zestaw twierdzeń lub stwierdzeń (pozycji), do których respondent odnosi się, zaznaczając stopień zgody lub częstotliwość. Typowy format odpowiedzi ma 5 lub 7 uporządkowanych kategorii, np. od „zdecydowanie się nie zgadzam” do „zdecydowanie się zgadzam”.

Każda pozycja skali Likerta to pojedyncze twierdzenie, np. „Jestem zadowolony z atmosfery w pracy”. Do każdej pozycji przypisany jest zestaw jednakowych odpowiedzi uporządkowanych, np.:

zdecydowanie się nie zgadzam
raczej się nie zgadzam
ani się zgadzam, ani się nie zgadzam
raczej się zgadzam
zdecydowanie się zgadzam

Kluczowy element: odpowiedzi są uporządkowane – „raczej się zgadzam” oznacza „więcej zgody” niż „ani się zgadzam, ani się nie zgadzam”, a mniej niż „zdecydowanie się zgadzam”. To porządek, a nie konkretna różnica liczbowych odległości.

Pojedyncze pytanie a cały indeks likertowski

Warto wyraźnie odróżnić dwa pojęcia, które w praktyce często się miesza:

Pojedyncze pytanie z odpowiedziami typu Likerta – np. jedno stwierdzenie z pięcioma wariantami zgody. To jest po prostu pozycja na skali porządkowej.
Skala typu Likerta (indeks) – zbiór kilku lub kilkunastu takich pytań, które razem mierzą jeden konstrukt, np. „satysfakcję z pracy”, „zaufanie do firmy”, „zaangażowanie”. Wyniki z poszczególnych pozycji łączy się w jeden wskaźnik (sumą lub średnią).

W analizach statystycznych określenie „skala Likerta” najczęściej odnosi się właśnie do drugiego przypadku – złożonego indeksu zbudowanego z wielu pozycji, a nie do pojedynczego pytania. Ma to znaczenie przy interpretacji: jedna odpowiedź „raczej się zgadzam” jest mniej stabilna niż wynik z 6–8 podobnych pozycji zsumowanych w jeden wynik.

Kiedy skala Likerta jest właściwym wyborem

Skala Likerta dobrze sprawdza się do pomiaru subiektywnych konstrukcji, które trudno uchwycić jednym pytaniem i które naturalnie da się wyrazić stopniem nasilenia. Typowe zastosowania:

postawy (np. stosunek do pracy zdalnej, stosunek do marki, podejście do ryzyka),
opinie i oceny (np. ocena obsługi klienta, ocena jakości usług),
stopień zgody z określonymi twierdzeniami (np. „czuję się doceniany przez przełożonego”),
częstotliwość zachowań (np. „jak często korzystasz z X”, „jak często odczuwasz Y”).

Jeśli chcesz policzyć poziom jakiejś cechy – satysfakcji, zaufania, akceptacji, lęku, motywacji – skala Likerta jest naturalnym kandydatem. Dobrze zaprojektowany zestaw kilku–kilkunastu pozycji daje znacznie bardziej wiarygodny wynik niż jedno ogólne pytanie.

Kiedy lepiej nie używać skali Likerta

Skala Likerta nie nadaje się do wszystkiego. Nie jest dobrym wyborem, gdy mierzysz:

fakty – np. „ile masz lat”, „jak często realnie wykonałeś X w ciągu tygodnia”,
dane twarde – np. dochód, liczba zrealizowanych zadań, liczba klientów,
wiedzę – testy wiedzy, gdzie odpowiedź jest po prostu poprawna lub nie.

Przykład błędu: pytanie „Jak długo pracujesz w firmie?” z odpowiedziami typu „zdecydowanie się zgadzam / nie zgadzam” nie ma sensu. Tutaj potrzeba konkretnych kategorii czasu lub odpowiedzi liczbowej. Skala Likerta ma sens, gdy pytasz o subiektywną ocenę, a nie o obiektywny fakt.

Rodzaje skal odpowiedzi i ich konsekwencje dla liczenia wyników

Nominalna, porządkowa, przedziałowa – krótkie przypomnienie

Żeby poprawnie liczyć wyniki ze skali Likerta, trzeba uporządkować sobie trzy podstawowe typy skal:

Skala nominalna – kategorie bez porządku, np. płeć, dział w firmie, miejsce zamieszkania („wieś”, „miasto do 100 tys.”, „miasto powyżej 100 tys.” – jeśli traktujesz je tylko jako etykiety, bez hierarchii).
Skala porządkowa (ordinalna) – kategorie, między którymi istnieje porządek, ale nie zakładamy równych różnic, np. stopień zgody w skali Likerta, wykształcenie (podstawowe < średnie < wyższe).
Skala przedziałowa (interwałowa) – wartości liczbowe, między którymi odległości mają konkretne znaczenie, np. temperatura w stopniach Celsjusza, wyniki testu IQ. Dopuszcza się liczenie średniej i odchylenia standardowego w sensie ścisłym.

Skala odpowiedzi typu Likerta formalnie jest skalą porządkową. Oznacza to, że „zdecydowanie się zgadzam” to więcej niż „raczej się zgadzam”, ale nie ma gwarancji, że różnica między tymi kategoriami jest równa różnicy między „raczej się zgadzam” a „ani się zgadzam, ani się nie zgadzam”.

Skala likertowska jako porządkowa, a skala typu Likerta jako indeks

Jedno pytanie w formacie Likerta traktuje się jako pozycję na skali porządkowej. Jeśli przypiszesz jej kody 1–5, to 1, 2, 3, 4, 5 są kolejnymi rangami, a nie „miarą w milimetrach”.

Gdy zbierzesz kilka takich pozycji (np. 10 twierdzeń) i dla każdego respondenta zsumujesz punkty, powstaje nowa zmienna – indeks, który często traktuje się w praktyce jako przybliżenie skali przedziałowej. Zwłaszcza przy większej liczbie pozycji łączny wynik przyjmuje wiele wartości i przypomina rozkład zmiennej ciągłej. Na tej podstawie wiele osób stosuje metody parametryczne (średnia, odchylenie, testy t-Studenta), choć metodolodzy czasem dyskutują, na ile to jest formalnie poprawne.

Uproszczenie jest takie:

pojedyncza pozycja Likerta – licz medianę, modę, rozkłady procentowe,
indeks z wielu pozycji – można rozsądnie liczyć średnią i odchylenie, a nawet stosować część testów parametrycznych, o ile liczba pozycji i liczba respondentów są wystarczające.

Konsekwencje przyjmowania założeń przedziałowości

Gdy traktujesz wyniki skali Likerta jak dane przedziałowe, pojawiają się konkretne konsekwencje:

Możesz liczyć średnią i odchylenie standardowe – to standard w raportach i pracach dyplomowych.
Możesz stosować testy parametryczne (np. t-Studenta, ANOVA), ale dobrze jest mieć świadomość, że opierasz się na przybliżeniu.
Dla ścisłych analiz (małe próby, mało pozycji) lepiej rozważyć metody nieparametryczne (np. U Manna–Whitneya, Kruskala–Wallisa), które nie wymagają tak silnych założeń.

Przy pracach aplikacyjnych (badania w firmach, prace magisterskie z zarządzania czy psychologii stosowanej) założenie przedziałowości indeksu likertowskiego jest powszechną praktyką. Klucz polega na tym, by w opisie metod jasno napisać, że łączny wynik skali typu Likerta traktujesz jako zmienną przybliżająco przedziałową i stosujesz odpowiednie statystyki z tego założenia.

Co liczyć bez kontrowersji, a co jest sporne

Są rzeczy, do których skala Likerta nadaje się bez dyskusji, oraz takie, które wymagają większej ostrożności.

Bez większych kontrowersji:

procentowy rozkład odpowiedzi w każdej kategorii,
mediana odpowiedzi na pojedynczą pozycję,
moda (najczęstsza odpowiedź),
porównania rozkładów odpowiedzi (np. między grupami),
sumowanie pozycji w indeks przy większej liczbie pytań.

Bardziej sporne / wymagające wyjaśnienia:

liczenie średniej z pojedynczej pozycji Likerta,
liczenie odchylenia standardowego dla pojedynczych pozycji,
stosowanie testów parametrycznych (t-Student, ANOVA) na pojedynczych pozycjach,
zaawansowane modele liniowe traktujące wynik likertowski jak typową zmienną ciągłą.

Jeśli Twoja praca lub raport mają charakter praktyczny, a nie stricte metodologiczny, najbezpieczniejsza kombinacja to:

dla pojedynczych pytań – rozkłady procentowe i mediany,
dla indeksów z min. 4–5 pozycji – średnia, odchylenie, testy parametryczne (z zaznaczeniem założeń).

Bizneswoman pokazuje na clipboardzie wyniki ankiety w formie wykresu słupkowego — Źródło: Pexels | Autor: RDNE Stock project

Projekt skali Likerta: liczba stopni, środek i etykiety

4-, 5-, 7-punktowe skale i ich właściwości

Najczęściej stosowane są trzy warianty skali Likerta: 4-, 5- i 7-punktowe. Każda ma swoje konsekwencje dla późniejszego kodowania i analizy.

Skala 4-punktowa – brak punktu neutralnego, wymusza opowiedzenie się po którejś stronie („raczej nie” vs „raczej tak”). Lepsza, gdy chcesz uniknąć masowego zaznaczania „nie mam zdania”, ale może frustrować respondentów, którzy faktycznie są neutralni.
Skala 5-punktowa – najbardziej klasyczna. Pozwala wybrać środek („ani tak, ani nie”), a jednocześnie daje dość prosty rozkład odpowiedzi i łatwe kodowanie (1–5 lub -2…+2).
Skala 7-punktowa – większa czułość (więcej możliwych poziomów), przy bardziej zaawansowanych analizach może dać płynniejszy rozkład. Wymaga jednak, by respondenci odróżniali subtelne różnice („umiarkowanie się zgadzam” vs „w dużym stopniu się zgadzam”).

Z punktu widzenia analizy w Excelu czy SPSS różnice polegają głównie na zakresie kodów i liczbie możliwych punktów indeksu. Przy 5 pozycjach 5-punktowych maksymalna suma to 25, przy 7-punktowych – 35. To wpływa na rozkład i interpretację, ale mechanizm kodowania pozostaje ten sam.

Punkt środkowy: z neutralnym środkiem czy bez

Projektując skalę, trzeba zdecydować, czy chcesz punktu środkowego:

Skale parzyste (4, 6 punktów) – brak środka zmusza do wyboru strony. Przydatne, gdy wiesz, że respondenci będą uciekać w „złoty środek” i chcesz ich do tego zniechęcić.
Skale nieparzyste (5, 7 punktów) – mają środek, który może oznaczać: „neutralnie”, „ani tak, ani nie”, „trudno powiedzieć”. Daje to bardziej naturalny wybór, gdy ktoś faktycznie nie ma zdania lub ma mieszane odczucia.

Z punktu widzenia kodowania, punkt środkowy to stała wartość (np. 3 w skali 1–5 lub 0 w skali -2…+2). Dobrze jest w instrukcji lub opisie wyników jasno wyjaśnić, co ten środek oznacza: brak zdania, neutralność czy nie dotyczy?

Etykiety skrajnych i pośrednich kategorii odpowiedzi

Równie ważne jak liczba stopni jest to, jak opisane są poszczególne odpowiedzi. Dwa kluczowe punkty: skrajne kategorie i pośrednie etykiety.

Jak opisywać skrajne i pośrednie odpowiedzi

Skrajne etykiety definiują „ramy” skali, więc muszą być jasne i jednoznaczne. Klasyczne „zdecydowanie się nie zgadzam” / „zdecydowanie się zgadzam” sprawdza się przy twierdzeniach oceniających. Przy innych treściach lepsze będą np. „zdecydowanie negatywnie” / „zdecydowanie pozytywnie” albo „bardzo rzadko” / „bardzo często”.

Kluczowe zasady przy projektowaniu etykiet:

Symetria znaczeń – po lewej i prawej stronie skali powinny stać znaczeniowo przeciwstawne bieguny, ale o podobnej „mocy” (np. „zdecydowanie negatywnie” vs „zdecydowanie pozytywnie”, a nie „trochę negatywnie” vs „zdecydowanie pozytywnie”).
Spójność języka – jeśli po lewej stronie używasz konstrukcji „zdecydowanie…”, po prawej również użyj „zdecydowanie…”, a nie np. „całkowicie…”.
Jasność dla odbiorcy – unikaj branżowego żargonu w etykietach („wysoki poziom satysfakcji z implementacji procesu”), lepiej prościej („jestem bardzo zadowolony z tego, jak wdrożono ten proces”).

Pośrednie kategorie (np. „raczej się zgadzam”, „umiarkowanie zadowolony”) działają jak „stopnie” między skrajnościami. Jeżeli stosujesz tylko dwa poziomy pośrednie (skala 5-punktowa), wystarczy prosty podział: „raczej nie” / „raczej tak”. W skali 7-punktowej często pojawia się pokusa nadmiernego kombinowania z nazwami („trochę”, „w pewnym stopniu”, „umiarkowanie”…). Im więcej niuansów w języku, tym większe ryzyko, że różni respondenci będą je rozumieć inaczej.

Praktyczny kompromis przy 7-stopniowej skali zgody:

1 – zdecydowanie się nie zgadzam
2 – raczej się nie zgadzam
3 – trochę się nie zgadzam
4 – ani się zgadzam, ani się nie zgadzam
5 – trochę się zgadzam
6 – raczej się zgadzam
7 – zdecydowanie się zgadzam

Tu dodatkowe „trochę” rozkłada środek na drobniejsze kawałki, ale logika lewo–prawo pozostaje czytelna: im bardziej w prawo, tym większa zgoda.

Kodowanie odpowiedzi: schematy, pułapki i dobre praktyki

Standardowe kodowanie 1–5, 1–7 i kiedy je zmienić

Najprostszy i najbardziej rozpowszechniony schemat to przypisanie odpowiedziom kolejnych liczb całkowitych:

5-punktowa: 1, 2, 3, 4, 5,
7-punktowa: 1, 2, 3, 4, 5, 6, 7.

Lewy biegun (np. „zdecydowanie się nie zgadzam”) dostaje zazwyczaj najniższy kod, a prawy („zdecydowanie się zgadzam”) – najwyższy. Dzięki temu rosnący numer = rosnący poziom zgody, często też rosnący „poziom czegoś dobrego” (zaangażowania, satysfakcji itp.).

Schemat 1–5/1–7 jest wygodny w Excelu i SPSS, ale ma jeden minus: środek skali nie jest zerem. Jeśli często używasz przekształceń, różnic między pomiarami, korelacji lub regresji, rozważ kodowanie symetryczne względem zera.

Kodowanie symetryczne: -2…+2, -3…+3

Kodowanie symetryczne utrudnia nieco wprowadzanie danych, ale upraszcza część analiz i interpretację:

skala 5-punktowa: -2, -1, 0, +1, +2,
skala 7-punktowa: -3, -2, -1, 0, +1, +2, +3.

W takim wariancie zero oznacza środek („ani tak, ani nie”), a wartości ujemne/lewe – odpowiedzi „na nie”, dodatnie/prawe – „na tak”. Średnia = 0 znaczy „idealna neutralność” grupy. Średnia dodatnia oznacza przeciętną zgodę, a ujemna – przeciętny brak zgody.

Tip: jeśli w ankiecie drukowanej posługujesz się etykietami 1–5, nie musisz ich zmieniać na -2…+2. Po prostu po wprowadzeniu danych zrób w arkuszu przekształcenie: nowy_kod = stary_kod - 3 (dla skali 1–5) lub nowy_kod = stary_kod - 4 (dla 1–7). W SPSS można to zrobić komendą COMPUTE, w Excelu zwykłą formułą.

Pozycje odwrócone (reverse-coded): po co i jak je obsłużyć

Pozycje odwrócone to takie twierdzenia, które mierzą ten sam konstrukt, ale „w przeciwną stronę”. Przykład:

pozycja dodatnia: „Lubię swoje obowiązki zawodowe”,
pozycja odwrócona: „Często mam dość swoich obowiązków zawodowych”.

Jeśli respondent konsekwentnie zaznacza zgody przy pierwszej i brak zgody przy drugiej, to dobry sygnał, że odpowiada uważnie. Odwrócone pozycje służą też temu, by uniknąć prostego „zaznaczam zawsze kolumnę ‘zgadzam się’ bez czytania”.

Problem pojawia się przy liczeniu indeksu. Zanim zsumujesz punkty, koniecznie przekoduj pozycje odwrócone, tak aby wysoki wynik zawsze oznaczał „więcej tego samego” (np. więcej satysfakcji, więcej stresu itp.).

Przykład dla skali 1–5:

pozycja prosta: 1 = zdecydowanie się nie zgadzam, 5 = zdecydowanie się zgadzam,
pozycja odwrócona (treść negatywna): surowy kod 1 = zdecydowanie się nie zgadzam, 5 = zdecydowanie się zgadzam, ale po przekształceniu chcesz, by brak zgody na zdanie negatywne dawał dużo punktów (czyli był „dobry”).

Standardowy wzór na przeliczenie pozycji odwróconej przy kodowaniu 1…k (gdzie k to liczba punktów skali):

nowy_kod = (k + 1) - stary_kod

Dla skali 1–5:

k = 5, więc nowy_kod = 6 - stary_kod,
stary 1 → nowy 5,
stary 2 → nowy 4,
stary 3 → nowy 3,
stary 4 → nowy 2,
stary 5 → nowy 1.

Analogicznie dla skali 1–7: nowy_kod = 8 - stary_kod.

Uwaga: odwracaj tylko te pozycje, które faktycznie są przeciwstawne znaczeniowo. Nie odwracaj na ślepo wszystkich „negatywnie brzmiących” zdań, jeśli nie są dokładnym „lustrem” innych pozycji. W przeciwnym razie uzyskasz skalę, w której wysoki wynik mierzy mieszaninę zjawisk (np. częściowo satysfakcję, częściowo brak wypalenia).

Kodowanie braków danych i odpowiedzi „nie dotyczy”

Oprócz zwykłych kategorii odpowiedzi pojawiają się często opcje typu „nie wiem”, „trudno powiedzieć”, „nie dotyczy”. Z punktu widzenia statystyki to nie jest stopień zgody, więc nie powinny mieć kodów 1–5.

Popularne podejścia:

kody specjalne (np. 9, 99, -9) – łatwe do wychwycenia, trzeba tylko zadbać, by program nie traktował ich jako normalnych wartości; w SPSS oznacza się je jako „missing values”, w Excelu warto zamienić je na puste komórki przed liczeniem średnich,
puste komórki – wygodne w arkuszu kalkulacyjnym, ale utrudniają rozróżnienie między „nie odpowiedział” a „nie dotyczy” lub „trudno powiedzieć”.

Jeżeli „trudno powiedzieć” ma w badaniu sens interpretacyjny (np. częstość tej odpowiedzi sama w sobie coś mówi), przechowuj ją jako oddzielną kategorię nominalną przy analizie pojedynczych pytań, ale nie traktuj jej jako części skali 1–5. Przy tworzeniu indeksu zazwyczaj wyłącza się ją z obliczeń (respondent ma po prostu mniej odpowiedzi w skali).

Liczenie indeksów ze skali typu Likerta

Suma czy średnia? Wybór metody agregacji

Najczęstsze sposoby tworzenia wyniku ogólnego z kilku pozycji:

suma punktów – prosty zabieg: dodajesz wszystkie zakodowane odpowiedzi,
średnia punktów – dzielisz sumę przez liczbę wykorzystanych pozycji (czasem różną przy brakach danych).

Suma jest intuicyjna („im wyżej, tym lepiej / gorzej”), ale rezultat zależy od liczby pozycji. Skala 10-pozycyjna z zakresem 1–5 da zakres 10–50, skala 20-pozycyjna – 20–100. Średnia natomiast „normalizuje” wynik do pierwotnej skali (np. zawsze 1–5), co ułatwia porównania między różnymi skalami i prezentację na wykresach.

Praktyczny schemat:

do analiz statystycznych (korelacje, modele) stosuj średnią – wynik łatwo interpretować (np. 4,2 na skali 1–5),
do raportowania „ogólnego wyniku” w narzędziu (np. w firmowym kwestionariuszu) można użyć sumy, jeśli istnieją standardy interpretacyjne (np. „0–20 niski poziom, 21–40 średni, 41–60 wysoki”).

Obchodzenie się z brakami danych przy liczeniu indeksu

W realnych danych ktoś czegoś nie zaznaczy, inny zaznaczy „nie dotyczy”. Przed liczeniem indeksu trzeba ustalić prostą i spójną regułę:

jaka jest minimalna liczba odpowiedzi potrzebnych, by policzyć wynik (np. min. 70% pozycji w skali),
czy stosujesz prostą średnią z dostępnych odpowiedzi, czy bardziej wyrafinowane metody imputacji (w pracach magisterskich zazwyczaj wystarczy średnia).

Przykład reguły: skala ma 10 pozycji; jeśli respondent odpowiedział na co najmniej 7, liczysz średnią z tych 7–10 odpowiedzi. Jeśli mniej – traktujesz wynik skali jako brak danych (missing). Taka zasada chroni przed sytuacją, gdzie indeks opiera się np. na dwóch przypadkowo wypełnionych pozycjach.

Tip: przy średniej z różnej liczby pozycji zapisz w danych również liczbę wykorzystanych odpowiedzi (np. zmienna „N_valid”). Ułatwi to później ocenę wiarygodności poszczególnych wyników i ewentualne filtrowanie przypadków z bardzo małą liczbą odpowiedzi.

Skale z podwymiarami (subskalami)

W wielu narzędziach zamiast jednego indeksu powstaje kilka podskal. Przykład: skala zaangażowania pracownika może mieć części „zaangażowanie emocjonalne”, „zaangażowanie poznawcze”, „zaangażowanie behawioralne”. Każda z nich to osobny indeks złożony z innych pozycji.

Mechanizm liczenia pozostaje ten sam, ale trzeba pilnować trzech rzeczy:

dokładnie zdefiniować, które pozycje wchodzą do której subskali,
spójnie odwrócić wszystkie pozycje „w przeciwną stronę” w każdej subskali,
nie mieszać pozycji z różnych subskal przy liczeniu wyników częściowych.

W praktyce dobrym podejściem jest dodanie do tabeli kodowej dwóch kolumn: „nazwa_skali” i „kierunek” (1 = normalny, -1 = odwrócony). Dzięki temu przy analizie łatwo zautomatyzować przekształcenia i tworzenie indeksów.

Podstawowe statystyki dla skali typu Likerta w praktyce

Rozkłady, mediany i średnie: co mówi każda z tych liczb

Dla pojedynczej pozycji dobrą praktyką jest pokazanie pełnego rozkładu procentowego (np. ile osób zaznaczyło każdą kategorię). Mediana i moda dodają do tego informację, gdzie skupia się większość odpowiedzi:

moda – najczęstsza odpowiedź (np. najwięcej osób zaznaczyło „raczej się zgadzam”),
mediana – środkowa odpowiedź po uporządkowaniu (połowa odpowiedzi jest poniżej niej, połowa powyżej).

Średnia z pojedynczej pozycji jest bardziej kontrowersyjna (skala porządkowa), ale bywa stosowana praktycznie. Jeśli ją przedstawiasz, połącz to z rozkładem kategorii – sama średnia 3,8 niewiele mówi bez informacji, jak układa się reszta odpowiedzi.

Dla indeksu z wielu pozycji średnia i odchylenie standardowe stają się już pełnoprawnymi statystykami roboczymi. Można wtedy:

porównywać średnie między grupami (np. działami, płcią, poziomem stanowiska),
śledzić zmiany średniej w czasie (np. pomiar przed i po wdrożeniu programu),
liczyć korelacje z innymi zmiennymi (wynikiem sprzedaży, absencją, oceną przełożonego).

Wizualizacja danych likertowskich

Suche liczby trudno się czyta, więc dobrze jest korzystać z kilku prostych wykresów dopasowanych do skali Likerta:

Jakie wykresy dobrze „grają” ze skalą Likerta

Najczęściej używane są trzy typy wykresów. Każdy ma trochę inny cel, więc dobór zależy od pytania badawczego.

Wykres słupkowy skumulowany (stacked bar chart) – jeden wiersz = jedno pytanie, kolorami oznaczasz kategorie odpowiedzi. Dobrze pokazuje, jak rozkładają się odpowiedzi w ramach pytania, ale gorzej nadaje się do precyzyjnych porównań między wieloma pozycjami.
Wykres z „wyzerowanym środkiem” (diverging stacked bar) – kategorie „zgody” po prawej, „braku zgody” po lewej, środek to „ani się zgadzam, ani nie”. Bardzo czytelnie pokazuje bilans nastawienia (więcej zgody czy niezgody). To obecnie standard w raportach HR i badań satysfakcji.
Wykres pudełkowy (boxplot) dla indeksu – stosowany, gdy masz już policzony wynik skali i chcesz porównać grupy (działy, lokalizacje). Na osi masz wartość indeksu (np. 1–5), pudełka pokazują medianę i rozrzut.

Przy wielu pozycjach skali lepiej pogrupować je w subskale i wizualizować już indeksy niż 30 pojedynczych pytań. U odbiorcy szybciej „zaskakuje” informacja typu „zaangażowanie emocjonalne jest niższe niż poznawcze” niż 30 minianaliz pojedynczych zdań.

Skala Likerta a założenia analiz statystycznych

Na poziomie pojedynczej pozycji wartości 1–5 to skala porządkowa</strong. Różnica między 1 a 2 nie musi oznaczać tego samego „skoku” co między 3 a 4. Dlatego w podręcznikach ortodoksyjnie zaleca się testy nieparametryczne (np. U Manna-Whitneya, test Kruskala-Wallisa) zamiast klasycznych testów t dla pojedynczych pozycji.

Przy indeksie złożonym z wielu pozycji sytuacja się zmienia. Suma lub średnia z kilkunastu porządkowych kategorii zaczyna zachowywać się jak zmienna przybliżenie interwałowa (odstępy między wartościami są w praktyce podobne). To otwiera drogę do:

testów t i ANOVA dla porównań średnich,
korelacji Pearsona (nie tylko Spearmana),
regresji liniowej z indeksem jako zmienną zależną lub predyktorem.

Uwaga: to założenie „przybliżenia interwałowego” działa sensownie, gdy:

indeks ma wystarczająco szeroki zakres (np. skala 8–40 zamiast 3–15),
rozkład nie jest ekstremalnie skośny (prawie wszyscy mają 4–5 albo 1–2),
pozycje są w miarę jednorodne tematycznie.

Jeżeli twój indeks jest bardzo krótki (2–3 pozycje) i silnie skośny, lepiej trzymać się testów nieparametrycznych albo użyć transformacji (np. podział na kategorie: niskie / średnie / wysokie i analiza tabel krzyżowych).

Spójność wewnętrzna skali: alfa Cronbacha i alternatywy

Jeśli z kilku pozycji robisz jeden wynik, trzeba sprawdzić, czy te pozycje rzeczywiście mierzą coś wspólnego. Podstawowy wskaźnik to alfa Cronbacha (α), czyli miara spójności wewnętrznej.

Robocze interpretacje (dla badań społecznych / HR / edukacyjnych):

α < 0,6 – skala raczej słaba, mieszają się różne rzeczy lub są zbyt losowe odpowiedzi,
0,6 ≤ α < 0,7 – akceptowalna w badaniach eksploracyjnych,
0,7 ≤ α < 0,8 – solidna skala do praktyki,
α ≥ 0,8 – dobra / bardzo dobra spójność,
α > 0,95 – podejrzenie, że pozycje są zbyt podobne (prawie duplikaty).

Technicznie alfa rośnie z liczbą pozycji. Dziesięć umiarkowanie skorelowanych pytań da wyższe α niż trzy dobrze skorelowane. Dlatego nie ma sensu ścigać „jak najwyższego α” bezrefleksyjnie.

Przy obliczaniu alfy warto patrzeć na kolumnę „alpha if item deleted” („alfa po usunięciu pozycji”). Jeśli po wyrzuceniu konkretnego pytania alfa znacząco rośnie, to sygnał, że to pytanie nie pasuje do skali i zaburza spójność.

Alternatywy i uzupełnienia:

korelacje pozycja–całość (item-total correlations) – każda pozycja powinna przejawiać sensowną dodatnią korelację z sumą pozostałych; bardzo niska lub ujemna korelacja sugeruje „obcą” pozycję,
omega McDonalda – nowocześniejsza miara rzetelności, mniej wrażliwa na niektóre założenia niż alfa; przy analizach zaawansowanych bywa preferowana.

Różnice między skalą Likerta a „prawdziwą” skalą przedziałową

Po zakodowaniu odpowiedzi 1–5 często traktuje się indeks jak dowolną zmienną liczbową. W praktyce działa to całkiem dobrze, ale ma kilka ograniczeń:

górny i dolny koniec skali to twarde granice – respondent, który „jeszcze bardziej się zgadza”, nie ma gdzie tego zaznaczyć,
rozpiętość skali jest sztuczna – różnica między 1 a 2 jest w głowie respondenta, nie w obiektywnej jednostce (jak stopnie Celsjusza),
rozkład bywa „ściśnięty” w górze (tzw. efekt sufitu) lub w dole (efekt podłogi), co zaniża zróżnicowanie i korelacje.

Dlatego przy interpretacji wyniku „3,8 vs 4,1” bardziej liczy się kontekst niż absolutna różnica. W badaniach panelowych (te same osoby w czasie) taka różnica może być ważna. W badaniu przekrojowym dwóch niezależnych próbek – już mniej, zwłaszcza przy małej liczebności.

Skale Likerta w porównaniach grupowych

Indeks likertowski świetnie nadaje się do porównań między grupami, ale wymaga kilku technicznych decyzji.

Poziom analizy – czy porównujesz pojedyncze pozycje, subskale czy tylko jeden indeks ogólny. Im wyżej, tym stabilniejsze wyniki, ale tym mniej informacji o szczegółach.
Rodzaj testu – dla indeksów o w miarę normalnych rozkładach typowo używa się testu t (dwie grupy) lub ANOVA (więcej grup). Gdy rozkłady są bardzo skośne lub masz małe grupy, lepsze są testy nieparametryczne (Mann-Whitney, Kruskal-Wallis).
Wielkość efektu – oprócz istotności statystycznej sprawdzaj miary typu Cohen d (różnica średnich w jednostkach odchylenia standardowego). Przy dużych próbach nawet minimalne różnice będą „istotne”, ale praktycznie bez znaczenia.

Przykład z praktyki HR: różnica średniego indeksu „zaangażowanie” między działami A i B wynosi 0,15 punktu na skali 1–5. Statystycznie istotna (duża próba), ale rozkłady niemal się pokrywają. Dużo ciekawsze okazuje się porównanie subskali: w dziale B mocno odstaje „jasność celów” przy podobnym „zaufaniu do przełożonego”.

Normalizacja i przeskalowywanie wyników

W wielu organizacjach lub projektach badawczych stosuje się techniczne przekształcenia wyniku, żeby łatwiej było je porównywać albo wpisywać w istniejące standardy raportowe.

Najczęstsze operacje:

przeskalowanie na 0–100 – wygodne dla raportów; prosty wzór dla skali 1–5:
(średnia - 1) / (5 - 1) * 100. Wynik 1 daje 0, 5 daje 100, 3 daje 50.
standaryzacja Z – odejmujesz średnią i dzielisz przez odchylenie standardowe (na poziomie próby). Wynik mówi, o ile odchyleń standardowych dana osoba / grupa jest powyżej lub poniżej średniej. To dobra baza do łączenia różnych skal w jeden kompozyt.
centrowanie (odejmowanie średniej) – użyteczne w modelach regresji, zwłaszcza przy interakcjach; nie zmienia kształtu rozkładu, ale ułatwia interpretację parametrów.

Uwaga przy 0–100: przeskalowanie nie „magicznie” zwiększa precyzji. To wciąż ta sama informacja, tylko w innej jednostce. „62 punkty na 100” i „3,48 na 1–5” to ten sam poziom – różni się tylko format prezentacji.

Łączenie wielu skal Likerta w jeden wskaźnik złożony

Czasem kilka odrębnych skal chcemy spiąć w jeden indeks kompozytowy (np. „dobrostan pracowniczy” złożony z satysfakcji, zaangażowania i braku wypalenia). Żeby miało to sens, trzeba zadbać o kilka elementów.

Wspólna metryka – subskale powinny być w tej samej jednostce. Najprościej: wszystkie w średniej 1–5 lub wszystkie przeskalowane do 0–100. Nie mieszaj surowych sum z różnych zakresów.
Spójny kierunek – w każdej skali wysoki wynik musi oznaczać „więcej” tego, co finalny wskaźnik ma mierzyć. Jeśli jedna skala mierzy wypalenie, a druga satysfakcję, wypalenie trzeba odwrócić (np. 0–100 → 100 – wynik).
Wagi składowych – możesz założyć równe wagi (średnia z subskal) albo zastosować wagi na podstawie analizy czynnikowej / decyzji eksperckiej. Przy braku silnego powodu, równe wagi są najbezpieczniejsze i najłatwiejsze do wyjaśnienia.

Tip: jeśli subskale mają różną liczbę pozycji, a liczysz indeksy jako średnie, nie musisz dodatkowo „korygować” wagi – każda subskala wnosi 1/3 do wyniku, niezależnie od liczby pozycji.

Minimalna liczba kategorii odpowiedzi – 4, 5, 7, a może 11?

Projektując skalę Likerta, trzeba zdecydować, ile stopni zgody chcesz dać respondentowi. Ta decyzja wpływa zarówno na sposób kodowania, jak i późniejszą analizę.

4-stopniowe (bez środka) – wymuszają opowiedzenie się „za” lub „przeciw”. Dobre, gdy chcesz uniknąć nadmiernego korzystania z odpowiedzi neutralnej, ale gorsze, gdy temat jest faktycznie niejednoznaczny.
5-stopniowe – klasyczny kompromis: jest środek („ani tak, ani nie”), a rozdzielczość jest wciąż zrozumiała dla większości respondentów. Analizy statystyczne są wygodne, a rozkłady łatwo interpretować.
7-stopniowe – dają większą „rozdzielczość” i lepsze przybliżenie skali interwałowej, ale przy niższych kompetencjach respondentów częściej pojawiają się błędy lub nadużywanie skrajnych kategorii.
11-stopniowe i więcej – to już bliżej skali numerycznej (0–10). Stosowane raczej w badaniach marketingowych (np. NPS), rzadziej w klasycznych skalach psychometrycznych.

Od strony kodowania wszystkie te skale działają tak samo: kategorie dostają kolejne liczby (np. 1–7), odwracanie wykorzystuje wzór (k + 1) - stary_kod, a indeksy to suma lub średnia. Problemem nie jest więc technika, lecz jakość odpowiedzi i interpretowalność „kroku” między kolejnymi kategoriami.

Transformacje odpowiedzi likertowskich na zmienne binarne lub kategoryczne

Czasem z powodów analitycznych lub raportowych trzeba uprościć skalę 1–5 do mniejszej liczby kategorii.

Popularne podejścia:

dichotomizacja – łączysz np. 4–5 jako „pozytywna ocena”, 1–3 jako „brak pozytywnej oceny”. Umożliwia proste wskaźniki procentowe („% zadowolonych”), ale traci dużo informacji.
trzy kategorie – 1–2 = „negatywne”, 3 = „neutralne”, 4–5 = „pozytywne”. Zyskujesz lepsze rozróżnienie nastrojów przy wciąż prostym komunikacie.
zachowanie wszystkich kategorii – przy analizie tabel krzyżowych i modelach logistycznych można użyć zmiennych porządkowych (np. regresja logistyczna porządkowa), bez upraszczania.

Uwaga: każda redukcja liczby kategorii zmniejsza wariancję, a więc i maksymalną możliwą siłę korelacji z innymi zmiennymi. Uproszczenia są więc dobre do komunikacji (slajdy, infografiki), ale do analiz statystycznych lepiej pracować na pełnej skali 1–5 lub 1–7.

Praktyczne zasady kodowania w arkuszu i w językach statystycznych

Gdy liczba zmiennych rośnie, ręczne odwracanie i liczenie indeksów staje się polem minowym. Kilka prostych praktyk oszczędza sporo nerwów.

Jasne nazwy zmiennych – np. Q1, Q2_r (sufiks _r dla pozycji odwróconych), ENG_emot dla pozycji zaangażowania emocjonalnego. Nazwa ma podpowiadać, czy dana zmienna wymaga odwrócenia i do jakiej skali należy.

Najczęściej zadawane pytania (FAQ)

Jak kodować odpowiedzi w skali Likerta (np. 1–5 czy 0–4)?

Najczęściej stosuje się kodowanie 1–5 dla pięciu kategorii odpowiedzi (lub 1–7 przy siedmiopunktowej skali). Przykładowo: 1 – „zdecydowanie się nie zgadzam”, 2 – „raczej się nie zgadzam”, 3 – „ani się zgadzam, ani się nie zgadzam”, 4 – „raczej się zgadzam”, 5 – „zdecydowanie się zgadzam”. Kluczowe jest zachowanie rosnącego porządku – większa liczba = wyższy poziom mierzonej cechy.

Można użyć także 0–4, jeśli tak wygodniej liczyć sumy (np. przy testach psychologicznych). Ważne, by konsekwentnie trzymać się jednego schematu w całym kwestionariuszu oraz jasno go opisać w części metodologicznej pracy lub raportu.

Jak liczyć wyniki ze skali Likerta – sumą czy średnią?

Technicznie oba podejścia są poprawne. Jeśli wszystkie pozycje skali mierzą ten sam konstrukt (np. „satysfakcja z pracy”) i mają taki sam zakres odpowiedzi, możesz:

zsumować punkty z poszczególnych pytań – otrzymasz wynik całkowity (indeks),
policzyć średnią z pozycji – otrzymasz wynik w tej samej skali, co pojedyncze pytanie (np. 1–5).

W praktyce średnia jest wygodniejsza do interpretacji („średnio 3,8 w skali 1–5”), a suma lepiej nadaje się do testowania rzetelności skali i niektórych analiz statystycznych. Kluczowe, by wszystkie pytania miały ten sam kierunek (brak „odwróconych” bez przeliczenia).

Co to są odwrócone pytania w skali Likerta i jak je przeliczyć?

Odwrócone pytanie (ang. reverse-coded item) to takie, w którym wysoki poziom zgody oznacza niski poziom mierzonej cechy. Przykład: w skali „satysfakcja z pracy” stwierdzenie „Często myślę o odejściu z tej firmy” jest odwrotne wobec „Lubię moją pracę”. Jeśli przyjmiesz kodowanie 1–5, to odpowiedzi trzeba „przerzucić”: 1↔5, 2↔4, 3 zostaje bez zmian.

Ogólna zasada przeliczenia: nowy_kod = (max + min) − stary_kod. Dla skali 1–5: nowy_kod = 6 − stary_kod. Po takim przeliczeniu wszystkie pozycje są skierowane w tę samą stronę (wyższy wynik = więcej badanego zjawiska) i dopiero wtedy wolno je sumować lub uśredniać.

Czy można liczyć średnią ze skali Likerta i stosować testy t-Studenta / ANOVA?

Pojedyncze pytanie typu Likerta jest formalnie skalą porządkową, więc „książkowo” opisuje się je medianą i rozkładem procentów. Jednak gdy budujesz indeks z wielu pozycji (np. 6–10 twierdzeń) i sumujesz lub uśredniasz wyniki, w praktyce traktuje się go jak przybliżenie skali przedziałowej. Wtedy liczenie średnich, odchyleń standardowych oraz stosowanie testów t-Studenta czy ANOVA jest powszechną praktyką.

Uwaga: przy małych próbach lub bardzo krótkich skalach (2–3 pozycje) lepiej rozważyć testy nieparametryczne (np. U Manna–Whitneya, Kruskala–Wallisa) lub przynajmniej sprawdzić, czy wyniki nie są skrajnie skośne.

Jak analizować skalę Likerta w Excelu krok po kroku?

Minimalny workflow wygląda tak: najpierw zakoduj odpowiedzi liczbowo (np. 1–5) w tabeli, każda pozycja w osobnej kolumnie. Następnie:

dla odwróconych pytań dodaj nowe kolumny z przeliczonymi wartościami (np. formuła: =6−A2 dla skali 1–5),
utwórz kolumnę z wynikiem skali – suma (=SUMA(B2:G2)) lub średnia (=ŚREDNIA(B2:G2)),
policz podstawowe statystyki: ŚREDNIA, MEDIANA, ODCH.STANDARDOWE, rozkłady procentowe (np. Tabela przestawna).

Tip: jeśli masz kilka skal w jednym arkuszu, trzymaj każdą skalę w osobnym bloku kolumn i opisuj je nagłówkami, żeby uniknąć pomyłek przy sumowaniu.

Jak badać rzetelność skali Likerta (alfa Cronbacha) w pracy dyplomowej?

Rzetelność skali (spójność wewnętrzna) najczęściej ocenia się przez współczynnik alfa Cronbacha. W SPSS czy R liczysz alfę na podstawie wszystkich pozycji, które tworzą dany indeks (po przeliczeniu odwróconych pytań). Wartość ≥ 0,7 jest zwykle akceptowalna dla badań aplikacyjnych, choć interpretacja zależy od kontekstu.

W opisie metod wystarczy krótko podać, że: „Rzetelność skali X oceniono za pomocą współczynnika alfa Cronbacha, który wyniósł …, co wskazuje na zadowalającą spójność wewnętrzną”. Jeśli alfa jest niska, sprawdź, czy jakaś pozycja nie psuje skali (analiza „alfa po usunięciu pozycji”).

Jak prezentować wyniki skali Likerta w pracy magisterskiej lub raporcie?

Przydatne są dwie warstwy prezentacji. Po pierwsze, rozkład odpowiedzi dla poszczególnych pozycji (tabela lub wykres słupkowy z procentami dla każdej kategorii odpowiedzi). Po drugie, opis łącznego wyniku skali: średnia, odchylenie standardowe, minimum, maksimum oraz porównania między grupami (np. działami, płcią, poziomem stanowiska).

Dobry, techniczny opis może brzmieć: „Średni poziom satysfakcji (indeks z 8 pozycji, 1–5) wyniósł 3,9 (SD = 0,6). Najwyższe zgody dotyczyły stwierdzenia ‘Atmosfera w moim zespole jest dobra’ (74% odpowiedzi ‘raczej się zgadzam’ i ‘zdecydowanie się zgadzam’).” Takie ujęcie łączy liczby z krótką, zrozumiałą interpretacją.

Zobacz także:

1 KOMENTARZ

BystraObserwator 20 maja, 2026 W 9:00 pm
Bardzo ciekawy artykuł na temat skali Likerta! Cieszę się, że autor dokładnie wyjaśnił, jak należy kodować odpowiedzi i liczyć wyniki, co na pewno przyda się wielu badaczom i studentom. Natomiast brakuje mi trochę głębszego przyjrzenia się temu, jakie są potencjalne błędy przy wykorzystywaniu tej skali oraz jak można je uniknąć. Może warto rozszerzyć ten temat w przyszłych artykułach? W każdym razie polecam lekturę tego tekstu wszystkim zainteresowanym!

Komentarze są aktywne tylko po zalogowaniu.