Abstrakcyjne wykresy danych ilustrujące analizę statystyczną SPSS
Źródło: Pexels | Autor: Negative Space
Rate this post

Nawigacja po artykule:

Po co w ogóle sprawdzać normalność? Kontekst i decyzje analityczne

Założenie normalności w testach parametrycznych

Większość popularnych testów statystycznych używanych w badaniach empirycznych opiera się na założeniu, że analizowane zmienne (lub reszty z modeli) mają rozkład zbliżony do normalnego. Dotyczy to w szczególności takich procedur jak:

  • test t-Studenta dla jednej próby (porównanie średniej z wartością teoretyczną),
  • test t-Studenta dla prób niezależnych (porównanie dwóch grup),
  • test t-Studenta dla prób zależnych (pomiar przed–po, badania powtarzane),
  • ANOVA jednoczynnikowa i wieloczynnikowa,
  • korelacja Pearsona,
  • regresja liniowa (głównie normalność reszt modelu).

W praktyce testy parametryczne są bardzo wygodne: mają prostą interpretację, dużą moc statystyczną i są szeroko akceptowane w publikacjach naukowych. Jednak ich poprawność formalna zakłada, że błąd losowy (a w prostych analizach – sama zmienna) ma rozkład przybliżony do normalnego. Bez oceny normalności analityk nie wie, na ile to założenie jest spełnione.

W wielu projektach studenckich decyzja o wyborze testu ogranicza się do sprawdzenia typu zmiennej (ilościowa vs jakościowa) i liczby grup. Tymczasem kształt rozkładu bywa równie istotny. Wynik testu t czy ANOVA jest tym wiarygodniejszy, im bardziej rozkład danych przypomina krzywą dzwonową, bez skrajnej skośności i bez pojedynczych, ekstremalnych obserwacji, które dominują wynik.

Kiedy normalność jest kluczowa, a kiedy ma mniejsze znaczenie

Centralne twierdzenie graniczne mówi, że dla dużych prób rozkład średniej z obserwacji zmierza do normalnego, nawet jeśli pojedyncze pomiary nie są idealnie normalne. W uproszczeniu: przy bardzo dużym N (np. kilkaset, kilka tysięcy obserwacji) drobne odchylenia od normalności często nie są powodem do zmiany testu.

Sytuacja wygląda inaczej przy małych i średnich próbach, typowych np. w badaniach psychologicznych czy socjologicznych prowadzonych na kilkunastu–kilkudziesięciu osobach. Wtedy kształt rozkładu ma dużo większe znaczenie. Jeśli:

  • próba jest mała (np. N < 30),
  • rozkład jest wyraźnie skośny (np. większość wyników bardzo niska, kilka ekstremalnie wysokich),
  • pojawiają się wyraźne obserwacje odstające,

to wyniki testów parametrycznych mogą być wrażliwe na pojedyncze wartości i mało stabilne. Wtedy test Shapiro–Wilka w SPSS oraz wykresy normalności stają się kluczową częścią analizy, a nie formalnym dodatkiem.

Inny przypadek: badania ankietowe na próbie kilkuset osób, gdzie zmienne dotyczą np. miesięcznych dochodów. Rozkład dochodów bywa skrajnie skośny, nawet przy dużym N. W takiej sytuacji normalność rozkładu nie pojawi się tylko dlatego, że próba jest duża. Ocena normalności pozostaje zatem ważna niezależnie od liczebności, choć sposób interpretacji może się różnić.

Konsekwencje ignorowania rozkładu danych

Ignorowanie rozkładu danych i mechaniczne stosowanie testów parametrycznych prowadzi do dwóch rodzajów problemów:

  1. Zafałszowane wnioski – gdy rozkład jest skrajnie nienormalny, a liczebność mała. Średnia nie reprezentuje „typowego” wyniku, odchylenie standardowe jest trudne do interpretacji, a test t może dawać wyniki zależne od kilku skrajnych obserwacji.
  2. Przesadna wrażliwość na drobne odchylenia – przy bardzo dużych próbach test normalności potrafi „przestrzelić” i wykryć statystycznie istotne, ale praktycznie nieistotne odstępstwa. Wtedy sztywne trzymanie się wyniku testu bywa nadmiernie konserwatywne.

W kontekście projektów studenckich czy raportów dla biznesu problem ma też wymiar wizerunkowy. Recenzent lub zleceniodawca, który widzi test t czy ANOVA bez żadnej oceny założeń, może uznać analizę za niekompletną. Z kolei dobrze udokumentowana ocena normalności (test Shapiro–Wilka + wykresy normalności w SPSS) wzmacnia wiarygodność całego opracowania.

Pytania kontrolne przed uruchomieniem testów

Przed wyborem konkretnego testu statystycznego warto zadać kilka prostych pytań kontrolnych:

  • Jakiego typu jest zmienna? (ilościowa na skali interwałowej lub ilorazowej, czy raczej porządkowa?)
  • Jaka jest liczebność próby i liczebność w poszczególnych grupach?
  • Co wiemy o kształcie rozkładu? Czy są przesłanki, że wyniki mogą być skośne (np. czas reakcji, dochód, liczba błędów)?
  • Czy mamy powody sądzić, że wystąpią obserwacje odstające (np. pojedyncze, bardzo wysokie wynagrodzenia)?
  • Czego nie wiemy bez testu normalności i wykresów? Czy nasze założenia wynikają z wiedzy o zjawisku, czy tylko z życzeniowego myślenia?

Odpowiedzi na te pytania pomagają ocenić, czy test Shapiro–Wilka w SPSS jest niezbędnym krokiem, czy raczej formą dokumentacji i potwierdzenia, że nie dzieje się nic niepokojącego z rozkładem danych.

Podstawy testu Shapiro–Wilka – co mierzy i kiedy ma sens

Hipoteza zerowa, statystyka W i p-value

Test Shapiro–Wilka jest jednym z najczęściej stosowanych testów normalności dla małych i średnich prób. Ma prostą konstrukcję logiczną:

  • Hipoteza zerowa (H0): rozkład badanej zmiennej nie różni się od rozkładu normalnego (zmienna ma rozkład normalny w populacji).
  • Hipoteza alternatywna (H1): rozkład różni się od normalnego (zmienna nie pochodzi z populacji o rozkładzie normalnym).

SPSS raportuje dwie kluczowe liczby:

  • statystykę W – przyjmuje wartości od 0 do 1; im bliżej 1, tym lepsze dopasowanie do rozkładu normalnego,
  • Sig. (p) – poziom istotności testu, czyli prawdopodobieństwo uzyskania takiego (lub bardziej ekstremalnego) rozkładu, gdyby w populacji dane były normalne.

Decyzja interpretacyjna opiera się standardowo na wartości p. Jeśli p < 0,05, odrzuca się hipotezę zerową – konkluzja: rozkład różni się istotnie od normalnego. Jeśli p ≥ 0,05, brak podstaw do odrzucenia hipotezy zerowej – rozkład jest zgodny z normalnym w granicach czułości testu i liczebności próby.

Istotny jest tu język interpretacji. Test Shapiro–Wilka nie „potwierdza normalności”, on jedynie nie wykrywa istotnych odchyleń przy danej liczebności próby i przyjętym poziomie istotności.

Dlaczego Shapiro–Wilk, a nie tylko Kolmogorow–Smirnow

W SPSS dostępne są dwa testy normalności:

  • Kolmogorow–Smirnow (z poprawką Lillieforsa),
  • Shapiro–Wilk.

W literaturze metodologicznej i w praktyce badań empirycznych test Shapiro–Wilka jest często rekomendowany jako bardziej czuły, szczególnie przy małych i średnich liczebnościach. Test Kolmogorowa–Smirnowa ma mniejszą moc wykrywania subtelnych odchyleń, jest też bardziej konserwatywny, a jego własności przy estymowanych parametrach (średnia, odchylenie standardowe z próby) są mniej korzystne.

W praktyce SPSS domyślnie prezentuje oba testy w procedurze Explore, ale w raportach naukowych oraz pracach dyplomowych częściej interpretuje się właśnie test Shapiro–Wilka. Szczególnie istotne jest to w sytuacjach:

  • gdy N jest niewielkie (np. 20–50 obserwacji),
  • gdy porównuje się kilka grup o różnych liczebnościach,
  • gdy dana zmienna jest kluczowa dla głównego wniosku badania.

Porównanie tych dwóch testów można przedstawić w prostej tabeli porównawczej.

CechaTest Shapiro–WilkaTest Kolmogorowa–Smirnowa
Typowy zakres NMałe i średnie próbyŚrednie i duże próby
Moc testuWyższa (bardziej czuły na odchylenia)Niższa (bardziej konserwatywny)
Rekomendacja praktycznaCzęsto preferowany w badaniach empirycznychCzęsto traktowany pomocniczo
Dostępność w SPSS ExploreTak (domyślnie)Tak (domyślnie)

Liczebność próby a stosowanie testu Shapiro–Wilka

W praktyce stosuje się następujące ogólne zasady:

  • N od 3 do ok. 50 – test Shapiro–Wilka jest szczególnie zalecany, interpretacja p-value jest względnie stabilna, a test ma dobrą moc wykrywania wyraźnych odchyleń.
  • N od 50 do ok. 2000 – test wciąż ma sens, ale trzeba ostrożnie interpretować drobne odchylenia, szczególnie gdy p jest bardzo małe, a histogram i Q-Q plot wskazują jedynie niewielką skośność.
  • Bardzo duże N (powyżej 2000) – sam test normalności bywa nadwrażliwy. Wtedy większą wagę przykłada się do wykresów i miar skośności/kurtozy, a wynik testu traktuje jako sygnał, nie jako jedyne kryterium.

SPSS formalnie liczy test Shapiro–Wilka także dla większych prób (w nowszych wersjach programu), ale przy bardzo dużych N niemal każdy rozkład będzie „statystycznie nienormalny”. W takich przypadkach konieczna jest interpretacja łączna: test, wykresy, wielkość odchyleń oraz wpływ na decyzje o dalszych analizach.

Ograniczenia i wrażliwość testu

Test Shapiro–Wilka ma kilka istotnych ograniczeń, które warto uwzględniać:

  • Wrażliwość na obserwacje odstające – pojedyncze, skrajne wartości mogą spowodować istotny wynik testu, nawet gdy gros danych jest dobrze dopasowanych do rozkładu normalnego.
  • Wrażliwość na skośność i kurtozę – bardzo skośne rozkłady, charakterystyczne np. dla dochodów, liczby błędów, czasu reakcji, często dają istotne wyniki testu, co sygnalizuje konieczność rozważenia alternatyw parametrycznych lub transformacji danych.
  • Uzależnienie od N – ten sam stopień odchylenia od normalności może być istotny przy dużej próbie i nieistotny przy małej, co wymusza świadomą interpretację w kontekście wielkości próby.

Test Shapiro–Wilka w SPSS jest więc narzędziem diagnostycznym, a nie automatycznym „wyrocznią”. Łączony z histogramem, Q-Q plotem i boxplotem tworzy pełny obraz tego, jak bardzo dane odbiegają od rozkładu normalnego i czy ma to realne znaczenie dla kolejnych kroków analizy.

Dokumenty z analizą danych, lupa i okulary ułożone na biurku
Źródło: Pexels | Autor: Hanna Pad

Przygotowanie danych w SPSS do testu normalności – od arkusza do zmiennej

Typ i poziom pomiaru – gdzie test normalności ma sens

Test normalności ma sens wyłącznie dla zmiennych ilościowych mierzonych na skali interwałowej lub ilorazowej. W SPSS takie zmienne ustawia się jako Scale w kolumnie Measure (w Variable View):

  • czas reakcji (ms, sekundy),
  • wiek (lata),
  • wynik testu (liczba punktów),
  • wynagrodzenie (zł miesięcznie),
  • liczba błędów.

Dla zmiennych porządkowych (Ordinal) lub nominalnych (Nominal) test normalności nie jest właściwy. Nie ma sensu badać normalności dla takich zmiennych jak:

  • płeć (0 = mężczyzna, 1 = kobieta),
  • wykształcenie (1 = podstawowe, 2 = średnie, 3 = wyższe),
  • kategoria produktu.

Jeśli zmienna jest wpisana jako liczby, ale faktycznie oznacza kategorie, trzeba odpowiednio ustawić jej typ pomiaru. W przeciwnym razie SPSS pozwoli formalnie uruchomić test Shapiro–Wilka, ale wynik będzie bezwartościowy merytorycznie.

Czyszczenie danych: braki, kody specjalne, błędne wpisy

Zanim dojdzie do testu Shapiro–Wilka w SPSS, konieczne jest przygotowanie zmiennej:

Identyfikacja braków danych i kodów specjalnych

Pierwszym krokiem jest sprawdzenie, jak wyglądają dane w arkuszu. W Data View od razu widać puste komórki, ale nie widać kodów specjalnych (np. 9999 oznaczające „brak odpowiedzi”). Trzeba więc zajrzeć do Variable View:

  • w kolumnie Values często znajdują się opisy typu 9999 = „brak danych”,
  • w kolumnie Missing można zdefiniować wartości traktowane jako braki.

Jeśli w zmiennej, dla której planowany jest test Shapiro–Wilka, pojawiają się stałe kody „techniczne”, trzeba je zamienić na system-missing (kropki) lub zadeklarować jako user-missing. W przeciwnym razie rozkład zostanie zaburzony, a test normalności będzie w praktyce badał mieszankę danych rzeczywistych i kodów umownych.

Korekty błędnych wpisów i jednostek

Druga warstwa przygotowania to szybki przegląd skrajnych wartości. W praktyce często wychodzą proste błędy:

  • czas reakcji wpisany w sekundach zamiast w milisekundach tylko w jednej części próby,
  • brak przecinka dziesiętnego (np. 125 zamiast 1,25),
  • literówki w polu liczbowym (np. 0,0 zamiast 0,00 albo 999 przy średnio kilkudziesięciu jednostkach).

Do pierwszego przeglądu sprawdzają się:

  • Analyze → Descriptive Statistics → Descriptives – szybki podgląd minimum, maksimum, średniej i odchylenia standardowego,
  • Graphs → Legacy Dialogs → Histogram – histogram „na próbę”, jeszcze przed formalnym testem.

Jeśli zakres wartości odbiega rażąco od oczekiwanego (np. czas reakcji między 0 a 3 sekund, a w danych pojawia się 30 lub 300), mamy pierwszy sygnał do weryfikacji danych źródłowych. Test Shapiro–Wilka nie rozróżnia, czy skrajna wartość jest prawdziwą obserwacją odstającą, czy zwykłym błędem wpisu – każda z nich zadziała podobnie na wynik.

Podział na grupy i warunki – dla kogo osobny test normalności

Normalność rozkładu jest zwykle sprawdzana osobno w każdej grupie, którą później porównujemy. W praktyce przekłada się to na:

  • oddzielne testy dla grupy eksperymentalnej i kontrolnej,
  • oddzielne testy dla kobiet i mężczyzn,
  • oddzielne testy dla trzech poziomów wykształcenia.

W SPSS ten schemat odzwierciedla się poprzez zmienną grupującą (np. grupa = 0/1) oraz zmienną testowaną (np. czas_reakcji). Test normalności nie jest uruchamiany raz „dla całości próby”, jeśli później planowane są porównania między poziomami zmiennej grupującej. Od strony decyzji statystycznej pytanie brzmi wtedy: czy w każdej z analizowanych grup rozkład jest na tyle zbliżony do normalnego, by użyć testu parametrycznego?

Kontrola duplikatów i ekstremów przed testem

Zanim przejdzie się do właściwej procedury, przydaje się prosta kontrola jakości danych:

  • Data → Sort Cases – sortowanie po zmiennej ilościowej w górę i w dół,
  • przegląd pierwszych i ostatnich kilkunastu obserwacji,
  • sprawdzenie, czy nie ma logicznie niemożliwych wartości (np. ujemny czas czy ujemny wiek).

Tego typu kontrola trwa kilka minut, a często przesądza o sensowności późniejszego testu Shapiro–Wilka. Jeśli po sortowaniu przy minimum i maksimum pojawiają się te same, wątpliwe wartości wielokrotnie, trzeba odpowiedzieć sobie na pytanie: czy to specyfika badanej populacji, czy błąd proceduralny w zbieraniu danych?

Test Shapiro–Wilka w SPSS krok po kroku – procedura praktyczna

Ścieżka menu: podstawowa procedura w Explore

W SPSS najwygodniej uruchomić test Shapiro–Wilka przez procedurę Explore:

  1. Wybór z menu: Analyze → Descriptive Statistics → Explore…
  2. Przeniesienie badanej zmiennej (np. czas_reakcji) do pola Dependent List.
  3. Przeniesienie zmiennej grupującej (np. grupa, płeć) do pola Factor List, jeśli chcemy osobnych testów w każdej grupie.
  4. Kliknięcie przycisku Plots… i zaznaczenie opcji:
    • Normality plots with tests – ta opcja uruchamia m.in. test Shapiro–Wilka,
    • Histogram – jeśli potrzebny jest równolegle histogram.
  5. Potwierdzenie przyciskiem Continue, a następnie OK.

Wyniki pojawią się w Output Viewer i będą obejmować zarówno tabelę testów normalności, jak i wykresy. To ta kombinacja – liczby plus obraz – ma kluczowe znaczenie przy podejmowaniu dalszych decyzji.

Wielozmienne sprawdzenie normalności w jednej procedurze

Jeśli analizowanych zmiennych jest więcej (np. kilka wyników testów, parę rodzajów czasów reakcji), nie trzeba uruchamiać procedury osobno dla każdej z nich. W polu Dependent List można umieścić kilka zmiennych jednocześnie. SPSS:

  • wygeneruje testy Shapiro–Wilka osobno dla każdej zmiennej,
  • podzieli wyniki dodatkowo według zmiennej grupującej, jeśli jest wskazana w Factor List.

W efekcie powstaje seria tabel i wykresów. Taki układ sprzyja porównaniom: czy problem z normalnością dotyczy jednej konkretnej zmiennej, czy jest szerszym wzorcem (np. wszystkie czasy reakcji są silnie skośne).

Alternatywna ścieżka: Analyze → Descriptive Statistics → Q-Q plots

W nowszych wersjach SPSS dostępna jest także opcja tworzenia samych wykresów normalności, bez dodatkowych statystyk opisowych, przez:

  • Analyze → Descriptive Statistics → Q-Q plots…

Ta procedura generuje m.in. wykresy kwantyl–kwantyl. Nie zawsze zawiera test Shapiro–Wilka, dlatego w kontekście pełnej diagnozy rozkładu częściej sięga się po Explore. Jeśli jednak test został już wykonany inną drogą, sam Q-Q plot bywa dobrym uzupełnieniem.

Powtarzalność analizy: zapis poleceń w Syntax

W praktyce badań, gdzie dane są aktualizowane (np. dokładane kolejne osoby), liczy się możliwość szybkiego odtworzenia procedury. SPSS przy każdym uruchomieniu analizy może generować polecenie w języku Syntax:

  1. W Output Viewer kliknięcie prawym przyciskiem na dowolnej tabeli wyniku.
  2. Wybór opcji Edit → Paste lub bezpośrednio z okna dialogowego Paste zamiast OK.
  3. Powstaje okno Syntax z komendami, które można zapisać i później uruchamiać dla nowych danych.

Test Shapiro–Wilka jest wtedy tylko elementem szerszego „scenariusza” analitycznego, w którym dane przechodzą przez stały zestaw procedur: czyszczenie, opisy statystyczne, normalność, główne testy hipotez.

Interpretacja tabeli Shapiro–Wilka w SPSS – liczby w kontekście

Struktura tabeli „Tests of Normality”

Po uruchomieniu procedury Explore w Output Viewer pojawia się tabela Tests of Normality. Standardowo zawiera dwa bloki kolumn:

  • dane dla testu Kolmogorowa–Smirnowa,
  • dane dla testu Shapiro–Wilka.

W części dotyczącej Shapiro–Wilka pojawiają się kolumny:

  • Statistic – statystyka W,
  • df – liczba stopni swobody (w praktyce liczebność danej grupy),
  • Sig. – p-value, czyli prawdopodobieństwo przy założeniu normalności w populacji.

Jeśli w analizie występuje zmienna grupująca, tabela będzie miała oddzielny wiersz dla każdej kombinacji: zmienna zależna × grupa (np. czas_reakcji – grupa kontrolna; czas_reakcji – grupa eksperymentalna).

Jak czytać statystykę W w powiązaniu z p-value

W interpretacji testu Shapiro–Wilka nie zatrzymuje się zwykle na samej wartości W. Kluczowa jest relacja W–p–N:

  • W bliskie 1 i p ≥ 0,05 – rozkład jest zgodny z normalnym w granicach czułości testu.
  • W istotnie mniejsze od 1 i p < 0,05 – rozkład różni się istotnie od normalnego.
  • W nieco mniejsze od 1, ale p tuż powyżej 0,05 – sytuacja graniczna, wymagająca dodatkowego wglądu w histogram i Q-Q plot.

Co wiemy z samego faktu, że p < 0,05? Jedynie tyle, że kształt rozkładu w próbie jest mało prawdopodobny, gdyby populacja miała dokładnie rozkład normalny. Czego jeszcze nie wiemy? Jak duże są odchylenia i czy są one istotne praktycznie dla danego typu analizy.

Próg istotności 0,05 a tło badania

Standardem jest poziom istotności α = 0,05, ale nie jest to świętość. Zdarzają się sytuacje, gdzie analityk:

  • traktuje wynik p w okolicach 0,04–0,06 jako sygnał ostrzegawczy, a nie czarno-białą decyzję,
  • podwyższa lub obniża poziom α w zależności od konsekwencji błędnej decyzji o zastosowaniu testu parametrycznego.

Przykładowo przy małych próbach, gdy ewentualne zastosowanie testu nieparametrycznego drastycznie obniży moc analizy, badacz może bardziej polegać na ocenie wizualnej wykresów niż na samym progu 0,05. Z kolei w projektach o wysokiej odpowiedzialności (np. badania kliniczne) kryteria bywają bardziej konserwatywne.

Różne wyniki w grupach – co zrobić, gdy jedna grupa „przechodzi”, a druga nie

W praktyce często pojawia się scenariusz: w jednej grupie rozkład jest zgodny z normalnym (p ≥ 0,05), a w drugiej – istotnie odbiega (p < 0,05). Pojawia się pytanie: czy można stosować testy parametryczne (np. t-Studenta) do porównań między takimi grupami?

Decyzja zależy m.in. od:

  • stopnia naruszenia normalności (stopień skośności/kurtozy, kształt wykresów),
  • liczebności grup – przy dużych N centralne twierdzenie graniczne częściowo „ratyfikuję” rozkłady umiarkowanie nienormalne,
  • wrażliwości wybranego testu na odchylenia od normalności i równość wariancji.

Przy średnich i dużych próbach test t bywa dość odporny na umiarkowane naruszenia normalności, zwłaszcza gdy liczebności grup są zbliżone. Przy małych N i silnej skośności lepszą alternatywą może być test nieparametryczny (np. U Manna–Whitneya). Sam test Shapiro–Wilka nie da gotowej odpowiedzi – jest jednym z kilku elementów układanki.

Wykres liniowy z danymi statystycznymi na ekranie komputera
Źródło: Pexels | Autor: Markus Winkler

Wykresy normalności w SPSS – obraz jako uzupełnienie liczb

Histogram z krzywą normalną – co mówi kształt słupków

Histogram jest najprostszą wizualizacją rozkładu. W SPSS można go wygenerować:

  • bezpośrednio przez Graphs → Legacy Dialogs → Histogram…,
  • lub w ramach procedury Explore, zaznaczając opcję Histogram w oknie Plots.

Najczęściej na histogram nakładana jest krzywa normalna (gładka linia). Porównanie wysokości słupków do tej krzywej pozwala szybko ocenić:

  • skośność (przesunięcie „ogona” w lewo lub prawo),
  • spłaszczenie lub „spiczastość” rozkładu (kurtoza),
  • obecność ewentualnych „dodatkowych garbów” sugerujących mieszaninę kilku populacji.

Przykład z praktyki: w badaniach czasu reakcji histogram często pokazuje długi ogon z prawej strony (pojedyncze bardzo wolne reakcje), co formalnie łamie normalność, lecz bywa oczekiwane ze względu na naturę zjawiska. W takiej sytuacji pytanie brzmi: czy te wolne reakcje traktować jako naturalny element rozkładu, czy jako osobną klasę zdarzeń (np. rozkojarzenie badanego) do analizy odstających obserwacji.

Q-Q plot – porównanie kwantyli w praktyce

W Q-Q plocie punkty przedstawiają empiryczne kwantyle zmiennej, a linia odniesienia – teoretyczne kwantyle rozkładu normalnego. Jeśli rozkład badanej zmiennej jest bliski normalnemu, punkty układają się wzdłuż linii, z drobnymi odchyleniami na krańcach.

W interpretacji kluczowe są dwa elementy: ogólny kształt „chmury” punktów oraz zachowanie ogonów rozkładu.

  • Brak systematycznych odchyleń – punkty oscylują wokół linii; normalność jest wiarygodnym założeniem.
  • Wygięcie w kształt litery S – oznacza skośność: ogony rozkładu są po jednej stronie bliżej, a po drugiej dalej od linii.
  • Odchylenia „wachlarzowe” na krańcach – sugerują problemy w ogonach, np. nadmiar wartości skrajnych (dodatnia kurtoza) lub ich niedobór (ujemna kurtoza).
  • Pojedyncze punkty daleko od linii – mogą sygnalizować obserwacje odstające, które później wymagają osobnej weryfikacji.

Konkretny przykład z badań psychologicznych: Q-Q plot czasu reakcji często pokazuje punkt lub dwa wyraźnie „odrywające się” w górnym prawym rogu. Formalnie psuje to normalność, ale praktyczne pytanie brzmi: czy są to realne bardzo wolne reakcje (np. zmęczenie) czy błędy pomiaru (np. zasłonięty ekran)? Odpowiedź zmienia decyzję o dalszym traktowaniu danych.

Boxplot – szybki przegląd symetrii i obserwacji odstających

Wykres pudełkowy (boxplot) jest prosty, ale przy ocenie normalności potrafi wyłapać to, czego nie widać w samym wyniku testu.

Kluczowe elementy boxplotu to:

  • pudełko reprezentujące przedział między pierwszym a trzecim kwartylem (Q1–Q3),
  • linia wewnątrz pudełka – mediana,
  • wąsy – zasięg typowych obserwacji (najczęściej do 1,5 IQR),
  • kółka/gwiazdkami – potencjalne obserwacje odstające i skrajne.

Przy rozkładzie zbliżonym do normalnego:

  • mediana powinna być mniej więcej pośrodku pudełka,
  • wąsy mają zbliżoną długość,
  • obserwacje odstające pojawiają się rzadko.

Jeśli pudełko jest wyraźnie przesunięte, a jeden z wąsów dłuższy, widać skośność. Gdy nad pudełkiem pojawia się skupisko punktów oznaczających odstające wartości, można spodziewać się problemów z normalnością i z testami wrażliwymi na „grube ogony”.

Zestawianie histogramu, Q-Q plotu i boxplotu

Łączenie kilku wykresów w jednym pakiecie informacji pozwala oddzielić dwa poziomy: statystyczne „p” od faktycznego kształtu danych.

  • Histogram – pokazuje ogólną formę: jednorodność, mieszaniny, „górki”.
  • Q-Q plot – precyzyjnie ujawnia odchylenia od prostej normalności w poszczególnych fragmentach rozkładu.
  • Boxplot – pomaga szybko zlokalizować asymetrię oraz obserwacje odstające.

Co wiemy po takim przeglądzie? Nie tylko to, czy p < 0,05, ale też dlaczego rozkład nie pasuje do normalnego i czy ma to znaczenie dla planowanej analizy. Czego nadal nie wiemy? Na ile te odstępstwa zmienią wynik konkretnych testów – to wymaga już decyzji o wyborze metody.

Przykład krok po kroku: czas reakcji w teście psychologicznym

Opis danych i pytania badawczego

Załóżmy badanie, w którym mierzony jest czas reakcji na bodziec wizualny u dwóch grup:

  • grupa kontrolna – osoby bez dodatkowego obciążenia zadaniami,
  • grupa eksperymentalna – osoby wykonujące jednocześnie zadanie poboczne.

W arkuszu SPSS dostępne są m.in. zmienne:

  • id – identyfikator osoby badanej,
  • grupa – 0 = kontrolna, 1 = eksperymentalna,
  • czas_reakcji – średni czas reakcji w milisekundach.

Pytanie badawcze ma dwa poziomy:

  1. Czy w każdej z grup rozkład czas_reakcji można uznać za zbliżony do normalnego?
  2. Czy różnica między grupami powinna być testowana testem t-Studenta, czy lepiej użyć alternatywy nieparametrycznej?

Przygotowanie danych do analizy normalności

Przed uruchomieniem testu Shapiro–Wilka dane powinny być uporządkowane i opisane:

  • W zakładce Variable View sprawdzenie, czy czas_reakcji ma typ Scale, a grupa – typ Nominal z właściwymi etykietami wartości.
  • W Data View przejrzenie kilku wierszy: czy nie ma oczywistych błędów, np. bardzo małych lub ogromnych czasów będących skutkiem pomyłki przy wprowadzaniu.
  • Jeśli w kolumnie czas_reakcji pojawiają się braki danych, warto ustalić, czy mają być oznaczone jako system missing, czy jako brak użytkownika (np. -9999) z odpowiednią deklaracją w Missing Values.

Na tym etapie czasem ujawnia się problem strukturalny: osoby, które zrezygnowały z badania, mają uzupełnione zmienne demograficzne, ale brak pomiaru czasu reakcji. Takie przypadki zwykle są wyłączane z analizy normalności, nie ma sensu sztucznie je uzupełniać.

Test Shapiro–Wilka z podziałem na grupy

Analiza normalności przebiega przez procedurę Analyze → Descriptive Statistics → Explore…. Konfiguracja okna może wyglądać następująco:

  • czas_reakcji przeniesiony do pola Dependent List,
  • grupa przeniesiona do pola Factor List,
  • w Plots… zaznaczone opcje Normality plots with tests oraz Histogram, opcjonalnie Boxplots.

Po zatwierdzeniu SPSS generuje osobne wyniki dla grupy kontrolnej i eksperymentalnej: tabele z testem Shapiro–Wilka oraz pakiet wykresów (histogramy, Q-Q ploty, boxploty). To właśnie ten rozdział na grupy pozwala później ocenić, czy problem z normalnością jest symetryczny.

Odczyt wyników: tabela Shapiro–Wilka i wykresy

W tabeli Tests of Normality pojawią się dwie linie dla czas_reakcji, po jednej na każdą grupę. Interpretacja przebiega według sekwencji:

  1. Sprawdzenie liczebności (kolumna df w Shapiro–Wilku) – zbyt małe N utrudnia ocenę, zbyt duże prowadzi do „nadwrażliwości” testu.
  2. Ocena p-value – czy w którejś z grup p spada poniżej 0,05, czy obie są „bezpieczne”.
  3. Porównanie statystyki W między grupami – mniejsza wartość może wskazywać, że w danej grupie rozkład bardziej odbiega od normalnego.

Następnie wyniki liczbowe zestawia się z wykresami:

  • Na histogramach: czy widać silną skośność (np. wydłużony ogon w prawo) lub wielomodalność.
  • Na Q-Q plotach: czy punkty systematycznie „uciekają” od linii referencyjnej, zwłaszcza w ogonach.
  • Na boxplotach: czy jedna z grup ma wyraźnie więcej obserwacji odstających lub silnie asymetryczne pudełko.

Przykładowy scenariusz z praktyki: w grupie kontrolnej p dla Shapiro–Wilka przekracza 0,05, histogram wygląda pojedynczo‑szczytowo, a Q-Q plot jest bliski prostej. W grupie eksperymentalnej p < 0,05, histogram ma długi prawy ogon, a Q-Q plot rozchodzi się od linii w górnej części. Źródłem nienormalności są więc bardzo wolne reakcje w warunkach obciążenia.

Decyzja o dalszej analizie – test t czy alternatywa?

Na tym etapie trzeba przejść z poziomu diagnozy na poziom decyzji: jaki test porównujący grupy jest adekwatny. Wykorzystuje się tu zestaw przesłanek:

  • czy naruszenie normalności jest wyraźne (np. mocno skośny rozkład z wieloma odstającymi), czy raczej umiarkowane,
  • czy liczebności grup są zbliżone i w jakim są zakresie,
  • czy wariancje w grupach są zbliżone (co można wstępnie ocenić np. z tabeli Descriptives oraz później testem Levene’a).

Jeśli w obu grupach rozkład jest umiarkowanie nienormalny, ale liczebność jest średnia lub duża, często pozostaje się przy teście t-Studenta, traktując go jako wystarczająco odporny. Dla mniejszych prób, silnej skośności i licznych obserwacji odstających naturalną alternatywą staje się test U Manna–Whitneya.

Co wtedy z testem Shapiro–Wilka? Nie jest on celem samym w sobie, ale wskaźnikiem alarmowym. Reguła praktyczna bywa taka: gdy test i wykresy sugerują istotne odchylenia, a do tego próba jest mała, parametryczne porównanie średnich staje się ryzykowne. W projektach, gdzie błędna decyzja ma duże konsekwencje, analitycy częściej wybierają metodę zachowawczą.

Diagnostyka pogłębiona: obserwacje odstające i transformacje

W przykładzie z czasem reakcji źródłem problemów z normalnością bywają pojedyncze, ekstremalnie wysokie wartości. Możliwe są wtedy trzy kroki diagnostyczne:

  1. Identyfikacja przypadków
    W boxplocie lub w tabelach podsumowujących można odczytać numery ID obserwacji odstających. Następnie w Data View sprawdza się, czy są to błędy (np. literówka) czy realne dane.
  2. Decyzja o wykluczeniu lub pozostawieniu
    Gdy ekstremalne wartości są efektem złego zapisu (np. czas w sekundach zamiast milisekund), korekta jest uzasadniona. Jeśli jednak reprezentują rzadkie, ale realistyczne zachowania, ich wykluczanie powinno być wyraźnie uzasadnione w dokumentacji analizy.
  3. Rozważenie transformacji
    Dla zmiennych dodatnich, takich jak czas reakcji, typowa jest transformacja logarytmiczna lub pierwiastkowa. Celem jest zmniejszenie skośności, nie „upiększanie” danych na siłę.

W SPSS transformację można wykonać np. przez:

  • Transform → Compute Variable… i zdefiniowanie nowej zmiennej log_czas_reakcji = LG10(czas_reakcji) lub SQRT(czas_reakcji).

Po utworzeniu takiej zmiennej procedurę Explore uruchamia się ponownie, tym razem analizując rozkład zmiennej przetransformowanej. W wielu badaniach psychologicznych różnica jest wyraźna: Q-Q plot dla logarytmu czasu reakcji znacznie lepiej przylega do linii normalnej, a p w teście Shapiro–Wilka przestaje sygnalizować istotne odchylenia.

Co, jeśli rozkład nie jest normalny? Alternatywy i modyfikacje

Modyfikacja danych: transformacje i ich konsekwencje

Transformacje są jednym z najczęściej stosowanych środków łagodzenia nienormalności, zwłaszcza przy silnej dodatniej skośności. W praktyce eksperymentalnej używa się kilku prostych przekształceń:

  • logarytmicznej – dla rozkładów prawostronnie skośnych (czas reakcji, liczba błędów),
  • pierwiastkowej – dla zmiennych zliczeniowych (liczba zdarzeń w jednostce czasu),
  • odwrotności (1/x) – przy bardzo silnej skośności, ale z uwagi na interpretację stosowana rzadziej.

Po transformacji:

  • ponownie bada się normalność (Shapiro–Wilk + wykresy),
  • testy parametryczne przeprowadza się już na skali przetransformowanej,
  • interpretując wyniki, trzeba zachować świadomość, że dotyczą one logarytmu czy pierwiastka z danej wielkości, a nie samej wielkości surowej.

W raportach badawczych często prezentuje się średnie i odchylenia standardowe w skali surowej, ale testy istotności prowadzi na danych transformowanych. Takie podejście wymaga jasnego opisu zastosowanych przekształceń i motywacji – test Shapiro–Wilka jest tu jednym z głównych argumentów.

Testy nieparametryczne jako alternatywa

Najczęściej zadawane pytania (FAQ)

Po co robić test Shapiro-Wilka przed testem t lub ANOVA w SPSS?

Testy t-Studenta, ANOVA, korelacja Pearsona czy regresja liniowa zakładają, że analizowana zmienna (lub reszty modelu) ma rozkład zbliżony do normalnego. Bez sprawdzenia tego założenia trudno ocenić, na ile wyniki są stabilne, a na ile oparte na kilku skrajnych obserwacjach.

Przy małych i średnich próbach, typowych w badaniach psychologicznych, pedagogicznych czy HR, kształt rozkładu ma duże znaczenie. Shapiro–Wilk pomaga stwierdzić, czy rozkład nie odbiega istotnie od normalnego i czy można bez większego ryzyka korzystać z testów parametrycznych.

Jak interpretować wynik testu Shapiro-Wilka w SPSS (statystyka W i p-value)?

SPSS podaje dwie kluczowe wartości: statystykę W (0–1) i Sig. (p). Im bliżej 1 jest W, tym dane lepiej „układają się” jak rozkład normalny. O decyzji statystycznej przesądza jednak p: jeśli p < 0,05 – odrzucasz hipotezę o normalności (rozkład różni się istotnie od normalnego); jeśli p ≥ 0,05 – brak podstaw, by twierdzić, że rozkład jest nienormalny.

Test nie daje stuprocentowego „potwierdzenia normalności”. Informuje jedynie, czy przy danej liczebności próby i poziomie istotności udało się wykryć odchylenia od rozkładu normalnego. Kluczowe pytanie kontrolne brzmi więc: co wiemy z testu, a czego nadal nie wiemy o kształcie danych?

Shapiro-Wilk czy Kolmogorow-Smirnow w SPSS – który test normalności wybrać?

Przy małych i średnich próbach (np. 20–100 obserwacji) częściej wybiera się test Shapiro–Wilka. Ma on wyższą moc, czyli lepiej wychwytuje odchylenia od normalności, gdy te faktycznie występują. W literaturze metodologicznej to właśnie Shapiro–Wilk jest zazwyczaj rekomendowany do badań empirycznych.

Test Kolmogorowa–Smirnowa z poprawką Lillieforsa jest bardziej konserwatywny i lepiej sprawdza się przy większych próbach, ale ma mniejszą czułość na subtelne różnice. W praktyce w SPSS możesz wygenerować oba wyniki, a w raporcie opisać głównie Shapiro–Wilka, dopowiadając w razie potrzeby wnioski oparte na wykresach.

Czy przy dużych próbach (np. kilkaset osób) muszę przejmować się normalnością rozkładu?

Przy dużych próbach centralne twierdzenie graniczne sprawia, że rozkład średniej z obserwacji zbliża się do normalnego, nawet jeśli pojedyncze wyniki nie są idealnie normalne. W efekcie testy parametryczne zwykle działają poprawnie mimo umiarkowanych odchyleń od normalności.

Problem pojawia się przy silnie skośnych zmiennych (np. dochód, liczba błędów, czas reakcji). W takich przypadkach normalność „nie naprawi się” sama przez duże N, a test normalności może być zbyt czuły i pokazywać istotność nawet przy niewielkich odchyleniach. Wtedy ważniejsze od samego p są: wykres rozkładu, obecność obserwacji odstających i pytanie, czy naruszenia wpływają praktycznie na wnioski.

Co zrobić, gdy test Shapiro-Wilka w SPSS pokazuje brak normalności?

Najpierw warto sprawdzić wykresy: histogram z krzywą normalną, wykres pudełkowy, wykres normal Q-Q. Pozwalają ocenić, czy mamy do czynienia z silną skośnością, kilkoma obserwacjami odstającymi, czy może mieszanką dwóch populacji.

W praktyce reaguje się na kilka sposobów:

  • stosując testy nieparametryczne (np. U Manna–Whitneya zamiast t dla prób niezależnych),
  • rozważając transformacje zmiennej (np. logarytmiczną przy silnej skośności),
  • analizując wpływ obserwacji odstających (np. wersje analiz z nimi i bez nich).

Kluczowe pytanie brzmi: czy naruszenie normalności realnie zmienia wniosek merytoryczny, czy tylko formalnie obniża „idealność” danych?

Przy jakiej liczebności próby normalność jest najbardziej krytyczna?

Najbardziej wrażliwa sytuacja to małe próby, rzędu kilkunastu–kilkudziesięciu osób (np. N < 30 w każdej grupie). Przy takiej liczebności pojedyncze skrajne wartości potrafią mocno przesunąć średnią i odchylenie standardowe, a wynik testu t czy ANOVA zaczyna zależeć od kilku przypadków.

Przy średnich próbach (np. 50–100 obserwacji) nadal opłaca się oceniać normalność, ale lekkie odchylenia w stronę skośności zwykle nie dyskwalifikują testów parametrycznych. Przy bardzo dużych próbach (kilkaset, kilka tysięcy osób) większy nacisk kładzie się na znaczenie praktyczne odchyleń niż na sam wynik testu Shapiro–Wilka.

Czy test Shapiro-Wilka sprawdza normalność samych danych czy reszt z modelu regresji?

Test Shapiro–Wilka można stosować zarówno do „gołej” zmiennej (np. wynik testu, dochód), jak i do reszt modelu regresji. W analizach regresji kluczowe jest założenie normalności błędów (reszt), a niekoniecznie samych zmiennych wejściowych.

W praktyce oznacza to dwa różne pytania: czy interesuje nas normalność rozkładu badanej cechy w populacji, czy raczej to, czy model statystyczny spełnia swoje założenia. W SPSS najczęściej testuje się normalność zmiennej przy prostych porównaniach (testy t, ANOVA) oraz normalność reszt przy bardziej złożonych modelach regresji.

Kluczowe Wnioski

  • Testy parametryczne (m.in. testy t, ANOVA, korelacja Pearsona, regresja liniowa) opierają się na założeniu normalności rozkładu zmiennej lub reszt, więc bez oceny tego założenia wiarygodność wniosków jest niepewna.
  • Przy małych i średnich próbach (np. kilkanaście–kilkadziesiąt osób) kształt rozkładu ma duże znaczenie: skośność i obserwacje odstające mogą silnie zniekształcać średnią, odchylenie standardowe i wyniki testów t/ANOVA.
  • Duża liczebność próby nie rozwiązuje automatycznie problemu nienormalności – przy skrajnie skośnych zmiennych (np. dochód, czas reakcji) rozkład może pozostawać daleki od normalnego mimo setek obserwacji.
  • Test Shapiro–Wilka w SPSS, oparty na statystyce W i p-value, jest podstawowym narzędziem do formalnej oceny normalności dla małych i średnich prób; odrzucenie H0 (p < 0,05) oznacza istotne odstępstwo od rozkładu normalnego.
  • Przy bardzo dużych próbach testy normalności mogą „wykrywać” statystycznie istotne, ale praktycznie nieistotne odchylenia, dlatego sam wynik p nie wystarcza – trzeba łączyć go z oceną wykresów i wiedzą o badanym zjawisku.
  • Mechaniczne stosowanie testów parametrycznych bez oglądu rozkładu prowadzi do dwóch błędów: zafałszowanych wniosków przy małych, nienormalnych próbach oraz nadmiernej ostrożności przy bardzo dużych próbach.

1 KOMENTARZ

  1. Bardzo ciekawy artykuł! Szczególnie podoba mi się sposób, w jaki autor przedstawia krok po kroku test Shapiro-Wilka w programie SPSS na przykładzie konkretnego zbioru danych. Dzięki temu łatwo zrozumieć, jak przeprowadzić tę analizę statystyczną w praktyce. Jednakże brakuje mi bardziej zaawansowanych zagadnień związanych z interpretacją wyników testu Shapiro-Wilka oraz możliwych alternatyw dla tego testu w przypadku gdy dane nie spełniają założenia normalności. Moim zdaniem rozwinięcie tych kwestii byłoby wartościowe dla czytelników poszukujących głębszej wiedzy na temat analizy danych.

Komentarze są aktywne tylko po zalogowaniu.