Abstrakcyjne wykresy i dane ilustrujące analizę statystyczną dwóch grup
Źródło: Pexels | Autor: Negative Space
Rate this post

Nawigacja po artykule:

Jakie pytanie naprawdę zadajesz? Uporządkowanie celu badania

Różnica średniej, mediany czy „typowego poziomu”?

Zanim zaczniesz wybierać między testem t a testem U Manna–Whitneya, zatrzymaj się na chwilę i zapytaj: co dokładnie chcesz porównać między dwiema grupami? Czy chodzi o:

  • średnią (np. średni wynik testu, średni czas reakcji),
  • medianę (wartość „środkową” w uporządkowanym zbiorze),
  • czy raczej o ogólny, „typowy poziom” bez przywiązywania się do konkretnej miary?

Jeżeli Twoje pytanie dosłownie brzmi: „Czy średnia w grupie A różni się od średniej w grupie B?”, wchodzisz na teren testu t. To narzędzie jest zdefiniowane właśnie dla porównania średnich. Natomiast jeśli obserwacje są mocno skośne, z wieloma wartościami skrajnymi, albo używasz skali porządkowej (np. 1–10 dla natężenia bólu), sensowniejsze staje się mówienie o różnicy w poziomie, medianie lub o innym położeniu rozkładu – wtedy naturalnym kandydatem jest test U Manna–Whitneya.

Zadaj sobie pytanie: jak interpretujesz wynik, gdy mówisz „grupa A ma wyższy wynik”? Jeżeli myślisz o średniej (np. „średnio o 5 punktów więcej”), test t będzie pierwszym wyborem, o ile spełniasz jego założenia. Jeżeli bliżej Ci do mediany lub chcesz uniknąć wpływu ekstremów, wygodniejszy będzie test nieparametryczny.

Czy interesuje Cię tylko „czy się różnią?”, czy także „o ile się różnią?”

Kolejne kluczowe pytanie: czy chcesz tylko sprawdzić, czy w ogóle istnieje różnica, czy także oszacować jej wielkość? Oba testy – t i U Manna–Whitneya – odpowiedzą, czy istnieje statystycznie istotna różnica między dwiema grupami. Jednak:

  • test t bezpośrednio daje różnicę średnich i przedział ufności dla tej różnicy,
  • test U Manna–Whitneya operuje na rangach, więc trzeba użyć innych miar wielkości efektu (np. r, AUC, różnicy median, szacowanego prawdopodobieństwa P(X>Y)).

Jeśli pracujesz w kontekście praktycznym (badania medyczne, społeczne, biznes), zwykle ważniejsze niż samo „p < 0,05” jest pytanie: jak duża jest różnica i czy ma znaczenie praktyczne? Test t daje tu bardzo przejrzystą interpretację, o ile dane spełniają założenia lub są „w miarę odporne” na ich naruszenie.

Jeśli Twoje dane są podejrzane (bardzo skośne, z wartościami skrajnymi) i boisz się, że różnica średnich wprowadza w błąd, możesz pójść drogą:

  • test U Manna–Whitneya do weryfikacji istotności,
  • równolegle porównanie median i/lub innych percentyli oraz opisowe miary wielkości efektu.

Grupy niezależne czy zależne – czy porównujesz różne osoby, czy te same?

Zanim klikniesz pierwszy test w programie, odpowiedz szczerze na pytanie: czy te dwie grupy są od siebie niezależne? Innymi słowy – czy ta sama osoba może pojawić się w obu grupach?

  • Jeśli porównujesz kobiety vs mężczyźni, grupa kontrolna vs eksperymentalna, uczestnicy z miasta vs ze wsi – to są zwykle grupy niezależne.
  • Jeśli porównujesz ten sam pacjent „przed” vs „po” terapii lub ten sam student przed szkoleniem i po szkoleniu – to są pomiary zależne (sparowane).

Klasyczne wersje obu analiz:

  • test t dla prób niezależnych,
  • test U Manna–Whitneya,

zakładają, że porównywane grupy są niezależne. Jeśli masz pary pomiarów na tych samych osobach, wchodzą w grę inne narzędzia:

  • dla danych parametrycznych: test t dla prób zależnych (sparowanych),
  • dla danych nieparametrycznych: test Wilcoxona dla prób zależnych.

Jeśli więc Twoje dane są sparowane, a mimo to zastosujesz test t dla prób niezależnych lub U Manna–Whitneya, zaniżasz błędy standardowe i możesz uzyskać sztucznie zawyżoną istotność. To jedna z częstszych pułapek.

Kiedy w ogóle wchodzisz w obszar testu t i U Manna–Whitneya?

Test t i test U Manna–Whitneya są sensowne, gdy:

  • masz dwie grupy (nie trzy, nie pięć),
  • interesuje Cię różnica w poziomie pewnej zmiennej liczbowej lub porządkowej,
  • nie analizujesz od razu złożonych modeli (kilka predyktorów jednocześnie).

Jeśli zmienna zależna jest nominalna (np. tak/nie, wyzdrowiał/nie wyzdrowiał), potrzebujesz raczej testu chi-kwadrat, testu Fishera lub modelu regresji logistycznej, a nie testu t czy Manna–Whitneya.

Jeżeli Twoje pytanie dotyczy kilku predyktorów naraz (np. efekt terapii przy kontroli wieku, płci i poziomu wyjściowego), lepsze będą modele (np. regresja liniowa, ANCOVA, modele mieszane). Test t i U Manna–Whitneya działają dobrze, gdy chcesz prosto i jasno porównać dwie grupy względem jednej zmiennej wynikowej.

W jakim punkcie jesteś? Porównujesz dwie niezależne grupy względem jednej liczbowej zmiennej? Jeśli tak, możesz iść dalej – właśnie tutaj konkurują ze sobą test t i U Manna–Whitneya.

Rodzaj danych i skala pomiaru – baza do dalszych decyzji

Jak rozpoznać skalę: ilościowa, porządkowa, nominalna

Test t i test U Manna–Whitneya różnią się głównie tym, co „potrafią zjeść”. Zadaj sobie pytanie: jakiego typu jest Twoja zmienna wynikowa?

  • Skala nominalna – kategorie bez porządku (np. kolor oczu, typ szkoły, stan cywilny). Tu test t ani U Manna–Whitneya w ogóle nie wchodzą w grę.
  • Skala porządkowa – można ułożyć odpowiedzi w kolejności, ale odstępy nie muszą być równe (np. „zdecydowanie się nie zgadzam” – „zdecydowanie się zgadzam”, stopnie natężenia bólu, skale Likerta). Tu świetnie odnajduje się test U Manna–Whitneya.
  • Skala przedziałowa/ilorazowa (ilościowa) – liczby z sensownymi różnicami, które można dodawać i odejmować (np. wynik testu, czas, wzrost, waga, zarobki). Tu podstawową opcją jest test t, choć U Manna–Whitneya też działa.

Jeżeli zastanawiasz się, czy Twoja zmienna jest faktycznie ilościowa, zadaj pytanie: czy różnica „2 jednostki” ma w przybliżeniu ten sam sens na całej skali? Jeśli tak, jesteś bliżej poziomu przedziałowego/ilorazowego.

Dlaczego test t potrzebuje skali przedziałowej

Test t pracuje na średnich i odchyleniach standardowych. Te wielkości mają sens tylko wtedy, gdy liczby reprezentują rzeczywiste odległości. Dlatego:

  • dla liczbowych wyników testu, czasu, wagi, wzrostu – test t ma naturalne zastosowanie,
  • dla ściśle porządkowych skal (zwłaszcza krótkich, np. 1–5) – średnia bywa dyskusyjna, choć bywa używana w praktyce.

Jeśli budujesz poważny raport lub publikację naukową, zadaj sobie pytanie: czy jestem gotów bronić założenia, że moja skala porządkowa jest „w przybliżeniu” ilościowa? Jeśli nie, rozważ test U Manna–Whitneya.

Test U Manna–Whitneya i dane porządkowe

Test U Manna–Whitneya działa w oparciu o rangi – układa wszystkie obserwacje z obu grup od najmniejszej do największej i porównuje sumy rang. Dlatego:

  • nie wymaga równych odstępów między kolejnymi wartościami skali,
  • rada sobie sensownie z danymi porządkowymi,
  • jest mniej wrażliwy na ekstremalne wartości.

Jeżeli Twoja zmienna to np. ocena bólu w skali 0–10, ocena satysfakcji 1–5 czy subiektywna ocena komfortu, test U Manna–Whitneya jest często bezpieczniejszy metodologicznie. Technicznie możesz policzyć test t, ale interpretacja różnicy średnich na takiej skali bywa wątpliwa.

Przykłady z praktyki – jak zaklasyfikować swoje dane

Kilka codziennych przykładów, które często pojawiają się w badaniach:

  • Poziom bólu w skali 0–10 – formalnie to skala porządkowa, choć z wieloma kategoriami. Możesz potraktować ją jako „prawie ilościową”, ale jeśli rozkład jest skośny lub masz małe próby, test U Manna–Whitneya będzie rozsądny.
  • Zarobki – skala ilorazowa, ale z mocną skośnością i często ekstremami. Test t może być wrażliwy na outliery, więc trzeba ocenić rozkład. Przy dużych próbach i sensownej transformacji (np. logarytmicznej) test t ma sens; przy małych próbach – rozważ U Manna–Whitneya.
  • Wynik testu wiedzy – liczba punktów, raczej mało skośna w populacji generalnej; klasyczny kandydat dla testu t.
  • Czas reakcji – ilościowa zmienna, ale często skośna (długie ogony). Tu też trzeba obejrzeć rozkład i zdecydować, czy wystarczy test t, czy lepiej test nieparametryczny.

Co, gdy dane są mocno skośne lub z „podłogą/sufitem”?

Masz rozkład, w którym większość osób ma wynik „0” lub „maksimum” skali? Albo ogon rozkładu ciągnie się daleko w jedną stronę? Wtedy:

  • test t może źle odwzorowywać „typowy” poziom,
  • różnica średnich może być wypaczona przez kilka ekstremalnych obserwacji,
  • założenie o normalności jest naruszone.

W takiej sytuacji zadaj pytanie: czy próbujesz „na siłę” użyć testu t, bo jest popularny? Jeśli relacja między grupami jest bardziej stabilna na poziomie median lub rang, rozważ:

  • test U Manna–Whitneya jako główne narzędzie,
  • alternatywnie – transformację danych (np. log) i dopiero test t, jeśli transformacja znacząco poprawia kształt rozkładu.
Smartfon z kolorowymi wykresami leżący na wydrukach z danymi
Źródło: Pexels | Autor: RDNE Stock project

Niezależne czy zależne? Pierwszy klucz do właściwego testu

Różnica między grupami niezależnymi a pomiarem powtarzanym

Kluczowe pytanie kontrolne: czy ta sama jednostka (osoba, firma, szkoła) może znaleźć się w obu grupach? Jeśli tak – masz do czynienia z danymi zależnymi (sparowanymi).

  • Dwie grupy niezależne – różne osoby w grupie A i B. Przykład: pacjenci leczeni standardowo vs pacjenci z nową terapią.
  • Dwie grupy zależne (sparowane) – te same osoby mierzone dwa razy (przed/po) lub dobrane w pary (matching). Przykład: ciśnienie krwi u tych samych pacjentów przed i po zmianie leków.

Dlaczego to ma znaczenie? W danych zależnych pomiary są skorelowane. Ignorowanie tej korelacji (stosowanie testów dla prób niezależnych) sztucznie zawyża informację w danych i może prowadzić do błędnych wniosków.

Klasyczna rola testu t i U Manna–Whitneya

Test t i test U Manna–Whitneya są projektowane w podstawowej postaci dla dwóch grup niezależnych:

  • test t dla prób niezależnych – porównanie średnich między dwoma niezależnymi grupami,
  • test U Manna–Whitneya – porównanie rozkładu (poziomu rang) między dwiema niezależnymi grupami.

Dla danych zależnych odpowiednikami są:

  • test t dla prób zależnych (sparowanych) – pracuje na różnicach wewnątrz par,
  • test Wilcoxona dla prób zależnych – nieparametryczny odpowiednik dla pomiarów sparowanych.

Jeśli aktualnie stoisz przed wyborem „test t czy U Manna–Whitneya dla dwóch grup”, upewnij się, że naprawdę chodzi o grupy niezależne. W przeciwnym razie wybierasz nie między tymi testami, lecz między testem t sparowanym a testem Wilcoxona.

Konsekwencje pomylenia struktur danych

Co się dzieje, gdy potraktujesz dane zależne jak niezależne?

Jeżeli masz dane sparowane, a mimo to stosujesz test t lub U Manna–Whitneya dla prób niezależnych, w praktyce:

  • ignorujesz informację o powiązaniach między pomiarami u tej samej osoby,
  • zawyżasz „efektywną” liczebność – test „myśli”, że masz więcej niezależnych obserwacji, niż faktycznie,
  • zwiększasz ryzyko fałszywie istotnych wyników (błąd I rodzaju).

Przykład z życia: mierzysz nastrój u tych samych studentów przed sesją i w trakcie sesji. Jeśli porównasz grupy „przed” i „w trakcie” testem dla prób niezależnych, ignorujesz fakt, że każdemu studentowi odpowiada konkretny drugi pomiar. Test sparowany „widzi” różnice w parach, a niezależny – nie.

Zadaj sobie pytanie: czy w moich danych istnieją naturalne pary/duety, które coś o sobie mówią (ta sama osoba, dobrane osoby, szkoły sparowane po wielkości)? Jeśli tak, wybierz raczej testy dla prób zależnych.

Założenia testu t – co naprawdę musi być spełnione?

Normalność – czego dotyczy i jak jej nie demonizować

Częsty mit: „żeby użyć testu t, moje dane muszą być normalne”. W praktyce bardziej precyzyjne pytanie brzmi: czy rozkład w każdej grupie jest na tyle zbliżony do normalnego, że średnia i odchylenie standardowe sensownie opisują dane?

  • dla dużych prób (np. kilkadziesiąt–kilkaset osób na grupę) test t jest dość odporny na umiarkowane odchylenia od normalności,
  • dla małych prób (np. poniżej 30 w grupie) rozkład zaczyna być dużo ważniejszy, szczególnie przy asymetrii i ekstremach.

Jeżeli używasz testów normalności (Shapiro–Wilk, Kolmogorow–Smirnow), zadaj sobie pytanie: czy patrzysz tylko na p-value, czy też oglądasz wykresy (histogram, Q–Q plot)? Test może wyjść „istotny” w dużej próbie nawet przy lekkich odchyleniach, które statystycznie niewiele psują.

Homogeniczność wariancji – równość czy podobieństwo?

Kolejne kluczowe założenie klasycznego testu t dla prób niezależnych: wariancje w obu grupach powinny być zbliżone. Nie chodzi o idealną równość, lecz o brak dramatycznych różnic.

Co możesz zrobić w praktyce?

  • użyj testu Levene’a lub Brown–Forsythe’a jako wskaźnika, czy rozrzut w grupach jest bardzo różny,
  • spójrz na odchylenia standardowe – czy różnią się kilkukrotnie?

Jeśli wariancje są wyraźnie różne, zamiast klasycznego testu t użyj wersji z korektą Welcha (często domyślna opcja w pakietach statystycznych). Zadaj sobie pytanie: czy program, którego używasz, raportuje „Welch t-test”, czy zwykły „Student t-test”? To szczegół, który bywa kluczowy w raportowaniu wyników.

Niezależność obserwacji – założenie, które najłatwiej złamać

Niezależność oznacza, że wynik jednej osoby nie wpływa bezpośrednio na wynik innej. Tu test t jest bezlitosny: jeśli ją naruszysz, p-value stają się niewiarygodne.

Kiedy niezależność bywa naruszona?

  • gdy masz uczniów z tych samych klas (klastry), a analizujesz ich jak niezależne jednostki,
  • gdy dane pochodzą z par, rodzin, zespołów, ale analizujesz pojedyncze osoby,
  • gdy jedna osoba pojawia się w kilku rolach (np. kilkakrotne pomiary traktowane jak osobne przypadki bez modelu powtarzanych pomiarów).

Zastanów się: czy Twoje obserwacje są naprawdę „osobne”, czy raczej zagnieżdżone (osoby w szkołach, pacjenci w szpitalach)? Przy zagnieżdżeniu lepiej sprawdzić modele wielopoziomowe niż prosty test t czy U Manna–Whitneya.

Co „mierzy” test U Manna–Whitneya – nie tylko różnica median

Rangi, a nie surowe wartości

U Manna–Whitneya operuje na rangach – tu ważne jest miejsce obserwacji w szeregu, a nie odległość między kolejnymi wartościami. Konsekwencja jest prosta:

  • test jest mniej wrażliwy na nietypowe skrajne wartości,
  • informacja o tym, jak duża jest różnica między grupami, jest częściowo tracona na rzecz informacji, jak konsekwentnie jedna grupa ma wyższe wyniki od drugiej.

Jeżeli zadajesz pytanie: czy grupa A ma tendencję do wyższych wyników niż grupa B, U Manna–Whitneya odpowiada na nie bardzo wprost. Jeżeli pytasz: o ile wyższe są wyniki w sensie średniej różnicy, tu lepiej sprawdzi się test t (przy sensownych założeniach).

Interpretacja: prawdopodobieństwo przewagi jednej grupy

Ciekawy sposób czytania wyniku testu U: można go przełożyć na prawdopodobieństwo, że losowo wybrana osoba z grupy A ma wynik wyższy niż losowo wybrana osoba z grupy B. To blisko miary „common language effect size”.

Jak to wesprzeć w raporcie?

  • podaj medianę i kwartyle dla obu grup (np. mediana bólu w grupie A: 6, w B: 3),
  • dodatkowo oszacuj efekt wielkości, np. współczynnik r lub AUC / wskaźnik stochastycznej przewagi.

Pytanie pomocnicze: co jest ważniejsze dla Twojego odbiorcy – różnica w mediana/średnich czy intuicyjne „jak często A > B”? To może podpowiedzieć, jakiego efektu wielkości użyć.

Mit: „test U porównuje tylko mediany”

Rygorystycznie mówiąc, test U nie jest testem różnicy median. Testuje hipotezę, że rozkłady w obu grupach są takie same. Jeśli spełnione jest dodatkowe założenie o podobnym kształcie rozkładów, w praktyce staje się to zbliżone do testu różnicy „poziomu” (często utożsamianego z medianą).

Jeżeli widzisz, że:

  • w jednej grupie rozkład jest mocno skośny,
  • w drugiej zbliżony do symetrycznego,

to interpretacja „test U porównał mediany” jest uproszczeniem. Wtedy warto odprzeć się na prostsze pytanie: czy generalnie wartości w grupie A leżą wyżej niż w grupie B, a interpretację median traktować ostrożniej.

Dłonie analizujące dane na biurku z wykresami i notatkami
Źródło: Pexels | Autor: Lukas Blazek

Kiedy test t ma przewagę nad U Manna–Whitneya?

Gdy interesuje Cię efekt na skali oryginalnej

Jeżeli masz dobrą ilościową skalę i sensowny rozkład, test t daje to, czego U Manna–Whitneya nie oferuje wprost: różnicę średnich w jednostkach, które odbiorca rozumie.

Przykładowe pytania badawcze:

  • „O ile punktów wzrósł przeciętny wynik testu wiedzy w grupie eksperymentalnej względem kontrolnej?”
  • „O ile sekund krótszy jest czas reakcji kierowców po treningu?”

Zastanów się: czy w Twoim projekcie kluczowe jest „ile konkretnie” (np. +5 punktów, −3 mmHg), czy raczej „czy generalnie A jest wyżej niż B”? W pierwszym przypadku test t, przy spełnionych warunkach, będzie czytelniejszy.

Większa moc przy spełnionych założeniach

Jeżeli:

  • rozkłady w obu grupach są w przybliżeniu normalne,
  • wariancje są zbliżone,
  • nie ma dramatycznych „odstających”

– test t zazwyczaj ma większą moc statystyczną niż U Manna–Whitneya. To znaczy: łatwiej wykrywa istniejącą różnicę przy tej samej liczbie obserwacji.

Zapytaj siebie: czy Twoje dane wizualnie „przypominają” normalne rozkłady i czy prób jest na tyle dużo, że odchylenia nie są dramatyczne? Jeśli tak, test t nie tylko jest dopuszczalny, ale wręcz często lepszy.

Planowana dalsza analiza – modele liniowe

Jeśli myślisz krok dalej – chcesz później:

  • uwzględnić dodatkowe kowariaty (wiek, płeć, poziom wyjściowy),
  • budować regresję liniową lub ANCOVA,
  • rozszerzyć porównanie na więcej niż dwie grupy (ANOVA),

– to test t jest naturalnym elementem tej samej rodziny modeli (modele oparte na średnich, wariancjach). U Manna–Whitneya jest zaś ruchom nieco obok, bez prostego rozszerzenia na wieloczynnikowe modele w tej samej logice.

Zadaj pytanie: czy to jedyne porównanie w projekcie, czy dopiero początek większej analizy? Jeśli planujesz rozbudowane modele liniowe, trzymanie się „rodziny” testu t upraszcza spójność metodologiczną.

Kiedy U Manna–Whitneya wygrywa z testem t?

Silna skośność, outliery, małe próby

Jeżeli w danych:

  • widzisz długi ogon w jedną stronę,
  • masz kilka ekstremalnych obserwacji, które „ciągną” średnią,
  • prób jest niewiele, przez co transformacje danych niewiele pomagają,

– U Manna–Whitneya jest mocnym kandydatem. Rangowanie „spłaszcza” wpływ ekstremów: rekordzista zarobków w badaniu nie dominuje wyniku testu tak silnie, jak w teście t.

Zastanów się: czy masz czas i sensowny powód, by „naprawiać” rozkład transformacjami, czy wolisz zastosować metodę mniej wrażliwą na problem? W wielu badaniach praktycznych druga opcja jest po prostu rozsądniejsza.

Dane porządkowe i krótkie skale

Przy skalach typu:

  • ocena satysfakcji 1–5,
  • poziom zgody z twierdzeniem (Likert),
  • stopnie bólu (np. 0–10, szczególnie gdy wyniki skupione są na kilku wartościach),

wiele osób odruchowo liczy średnie i test t. Metodologicznie jednak bardziej spójne podejście to:

  • raportowanie median i rozkładów kategorii,
  • użycie U Manna–Whitneya jako testu różnic między grupami.

Zadaj sobie pytanie: czy naprawdę wierzysz, że różnica między 1 a 2 jest równa różnicy między 4 a 5 na Twojej skali? Jeśli masz wątpliwości, test oparty na rangach będzie bezpieczniejszy.

Gdy ważna jest odporność na naruszenia założeń

Przy niewielkich próbach i niepewnych założeniach, U Manna–Whitneya ma jedną przewagę: mniej „boli”, gdy dane nie są idealne. Nie oznacza to, że jest cudownym lekiem na wszystko, ale:

  • nie wymaga normalności rozkładu,
  • lepiej znosi heterogeniczność wariancji (choć przy drastycznych różnicach warto być ostrożnym),
  • nie zakłada równych odstępów na skali.

Jeżeli nie masz dużej kontroli nad sposobem pomiaru (badanie terenowe, ankiety internetowe) i widzisz „brzydkie” rozkłady, zadaj sobie pytanie: czy chcesz ryzykować nadmierne oparcie wniosków na założeniach testu t? W takich sytuacjach U Manna–Whitneya często wygrywa pragmatyzmem.

Jak praktycznie podjąć decyzję: test t czy U Manna–Whitneya?

Prosty schemat decyzyjny krok po kroku

Możesz przejść przez krótką listę kontrolną. Weź swoje dane i odpowiedz:

  1. Jaki jest typ zmiennej wynikowej?
    Ilościowa (czas, wynik, waga) czy porządkowa (skala 1–5, natężenie bólu)?
  2. Jakie są grupy?
    Niezależne czy sparowane? Jeśli sparowane – myśl raczej o teście t sparowanym lub Wilcoxona, nie o teście U.
  3. Jak wygląda rozkład w każdej grupie?
    Obejrzyj histogramy, wykresy skrzynkowe, sprawdź ekstrema.
  4. Jak duże są próby?
    Kilkanaście osób na grupę czy raczej kilkadziesiąt/kilkaset?

Kiedy dwa testy dają sprzeczne sygnały

Możesz trafić na sytuację, w której:

  • test t wykazuje istotną różnicę,
  • a U Manna–Whitneya – nie (lub odwrotnie).

Co wtedy robisz? Pierwszy odruch: nie wybieraj testu „który lepiej wygląda”. Zamiast tego zadaj sobie kilka pytań:

  • Jakie było Twoje pierwotne pytanie badawcze? Średnia różnica czy przewaga w rangach?
  • Jakie założenia jesteś w stanie obronić przed recenzentem lub klientem?
  • Który test był zaplanowany przed analizą? Ad hoc zmiana metody po zobaczeniu wyników łatwo pachnie „p-hackingiem”.

Jeżeli oba testy dają inne wnioski, to jest sygnał: charakter różnicy między grupami jest bardziej złożony. Zazwyczaj oznacza to coś z poniższej listy:

  • mocno skośne rozkłady,
  • obecność kilku ekstremów w jednej grupie,
  • silnie różne wariancje między grupami,
  • nierówne liczebności prób.

W takiej sytuacji:

  1. obejrzyj wykresy (boxploty, density, histogramy),
  2. opisz problem wprost (np. „wyniki są mocno skośne, część różnicy wynika z kilku bardzo wysokich wartości”),
  3. zdecyduj, która perspektywa jest adekwatna do pytania praktycznego – średnia różnica czy przewaga rang.

Jeśli Twoje pytanie brzmi: „o ile wzrosła średnia liczba sprzedanych sztuk”, to obrona testu t (np. wersji z korektą na nierówność wariancji) ma sens, nawet gdy U wypada inaczej. Jeśli pytasz: „czy ogólnie sprzedawcy po szkoleniu mają wyższą sprzedaż”, a rozkład jest dziwny – bardziej uczciwe będzie oprzeć wnioski na U Manna–Whitneya i miarach przewagi.

Raportowanie wyników: jak mówić językiem odbiorcy

Pytanie pomocnicze: kto będzie czytał Twój raport? Statystyk, lekarz praktyk, menedżer, recenzent naukowy? Od tego zależy, jak „tłumaczysz” wyniki.

Jeśli używasz testu t, rozsądne minimum to:

  • średnia i odchylenie standardowe w każdej grupie,
  • różnica średnich z przedziałem ufności,
  • wartość statystyki t, df, p,
  • efekt wielkości (np. Cohen d).

Przykładowe zdanie: „Średni wynik testu wiedzy był wyższy w grupie szkolonej niż w kontrolnej o 4,2 punktu (95% PU: 1,8–6,6; t(58) = 3,2; p = 0,002; d = 0,8).”

Przy U Manna–Whitneya sensowny pakiet to:

  • mediana i kwartyle w obu grupach,
  • statystyka U oraz p, ewentualnie przeskalowana do Z,
  • efekt wielkości oparty na rangach – np. r lub wskaźnik stochastycznej przewagi (common language effect size).

Przykładowe zdanie: „Mediana natężenia bólu była wyższa w grupie A (6, Q1–Q3: 5–7) niż w grupie B (3, Q1–Q3: 2–5). Oszacowany wskaźnik przewagi wskazuje, że w ok. 72% losowych par pacjent z grupy A ma wyższy poziom bólu niż pacjent z grupy B (U = 145, p < 0,001; r = 0,55).”

Zadaj sobie pytanie: czy osoba, która czyta raport, rozumie „p < 0,05”, czy bardziej „72% pacjentów ma wyższe wartości”? Tam, gdzie to możliwe, dodaj jedno zdanie w zwykłym języku.

Efekt wielkości a wybór testu: co raportować razem z p-wartością

Sam wybór testu to jedno, ale odbiorca często dopyta: „jak duża jest ta różnica?” i tutaj wchodzą miary efektu wielkości. Ich logika powinna być spójna z tym, co testujesz.

Jeżeli używasz testu t, naturalne są:

  • Cohen d – różnica średnich w jednostkach wspólnego odchylenia standardowego,
  • Hedges g – modyfikacja d dla małych prób,
  • r – przekształcenie statystyki t do korelacji.

Miary te wprost odnoszą się do średnich i założenia o rozkładach zbliżonych do normalnych.

Przy teście U Manna–Whitneya lepiej sprawdzają się:

  • r obliczane z wartości Z,
  • A12 / wskaźnik stochastycznej przewagi – prawdopodobieństwo, że wartość z grupy A jest większa niż z grupy B.

Zadaj pytanie: czy Twój odbiorca łatwiej zrozumie „d = 0,5” czy „w ok. 64% przypadków A > B”? Możesz pokazać obie wartości, ale jeden z opisów warto wyeksponować jako główny.

Testy dla prób sparowanych: bliscy kuzyni testu t i U

Do tej pory mowa była o dwóch niezależnych grupach. Co robisz, gdy:

  • masz pomiar przed i po interwencji u tych samych osób,
  • porównujesz dwie metody pomiaru u każdego badanego,
  • dopasowujesz pary (np. chory–zdrowy o tym samym wieku i płci)?

Pierwsza decyzja: traktujesz dane jako sparowane. Pytanie: jak silna jest korelacja w parach i jaki masz rozkład różnic?

Jeśli różnice między pomiarem 1 i 2 są w przybliżeniu normalne, rozsądnym wyborem jest sparowany test t. Ocenia on, czy średnia różnica jest istotnie różna od zera. Przy „brzydkich” rozkładach różnic, skokowych skalach lub małych próbach, jego analogiem w duchu U Manna–Whitneya jest test rang Wilcoxona.

Schemat jest podobny:

  • pytasz o średnią różnicę na oryginalnej skali → sparowany test t,
  • pytasz, czy w dominującej części par wartości po > przed → Wilcoxon.

Jeżeli teraz pracujesz z danymi, zapytaj siebie: czy naprawdę masz dwie niezależne grupy, czy raczej powtarzane pomiary? Źle zaklasyfikowany typ próby bywa większym błędem niż sam wybór t vs U.

Symetria decyzyjna: kiedy oba testy dają te same wnioski

Często po obejrzeniu danych dochodzisz do wniosku: „w zasadzie oba testy są dopuszczalne”. Np.:

  • rozkłady są dość symetryczne,
  • brak ekstremalnych wartości,
  • skala jest w praktyce ilościowa (np. duży test punktowy).

W takim układzie:

  • test t będzie miał minimalnie większą moc,
  • U Manna–Whitneya będzie bardzo blisko wnioskami (szczególnie przy większych próbach).

Jeśli obawiasz się recenzentów, możesz:

  1. zaplanować i zadeklarować główny test (np. test t),
  2. w analizie czułości (sensitivity analysis) pokazać, że U Manna–Whitneya prowadzi do tych samych wniosków jakościowych,
  3. dodatkowo oprzeć narrację na efektach wielkości i wykresach, a nie tylko na p-wartościach.

Pytanie pomocnicze: czy Twoim celem jest maksymalizacja mocy, czy raczej stabilność wniosków „pod różnymi kątami patrzenia”? Jeżeli to drugie, krótka analiza równolegle oboma testami (z jasnym wskazaniem, który jest główny) bywa dobrym kompromisem.

Łączenie testów z wizualizacjami danych

Sam wynik testu – t, U, p – ma ograniczoną wartość bez zrozumienia, jak wyglądają dane. Zanim podejmiesz decyzję, zapytaj siebie: czy widziałeś rozkład w każdej grupie?

Do prostego „przeglądu” sytuacji przydają się:

  • boxploty – szybki wgląd w medianę, rozrzut, outliery,
  • violiny / wykresy gęstości – pokazują kształt rozkładu,
  • jitter / strip chart – indywidualne punkty dla małych prób.

Scenariusz praktyczny: masz dwie grupy, mediana wygląda podobnie, ale w jednym boxplocie widzisz długi „wąs” w górę i kilka ekstremów. Co to mówi?

  • test t może „wyłapać” różnicę, bo średnia zostanie podciągnięta,
  • U Manna–Whitneya może być mniej wrażliwy, jeśli większość wartości jest podobna.

Wtedy pytanie brzmi: czy Twoja narracja ma opierać się na tym, że „kilku pacjentów zareagowało ekstremalnie dobrze”, czy na tym, że „typowy pacjent zyskuje”? To pytanie decyduje, który test lepiej oddaje sens wyniku.

Planowanie badania: wybór testu już na etapie projektu

Najwygodniej wybór testu rozstrzyga się nie przy biurku analityka, ale na etapie planowania. Zanim zbierzesz dane, zapytaj:

  • jak będziesz mierzyć wynik? Skala punktowa, czas, ocena 1–5?
  • jaka jest spodziewana liczebność grup?
  • jakiego rodzaju różnic oczekujesz? Subtelnych czy dużych?

Przykładowo:

  • jeżeli projektujesz eksperyment laboratoryjny z czasu reakcji, masz kontrolowane warunki i sporą próbę – sensowne jest założenie testu t (plus ewentualnie transformacja czasu, jeśli rozkład będzie mocno skośny),
  • jeżeli planujesz badanie satysfakcji klientów skalą 1–5, z przewidywanymi nierównymi grupami – rozsądny bazowy wybór to U Manna–Whitneya.

Dobra praktyka: zapisz w protokole, jakiego testu zamierzasz użyć i w jakich warunkach rozważysz alternatywę (np. „jeśli rozkład będzie ekstremalnie skośny lub pojawią się poważne outliery, użyjemy testu U zamiast testu t”). Ułatwia to obronę decyzji i chroni przed pokusą dobierania testu do efektu.

Transformacje danych czy test nieparametryczny?

Przy skośnych rozkładach pojawia się klasyczne pytanie: czy lepiej „naprawić” dane transformacją (log, sqrt), czy użyć U Manna–Whitneya?

Kilka punktów orientacyjnych:

  • jeśli masz sensowny model teoretyczny mówiący, że np. zjawisko ma rozkład log-normalny (czas reakcji, dochody) – transformacja logarytmiczna może być lepszym wyborem, a następnie używasz testu t na przetransformowanych danych,
  • jeśli skala jest sztuczna, a wartości gromadzą się na kilku poziomach (np. 0, 1, 2 bólu) – transformacje zwykle niewiele zmieniają, wtedy test rangowy bywa bardziej naturalny,
  • jeśli transformacja radykalnie zmienia interpretację (np. logarytm z oceny w skali 1–7) – zapytaj siebie, czy odbiorca zrozumie wynik.

Możesz przyjąć prostą zasadę: najpierw zapytaj o sensowność transformacji z punktu widzenia dziedziny. Jeśli nie masz dobrego uzasadnienia i efekty są trudne do wyjaśnienia, bardziej intuicyjne i przejrzyste będzie zastosowanie U Manna–Whitneya z opisem median oraz wskaźnika przewagi.

Wielkość próby a wybór testu: moc i stabilność wyniku

Przy bardzo małych próbach (np. po 8–10 osób w grupie) nawet niewielkie odstępstwa od normalności mogą wpływać na wynik testu t. Z kolei testy rangowe przy tak małych próbach mają dość „skokowe” p-wartości i ograniczoną informację.

Pytanie diagnostyczne: czy Twoje badanie jest eksploracyjne, czy ma służyć twardym decyzjom (np. klinicznym)?

  • jeśli eksploracyjne – możesz równolegle policzyć oba testy i potraktować je jako komplementarne spojrzenia,
  • jeśli decyzyjne – lepiej jasno wybrać jedno główne narzędzie i oprzeć się mocniej na przedziałach ufności i efektach wielkości niż na samym p.

Najczęściej zadawane pytania (FAQ)

Kiedy użyć testu t, a kiedy testu U Manna–Whitneya?

Najpierw zadaj sobie pytanie: co chcesz porównać między dwiema grupami? Jeśli Twoim celem jest porównanie średnich wartości zmiennej liczbowej (np. średni czas, średni wynik testu) i masz dane w skali przedziałowej/ilorazowej, pierwszym kandydatem jest test t.

Jeśli Twoje dane są porządkowe (np. skala bólu 0–10, skala Likerta) lub rozkład jest bardzo skośny, z ekstremalnymi wartościami, bezpieczniej jest porównywać „poziom” lub medianę zamiast średniej. Wtedy lepszym wyborem jest test U Manna–Whitneya, który opiera się na rangach i jest odporniejszy na odstające obserwacje.

Czy test U Manna–Whitneya zastępuje test t, gdy dane nie są normalne?

Zastanów się: czy interesuje Cię wprost różnica średnich, czy ogólna różnica poziomów między grupami? Jeśli kluczowa jest średnia (np. w raporcie chcesz pokazać „średnio o X jednostek więcej”), nawet przy umiarkowanych odchyleniach od normalności często można nadal stosować test t, zwłaszcza przy większych próbach.

Gdy rozkłady są mocno skośne, próby małe albo skala jest porządkowa, test U Manna–Whitneya jest rozsądniejszym wyborem. Nie „udaje” testu średnich – bada różnice w położeniu rozkładów (często interpretowane jako różnica „typowego poziomu” czy median), a nie samych średnich.

Jak sprawdzić, czy moje grupy są niezależne czy zależne (sparowane)?

Zapytaj: czy ta sama osoba może pojawić się w obu grupach? Jeśli porównujesz np. kobiety vs mężczyźni, grupę kontrolną vs eksperymentalną, mieszkańców miasta vs wsi – masz dwie niezależne grupy. Wtedy w grę wchodzi test t dla prób niezależnych lub test U Manna–Whitneya.

Jeśli natomiast porównujesz ten sam obiekt „przed” i „po” (ten sam pacjent przed i po terapii, ten sam uczeń przed i po szkoleniu), masz dane sparowane. W takim przypadku właściwe są: test t dla prób zależnych (parametrycznie) lub test Wilcoxona dla prób zależnych (nieparametrycznie). Użycie testu t dla prób niezależnych albo U Manna–Whitneya przy danych sparowanych zaniża błędy i zawyża istotność.

Czy mogę stosować test t do danych z ankiety w skali Likerta (1–5, 1–7)?

Zastanów się, jak chcesz bronić swojej decyzji metodologicznie. Skale Likerta są formalnie porządkowe, więc idealnie pasują do testu U Manna–Whitneya, który nie zakłada równych odstępów między kategoriami. Interpretujesz wtedy różnice jako „wyższy poziom ocen” w jednej z grup.

W praktyce bardzo często traktuje się skale 1–5 czy 1–7 jak przybliżenie skali ilościowej i używa testu t, zwłaszcza przy dużych próbach. Jeśli piszesz pracę naukową lub raport, który może być krytycznie oceniany, odpowiedz sobie szczerze: czy akceptujesz założenie, że różnica między 1 a 2 jest zbliżona do różnicy między 4 a 5? Jeśli nie – wybierz U Manna–Whitneya.

Co jeśli chcę poznać nie tylko „czy jest różnica”, ale też „o ile się różnią”?

Najpierw ustal: w jakich jednostkach chcesz opisywać efekt? Jeśli zależy Ci na różnicy średnich w naturalnych jednostkach (np. „grupa A ma średnio o 5 punktów więcej”), test t jest bardzo wygodny – bezpośrednio podaje różnicę średnich i przedziały ufności, które łatwo zinterpretować praktycznie.

Test U Manna–Whitneya nie zwraca różnicy średnich, bo operuje na rangach. Możesz jednak podać inne miary efektu, np. różnicę median, współczynnik r, AUC lub prawdopodobieństwo, że losowo wybrana osoba z grupy A ma wyższy wynik niż z grupy B. Zadaj sobie pytanie: czy takie miary są zrozumiałe dla odbiorcy Twojego badania?

Czy mogę użyć testu t lub Manna–Whitneya, jeśli mam więcej niż dwie grupy?

Jeżeli porównujesz więcej niż dwie grupy (np. trzy typy terapii, cztery poziomy wykształcenia), sam test t czy U Manna–Whitneya nie wystarczy. Bazowe założenie tych testów to dokładnie dwie grupy. Najpierw potrzebujesz odpowiednika „wielogrupowego”, np. analizy wariancji (ANOVA) dla danych parametrycznych lub testu Kruskala–Wallisa dla danych nieparametrycznych.

Dopiero gdy globalny test wskaże różnice między grupami, możesz wykonywać porównania parami (post hoc), np. serię testów t lub testów Manna–Whitneya z korektą na wielokrotne porównania. Zanim zaczniesz klikać testy, odpowiedz sobie: czy Twoje pytanie dotyczy konkretnie dwóch grup, czy pełnego zestawu kilku kategorii?

Co zrobić, jeśli moja zmienna jest 0/1 (tak/nie, sukces/porażka)?

Jeśli wynik przyjmuje tylko dwie kategorie (np. „wyzdrowiał/nie wyzdrowiał”, „zdał/nie zdał”), nie jesteś w obszarze testu t ani testu U Manna–Whitneya. Masz zmienną nominalną, więc lepsze narzędzia to test chi-kwadrat, dokładny test Fishera albo modele regresji logistycznej.

Zadaj sobie pytanie: czy Twoja zmienna wynikowa ma sens liczenia średniej (np. czasu, wyniku, poziomu bólu)? Jeśli odpowiedź brzmi „nie, to tylko kategorie”, od razu odpuść test t i Manna–Whitneya i przejdź do testów dla zmiennych jakościowych.

Najważniejsze wnioski

  • Zacznij od pytania: co dokładnie porównujesz między grupami – średnią, medianę czy ogólny „typowy poziom”? Jeśli myślisz wprost o różnicy średnich (np. „średnio o 5 punktów więcej”), naturalnym wyborem jest test t; jeśli bardziej o medianie lub poziomie typowym przy skośnych rozkładach, rozważ test U Manna–Whitneya.
  • Ustal, czy interesuje Cię tylko „czy się różnią?”, czy także „o ile się różnią?”. Test t bezpośrednio daje różnicę średnich i przedział ufności; w teście U Manna–Whitneya musisz osobno dobrać miarę wielkości efektu (np. r, AUC, różnica median, P(X>Y)).
  • Najpierw odpowiedz sobie: czy grupy są niezależne, czy te same osoby mierzone dwukrotnie? Dla pomiarów sparowanych nie używaj testu t dla prób niezależnych ani U Manna–Whitneya – wtedy przechodzisz na test t sparowany lub test Wilcoxona.
  • Test t i test U Manna–Whitneya stosujesz wtedy, gdy porównujesz dwie grupy względem jednej zmiennej liczbowej lub porządkowej. Jeśli liczysz efekty kilku czynników naraz (np. terapia + wiek + płeć), potrzebujesz modelu regresji, ANCOVA lub modelu mieszanego.
  • Najpierw zdiagnozuj skalę pomiaru: dla skali nominalnej (np. tak/nie, typ szkoły) nie używaj testu t ani Manna–Whitneya; dla skali porządkowej (Likert, natężenie bólu) lepiej sprawdzi się test U; dla skali ilościowej (czas, wynik testu, wzrost) punktem wyjścia jest test t.