Zbliżenie ekranu z cyfrowymi wykresami i danymi o wirusach
Źródło: Pexels | Autor: Sharad Bhat
Rate this post

Nawigacja po artykule:

Dlaczego w ogóle pada pytanie „czy Mann‑Whitney to test median?”

Skąd w praktyce bierze się mit „Mann‑Whitney = test median”

W wielu podręcznikach metodologicznych i prezentacjach dla praktyków powtarza się uproszczenie: „jeśli dane nie są normalne, użyj testu U Manna‑Whitneya jako nieparametrycznego odpowiednika t‑testu dla średnich”. Ponieważ przy danych skośnych zaleca się raportowanie median zamiast średnich, kolejny skrót myślowy brzmi: „czyli U Manna‑Whitneya to test median”. Tak powstaje niebezpieczna etykietka, która zaczyna żyć własnym życiem.

Drugie źródło tego skrótu to interfejsy programów statystycznych. W wielu pakietach wynik testu Manna‑Whitneya wyświetlany jest w jednym oknie razem z opisem typu „Median (Group 1)” i „Median (Group 2)”. Łatwo wtedy odczytać to jako: „jeśli p < 0,05, to mediany się różnią”. To jednak nadinterpretacja: program jedynie pokazuje mediany obok wyniku testu rangowego, ale ich formalnie nie testuje.

Trzeci powód to potoczne rozumienie „testu median” jako czegokolwiek, co działa na szeregach porządkowych, nie wymaga normalności i „jest bardziej odporne”. W takim ujęciu wielu badaczy wrzuca do jednego worka: test znaku, test Wilcoxona, test Manna‑Whitneya i formalny median test. W efekcie nazwy rozmywają się, a kryterium „co dokładnie jest hipotezą zerową” przestaje być w ogóle rozważane.

Jeżeli taki skrót myślowy przenosi się do raportów, pojawia się typowy fragment: „Przeprowadzono test U Manna‑Whitneya w celu porównania median…”. To już jest sygnał ostrzegawczy: opis testu nie jest zgodny z jego rzeczywistą hipotezą.

Potoczne „testowanie median” a formalna hipoteza o medianach

W potocznym języku „porównać mediany” często znaczy: sprawdzić, czy wartości typowe w obu grupach są różne. Mediana jest wtedy tylko etykietą dla „typowej wartości”, niekoniecznie w ścisłym sensie statystycznym. Takie luźne podejście jest niebezpieczne, bo zaciera różnicę między:

  • formalnym testem hipotezy H0: mediana w grupie A = mediana w grupie B,
  • a testem, który sprawdza H0: rozkłady w obu grupach są stochastycznie równe (żaden nie generuje systematycznie większych wartości).

Test U Manna‑Whitneya należy do drugiej kategorii. Operuje na rangach, a jego hipoteza zerowa – przy ciągłych rozkładach – dotyczy równości rozkładów, a nie równości konkretnych parametrów typu mediana. Dopiero przy dodatkowych założeniach o kształcie rozkładu można go interpretować jako test różnicy lokalizacji (a więc pośrednio – median), ale nie jest to wbudowane w samą definicję testu.

Formalny „median test” (często nazywany testem Mood’a lub ogólniej testem opartym o przekroczenie wspólnej mediany) ma zupełnie inną konstrukcję: dzieli obserwacje względem jednej, wspólnej mediany i bada, czy częstości powyżej/poniżej różnią się między grupami. Jest przez to prostszy, ale mniej czuły. Mann‑Whitney i „median test” to różne narzędzia z różnymi hipotezami.

Krótki przykład z badań – automatyczny wybór U jako „testu mediany”

Wyobraźmy sobie badanie porównujące dwie metody rehabilitacji po urazie kolana. Mierzony jest czas powrotu do pełnej sprawności w dniach. Rozkład czasu jest skośny (część pacjentów wraca do zdrowia bardzo szybko, inna część bardzo wolno), więc autorzy raportu piszą: „Z uwagi na brak normalności użyto median (IQR) i testu U Manna‑Whitneya do porównania median czasu powrotu”.

Diagnostyka rozkładów pokazuje jednak, że w jednej grupie jest większa zmienność – więcej wartości skrajnie wysokich, ale mediana jest podobna do drugiej grupy. Test U Manna‑Whitneya wychodzi istotny, ponieważ rangi w jednej grupie są częściej skrajnie wysokie. Wniosek „median czasów istotnie się różnią” jest w takim przypadku błędny. Różni się rozrzut, ogon rozkładu i ryzyko bardzo długiego leczenia, a nie położenie „typowego” pacjenta.

W tym scenariuszu test U działa jako test stochastycznej dominacji, a nie jako formalny test median. Odpowiednio uczciwy opis mógłby brzmieć: „Rozkład czasów powrotu do zdrowia różni się między grupami; w grupie B częściej obserwuje się bardzo długie czasy”. Sformułowanie „różnica median” jest w tym raporcie zbyt daleko idącą interpretacją.

Sygnały ostrzegawcze przy utożsamianiu U z testem median

Lista typowych sygnałów ostrzegawczych, że automatyczne użycie U jako „testu median” jest problematyczne:

  • Wyraźnie różne rozrzuty (inne IQR, inne odchylenie standardowe, inna liczba wartości skrajnych).
  • Inny kształt rozkładu: jedna grupa mocno skośna, druga zbliżona do symetrii; jedna z ogonem prawym, druga z ogonem lewym.
  • Różna liczebność grup połączona z różnym kształtem rozkładu – wtedy wynik U jest silnie kształtowany przez jedną z grup.
  • Dane z natury „poszatkowane”, np. skale porządkowe z niewielką liczbą poziomów (1–5), gdzie wiele remisów wpływa na rangi.

Jeżeli którykolwiek z tych sygnałów się pojawia, test U na pewno nie jest czystym „testem median”. W takim ustawieniu punktem kontrolnym staje się pytanie: „czy interesuje mnie ogólna różnica rozkładów, czy konkretnie różnica median (lub innych parametrów)”.

Jeśli celem jest rzetelne porównanie dwóch grup przy danych nieparametrycznych, pierwszym minimum jest oddzielenie w głowie tych dwóch poziomów: test stochastycznego przesunięcia (U Manna‑Whitneya) kontra formalny test median (np. median test). Utożsamianie jednego z drugim bez oglądu rozkładów jest naruszeniem pierwszego punktu kontrolnego jakości analizy.

Wykresy finansowe z lupą i przyborami na drewnianym biurku
Źródło: Pexels | Autor: RDNE Stock project

Podstawy: co konkretnie testuje U Manna‑Whitneya w ujęciu rang i prawdopodobieństw

Definicja testu U przez porządkowanie rang

Test U Manna‑Whitneya jest testem rangowym dla dwóch niezależnych prób. Zamiast operować na surowych wartościach (np. 2,5; 3,7; 10,2), zamienia je na rangi w uporządkowaniu od najmniejszej do największej. Następnie bada, czy rozkład rang w obu grupach jest zgodny z hipotezą „braku systematycznej przewagi którejś z grup”.

W prostym ujęciu:

  • łącze się wszystkie obserwacje z grupy A i B,
  • przypisuje rangę 1 najmniejszej wartości, 2 – kolejnej itd., przy remisach stosuje rangi wiązane,
  • sumuje rangi w każdej grupie (RA, RB),
  • z tych sum wylicza statystykę U, która mierzy jak bardzo rangi z jednej grupy przesuwają się w górę lub w dół względem drugiej.

Jeżeli rozkłady w obu grupach są takie same, rangi powinny być wymieszane przypadkowo. Suma rang w każdej grupie oscyluje wtedy wokół wartości oczekiwanej. Jeżeli jedna grupa generuje systematycznie wyższe wartości, jej rangi będą z reguły większe i suma rang odchyli się istotnie od oczekiwania.

Kluczowe jest tu słowo „porządek”: test U bada, czy jedna grupa ma wyższe wartości „w sensie porządkowym”, nie w sensie konkretnych różnic średnich czy median. Parametry takie jak średnia czy mediana „przeciskają się” do interpretacji dopiero wtedy, gdy przyjmie się dodatkowo, że różnice w rozkładach sprowadzają się do prostego przesunięcia.

Interpretacja probabilistyczna: P(X > Y) i efekt stochastycznej dominacji

W praktyce bardziej intuicyjna jest interpretacja probabilistyczna. Dla dwóch losowych zmiennych X i Y (reprezentujących wartości z dwóch grup) test U ocenia wielkość:

P(X > Y) + 0,5·P(X = Y)

czyli prawdopodobieństwo, że losowo wybrana obserwacja z grupy A jest większa niż losowo wybrana obserwacja z grupy B, z doliczeniem połowy szans na remis. Jeśli obie grupy są „identyczne” w sensie rozkładu, to:

  • P(X > Y) = P(Y > X),
  • przy braku remisów P(X > Y) = 0,5.

Test U bada, czy to prawdopodobieństwo istotnie odbiega od 0,5. Jeśli P(X > Y) > 0,5, można powiedzieć: „losowo wybrany osobnik z grupy A ma z większą szansą wyższą wartość niż losowy osobnik z grupy B”. To jest stochastyczna dominacja, a nie jeszcze różnica median, choć w prostszych sytuacjach oba pojęcia się zbliżają.

Ta interpretacja łączy test U z popularnymi miarami wielkości efektu:

  • wskaźnik Cliffa delta mierzy P(X > Y) – P(X < Y),
  • w kontekście diagnostyki, ta sama idea staje się wskaźnikiem AUC (Area Under Curve) w analizie ROC.

Jeśli analiza U Manna‑Whitneya ma być rzetelna, warto w raporcie eksponować właśnie tę interpretację: „W grupie A obserwacje są generalnie wyższe/niższe w sensie porządkowym”. Mówienie w takim miejscu „mediana A jest istotnie większa niż mediana B” przekracza to, co na poziomie hipotez gwarantuje test.

Hipoteza zerowa: równość rozkładów, nie median

Formalne założenie przy ciągłych rozkładach brzmi:

H0: Rozkład X w grupie A jest taki sam jak rozkład Y w grupie B

Innymi słowy: X i Y mają ten sam rozkład prawdopodobieństwa. Nie ma tu mowy o medianie, średniej ani wariancji. Te parametry są jedynie funkcjami rozkładu. Jeśli rozkłady są identyczne, ich mediany są równe. Ale jeśli rozkłady różnią się kształtem, hipoteza o równości median może być prawdziwa lub fałszywa niezależnie od wyniku testu U.

W praktyce wiele osób upraszcza H0 do: „brak różnicy między grupami”. To samo w sobie jest dopuszczalne, o ile w dalszej interpretacji nie zmienia się nagle tego stwierdzenia na „brak różnicy median”. Test U reaguje na dowolną systematyczną różnicę w rozkładach, w tym na:

  • różnice w położeniu (np. przesunięcie w prawo),
  • różnice w rozrzucie (jedna grupa bardziej zmienna),
  • różnice w asymetrii i kształcie ogonów,
  • obecność lub brak ekstremalnych wartości.

W kontekście pytania „czy Mann‑Whitney to naprawdę test median?” odpowiedź na poziomie hipotezy zerowej jest jednoznaczna: nie. Test dotyczy rozkładów; mediana pojawia się dopiero wtedy, gdy rozkłady mają „ten sam kształt” i różnią się jedynie lokalizacją.

Co dokładnie oznacza „różnica” wykryta przez test U

Istotny wynik testu U mówi: „rozkłady w obu grupach nie są stochastycznie równe; jedna grupa generuje generalnie wyższe wartości niż druga”. To bardzo pojemne stwierdzenie. Statystyka U nie mówi co konkretnie różni rozkłady, a jedynie, że:

  • rangi z jednej grupy są przesunięte w górę lub w dół,
  • a więc P(X > Y) odbiega od 0,5.

Przekładając to na wnioski praktyczne, istotny wynik U może oznaczać na przykład:

  • wyniki w grupie A są zazwyczaj wyższe, ale różnice wynikają głównie z ogona (więcej ekstremów),
  • rozrzut w grupie A jest większy, więc częściej pojawiają się zarówno bardzo małe, jak i bardzo duże wartości, zmieniając układ rang,
  • część rozkładu jest przesunięta (np. górna połowa obserwacji), podczas gdy dolna połowa jest podobna w obu grupach.

Test U jest więc testem stochastycznego przesunięcia, ale nie algorytmem wyciągającym na wierzch, którego aspekt rozkładu jest inny. Dlatego zawsze powinien być uzupełniony analizą opisową (median, kwartyli, wykresów) i – gdy to potrzebne – dodatkowymi testami ukierunkowanymi na konkretne parametry.

Jeśli interpretacja testu Manna‑Whitneya pozostaje na poziomie: „czy wartości w grupie A są generalnie większe od wartości w grupie B”, pozostaje bliższa prawdy niż mówienie wprost: „czy mediany się różnią”. Z punktu widzenia audytu jakości analizy to ważne rozróżnienie.

Wykresy biznesowe i okulary leżące na biurku obok dokumentów
Źródło: Pexels | Autor: RDNE Stock project

Mediana, średnia, rozkład: o jakie wielkości w ogóle można się spierać

Mediana jako odporna miara położenia

Mediana jest statystyką położenia odporną na wartości skrajne. Dla próby ułożonej rosnąco jest to środkowa obserwacja (lub średnia z dwóch środkowych przy parzystej liczebności). Jej interpretacja jest prosta: połowa danych leży poniżej, połowa powyżej. W przeciwieństwie do średniej, pojedyncza obserwacja ekstremalna niemal nie zmienia jej wartości.

Typowy scenariusz: rozkład wynagrodzeń, czas hospitalizacji, liczba błędów na zmianę. W takich danych kilka bardzo wysokich wartości potrafi „wyciągnąć” średnią w górę, podczas gdy mediana nadal reprezentuje typowego pracownika czy pacjenta. Dlatego przy danych skośnych lub z ogonem mediana jest czytelnym opisem „centrum” rozkładu.

Z punktu widzenia audytu analizy statystycznej mediana jest dobrym punktem kontrolnym:

  • jeśli mediana „ucieka” w jedną stronę, a średnia w drugą – sygnał ostrzegawczy skośności lub ekstremów,
  • jeśli mediana jest bardzo podobna w grupach, a test U wychodzi istotny – sygnał, że różnice nie siedzą w centrum rozkładu.

Jeśli punktem zainteresowania jest „typowy” poziom zmiennej (np. typowy czas reakcji, typowa ocena w ankiecie), mediana jest naturalnym kandydatem. Jeśli jednocześnie rozkłady są podobne kształtem, test U może stać się użytecznym przybliżeniem testu median, ale dopiero po sprawdzeniu tych warunków, a nie z założenia.

Średnia jako miara wartości oczekiwanej

Średnia arytmetyczna ma inne znaczenie: jest wartością oczekiwaną. W asymptotycznym sensie odpowiada temu, co „wyszłoby”, gdyby dane uśredniać w nieskończoność. Przy rozkładach symetrycznych i bez ciężkich ogonów pokrywa się z intuicją „przeciętnego” wyniku, jednak staje się bardzo czuła na ogony i wartości ekstremalne.

W konsekwencji porównywanie średnich ma sens, gdy:

  • rozkłady są w przybliżeniu symetryczne,
  • brak jest ekstremów determinujących wynik,
  • skupiamy się na różnicy w wartości oczekiwanej (np. oczekiwany koszt, oczekiwany zysk).

Test U i średnia „rozmawiają” ze sobą tylko pośrednio. U opiera się na rangach, a więc reaguje na globalny porządek obserwacji. Średnia patrzy na konkretne wartości liczbowo. Może się więc zdarzyć, że:

  • różnica średnich jest wyraźna, a test U słabo istotny, bo różnice wynikają głównie z kilku krańców rozkładu,
  • test U jest bardzo istotny, ale różnica średnich niewielka, bo całe rozkłady są nieco przesunięte, lecz mocno rozmyte.

Jeśli głównym parametrem raportowanym w wynikach jest średnia, a do testowania różnicy używa się testu U, mamy rozjazd między pytaniem a narzędziem. To klasyczny punkt kontrolny: parametry użyte do opisu danych powinny być zgodne z parametrem, który jest de facto testowany.

Rozkład jako pełniejszy opis: kształt, rozrzut, ogony

Mediana i średnia to tylko dwie liczby streszczające rozkład. Pełny rozkład obejmuje:

  • położenie (gdzie leży „centrum”),
  • rozrzut (jak bardzo dane są rozproszone),
  • asymetrię (czy ogon jest dłuższy w prawo czy w lewo),
  • ciężkość ogonów (jak często pojawiają się ekstremalne wartości),
  • modę (najbardziej typowe wartości),
  • ewentualną wielomodalność (więcej niż jedno „wzgórze”).

Test U jest testem na poziomie rozkładu. Reaguje na każdy z powyższych elementów, jeśli różnice są na tyle duże, by zmienić względny porządek obserwacji. Dlatego dwa rozkłady mogą mieć:

  • taką samą medianę, taką samą średnią, ale różny rozrzut i ogony – wynik U może być istotny,
  • różne mediany, ale bardzo podobny ogólny układ rang – wynik U może być słaby.

Prosty przykład praktyczny: dwie grupy pacjentów z tym samym medianowym czasem hospitalizacji, ale w jednej grupie część osób leży bardzo krótko, część bardzo długo (duży rozrzut), podczas gdy w drugiej większość ma podobny czas pobytu. Statystyka U zacznie „widzieć” inną strukturę rang, mimo że mediana w obu grupach się zgadza.

Jeśli decyzja ma dotyczyć konkretnie „różnicy median”, a nie globalnej zmiany rozkładów, sama istotność testu U jest niewystarczająca. W takim przypadku punktem kontrolnym jest sprawdzenie: czy różnice w kształcie rozkładu nie dominują nad samą zmianą położenia.

Relacje między medianą, średnią a wynikiem testu U

Analizując dane z perspektywy „czy U Manna‑Whitneya to test median”, trzeba zauważyć kilka typowych konfiguracji:

  • Mediana różna, średnia podobna, U istotne – rozkłady przesunięte w centrum, bez dużej zmiany w ogonach; test U działa podobnie do testu median, choć nie jest nim formalnie.
  • Mediana podobna, średnia różna, U istotne – różnice głównie w ogonach (ekstrema); test U sygnalizuje różnicę rozkładów, ale nie można jej opisać jako „inna mediana”.
  • Mediana różna, średnia różna, U nieistotne – zwykle małe liczebności lub duży szum; brak mocy testu, trudno cokolwiek wnioskować o medianie na podstawie U.
  • Mediana podobna, średnia podobna, U nieistotne – brak istotnych dowodów na różnicę rozkładów; jeśli jednak wykresy sugerują inne kształty, i tak wymagana jest ostrożność.

Jeżeli przy interpretacji wyników „wjeżdża” automatyczne zdanie: „skoro U istotne, to mediany różne”, to sygnał ostrzegawczy. Minimalnym standardem jest sprawdzenie zgodności tej narracji z rzeczywistymi medianami, średnimi oraz kształtem rozkładów na wykresach.

Kobieta wskazuje na wykres porównawczy na ekranie laptopa przy biurku
Źródło: Pexels | Autor: Kampus Production

Kiedy test Manna‑Whitneya faktycznie zachowuje się jak test median

Założenie wspólnego kształtu rozkładu (równych kształtów)

Warunkiem, w którym U Manna‑Whitneya w praktyce „udaje” test median, jest identyczny kształt rozkładów w obu grupach, różniących się jedynie położeniem (lokalizacją). Oznacza to, że jeśli odejmiemy od każdej obserwacji stałą (np. medianę grupy), kształt histogramów czy gęstości będzie taki sam:

  • ten sam stopień skośności,
  • podobne rozrzuty (np. zbliżone IQR, brak dużej różnicy w odchyleniu standardowym),
  • zbliżona struktura ogonów (brak dodatkowych „kieszeni” ekstremalnych wartości w jednej z grup).

W takim ustawieniu „stochastyczne przesunięcie” jest równoznaczne z przesunięciem mediany. Jeśli cały rozkład grupy A jest przesunięty w prawo względem grupy B o stałą wartość, to mediana A jest o tę samą wartość większa niż mediana B, a test U reaguje dokładnie na to przesunięcie.

W praktyce kryteria minimalne są następujące:

  • porównywalny kształt boxplotów (symetria, rozstaw wąsów, brak dodatkowych ogonów tylko w jednej grupie),
  • podobne histogramy lub wykresy gęstości po ewentualnym zgrubnym przesunięciu na osi X,
  • brak wyraźnych różnic w odsetku ekstremów w jednej z grup.

Jeśli te warunki są w przybliżeniu spełnione, interpretacja wyniku testu U jako dowodu na różnicę median jest znacznie bliższa prawdy. Nie jest to dowód matematycznie ścisły, ale z punktu widzenia praktyki stosowania statystyki jest to dopuszczalne przy wyraźnym zaznaczeniu założeń.

Symetryczne rozkłady o zbliżonym rozrzucie

Szczególnym, przyjaznym przypadkiem są rozkłady symetryczne i o podobnym rozrzucie w obu grupach. Symetria powoduje, że mediana, średnia i „środek ciężkości” rozkładu zlewają się. W takich sytuacjach:

  • przesunięcie średniej odpowiada przesunięciu mediany,
  • większe P(X > Y) wprost przekłada się na „cały rozkład A leży wyżej niż B”.

Przykładowo: czas reakcji mierzony w warunkach laboratoryjnych, gdzie rozkłady są dość wąskie i zbliżone do symetrii, albo wyniki testów standaryzowanych po odpowiedniej transformacji. Jeżeli wykresy nie pokazują wyraźnej skośności ani różnic w ogonach, istotny wynik U jest wprost zgodny z wnioskiem „mediana A > mediana B”.

Minimalny zestaw kontroli w tym scenariuszu:

  • porównanie median i średnich (powinny być zbliżone w każdej grupie osobno),
  • sprawdzenie, czy IQR są zbliżone,
  • wizualne potwierdzenie braku wyraźnych ogonów tylko w jednej grupie.

Jeśli te kryteria są spełnione, używanie sformułowań typu „wynik testu U wskazuje na różnicę median” jest akceptowalne metodologicznie, o ile autor jasno sygnalizuje, na jakich założeniach opiera tę interpretację.

Model przesunięcia lokalizacji (location shift model)

Bardziej formalnie, sytuacja sprzyjająca utożsamianiu U z testem median to model przesunięcia lokalizacji:

Y = X + c

gdzie c jest stałą, a rozkład X jest taki sam w obu grupach. Wtedy:

  • mediana(Y) = mediana(X) + c,
  • P(X > Y) jest jednoznaczną funkcją stałej c,
  • większe c oznacza większą szansę, że losowa obserwacja z jednej grupy będzie większa.

W takim modelu test U jest po prostu testem hipotezy H0: c = 0 (brak przesunięcia) versus H1: c ≠ 0, a więc pośrednio testem równości median. Problem w tym, że w danych rzeczywistych model Y = X + c rzadko jest spełniony dokładnie. Dlatego rozpoznanie „czy jest choć przybliżająco prawdziwy” staje się kolejnym punktem kontrolnym.

Jeżeli w analizie da się obronić założenie stałego przesunięcia lokalizacji (np. różne grupy otrzymały ten sam rodzaj bodźca, tyle że o różnej intensywności), to interpretacja U jako testu na położenie – a więc i na medianę – jest znacznie mniej ryzykowna. Brak tego założenia powoduje, że wynik testu U zaczyna mieszać aspekty położenia, rozrzutu i kształtu.

Przypadek skal porządkowych z dużą liczbą poziomów

W praktyce nauk społecznych i medycznych test U jest często używany dla skal porządkowych (np. skale 0–10 bólu, 1–7 satysfakcji), gdzie liczba poziomów jest stosunkowo duża, a rozkłady rozlewają się w miarę płynnie. Jeśli:

  • skala ma co najmniej 7–10 poziomów,
  • brak silnego „dobijania” do jednego z końców skali,
  • rozkłady odpowiedzi są podobne kształtem, lecz przesunięte,

wówczas U zachowuje się podobnie do testu różnicy położenia „typowej” odpowiedzi. Mediana w takich danych jest interpretacyjnie atrakcyjna („typowa ocena pacjenta”), a przesunięcie rang odpowiada przesunięciu odczuć czy ocen w górę lub w dół.

Jeśli jednak skala jest krótka (np. 1–3, 1–5), z dużą liczbą remisów i wyraźnym skupieniem przy jednym z końców, wtedy interpretacja U jako testu median szybko traci sens. W tej sytuacji kluczowy staje się wcześniejszy punkt ostrzegawczy dotyczący „poszatkowanych” danych.

Jeżeli skala porządkowa jest wystarczająco bogata, a odpowiedzi nie zbijają się w jeden poziom, użycie U jako przybliżenia „testu median” może być praktycznym kompromisem. Jeżeli jednak skala jest krótka i silnie skośna, taki skrót myślowy jest już błędem projektowym.

Kiedy U Manna‑Whitneya NIE jest testem median i prowadzi do innych wniosków

Różnice w rozrzucie przy podobnej medianie

Najbardziej klasyczny przypadek, w którym test U odstaje od interpretacji „testu median”, to różne rozrzuty przy podobnych medianach. Wyobraźmy sobie dwie terapie o podobnym medianowym czasie powrotu do zdrowia, ale w jednej z nich pacjenci „rozjeżdżają się” silnie w obie strony (część zdrowieje bardzo szybko, część bardzo wolno), a w drugiej czasy są bardziej przewidywalne.

W takiej konfiguracji:

  • mediany mogą się niemal nie różnić,
  • średnie również mogą być podobne,
  • test U wychodzi istotny, bo układ rang jest zaburzony przez skrajne wartości w jednej z grup.

Inne kształty rozkładów przy tej samej medianie

Drugi, równie częsty scenariusz: ta sama mediana, radykalnie inny kształt rozkładu. Przykład z praktyki: czas hospitalizacji po zabiegu. W jednej grupie większość pacjentów wypisywana jest w podobnym czasie, ale pojawia się niewielki „ogon” bardzo długich pobytów. W drugiej grupie pobyty są bardziej równomiernie rozproszone, bez ekstremów. Mediany są niemal identyczne, a mimo to układ rang może wyraźnie faworyzować jedną z grup.

Na poziomie rang i prawdopodobieństw dzieje się wtedy coś, czego sama mediana nie wychwyci:

  • w jednej grupie kumuluje się dużo wartości w wąskim przedziale wokół mediany,
  • w drugiej – większa część obserwacji „rozlana” jest powyżej i poniżej tego punktu,
  • P(X > Y) odchyla się od 0,5 nie dlatego, że „typowa wartość” jest inna, lecz dlatego, że struktura całego rozkładu jest inna.

Na wykresach widać to jako różne „kształty gęstości” przecinające się mniej więcej przy tej samej medianie, ale o innych ogonach i płaskich partiach. U Manna‑Whitneya reaguje na te różnice strukturalne, co może prowadzić do istotnego wyniku przy praktycznie identycznych medianach.

Punkt kontrolny w takim przypadku:

  • porównanie pełnych rozkładów (np. wykresy gęstości, violin plot), a nie tylko boxplotu,
  • sprawdzenie, czy krzywe kumulacyjne (empiryczne dystrybuanty) przecinają się w okolicy mediany,
  • ocena, czy różnice dotyczą raczej „ogonów” i obszarów dalekich od środka niż samego centrum.

Jeśli rozkłady mają podobne mediany, ale wyraźnie różne kształty, a test U wychodzi istotny, to sygnał, że U nie zachowuje się jak test median, tylko ujawnia różnice w całej strukturze rozkładów. W takim ustawieniu komunikat „mediany się różnią” jest po prostu nieprawdziwy.

Dominacja stochastyczna bez przesunięcia mediany

Szczególnie mylący przypadek to stochastyczna dominacja jednej grupy nad drugą (większość wartości wyższa), przy jednoczesnym braku różnicy median. Może do tego dojść, gdy różnice koncentrują się mocno w jednym ogonie, a reszta rozkładu pozostaje zbliżona.

Przykład: ocena skuteczności dwóch leków na skali 0–10. W obu grupach typowa (medianowa) ocena to 7. Jednak w grupie A rzadziej pojawiają się bardzo niskie oceny 0–2, a nieco częściej bardzo wysokie 9–10. W efekcie:

  • P(A > B) jest wyraźnie większe niż 0,5,
  • krzywe dystrybuant FA(x) i FB(x) niemal nigdy się nie „odwracają”,
  • test U wykaże istotną różnicę, bo jedna grupa stochastycznie dominuje drugą.

Mediana 7 w obu grupach nie zanika, ale traci na znaczeniu jako opis przewagi. Typowa wartość jest ta sama, lecz rozkład ocen „ciągnie” jedną grupę w górę przez lepszą sytuację w ogonach. U Manna‑Whitneya opisuje tu globalną przewagę – niekoniecznie przesunięcie centrum.

Co trzeba sprawdzić, zanim ktokolwiek nazwie to „różnicą median”:

  • jak wygląda różnica w ogonach – porównanie odsetka bardzo niskich i bardzo wysokich wartości,
  • czy dystrybuanty wyraźnie się rozjeżdżają na skrajach, choć przy medianie są blisko siebie,
  • czy dodatkowe miary (np. kwartyle 10% i 90%) nie pokazują wyraźnej asymetrii między grupami.

Jeśli U Manna‑Whitneya jest istotne, mediany są podobne, a przewaga jednej grupy wynika z „lepszych ogonów”, to wniosek dotyczy stochastycznej dominacji, a nie równości/nie­rów­no­ści median. W takim ustawieniu próba przyklejenia etykiety „test median” jest błędem interpretacyjnym.

Silna skośność i różne kierunki skośności

Kolejny obszar, w którym U przestaje przypominać test median, to silna skośność, zwłaszcza w przeciwnych kierunkach. Przykład: rozkłady dochodów w dwóch populacjach. W jednej zarobki większości są niskie, ale pojawia się niewielka grupa bardzo wysokich wynagrodzeń (prawoskośny rozkład). W drugiej rozkład jest bardziej spłaszczony, ale z mniejszą grupą ekstremalnie wysokich dochodów i nieco większą liczbą osób o średnich zarobkach.

Co się dzieje w takim układzie:

  • mediana może być zbliżona (typowy uczestnik rynku zarabia podobnie),
  • średnia może być różna (bo „ciągną” ją ekstremalne wyniki),
  • test U reaguje na kombinację skośności i rozrzutu, a nie tylko na centrum.

W praktyce duża skośność powoduje „zagęszczenie” rang w jednej części rozkładu i rozciągnięcie ich w drugiej. U staje się wtedy testem złożonej różnicy w położeniu i kształcie, w której rola mediany jest tylko częścią obrazu. Wystarczy, że w jednej grupie pojawi się więcej obserwacji w ogonie, a w drugiej więcej w pobliżu środka, i układ rang przesunie się bez jednoznacznej zmiany mediany.

Minimalne minimum diagnostyczne w takich sytuacjach:

  • wykreślić rozkłady w skali logarytmicznej (jeśli dane są dodatnie) i sprawdzić, czy skośność się wyrównuje,
  • porównać medianę i średnią w każdej grupie – duża różnica to sygnał ostrzegawczy dla interpretacji „testu median”,
  • sprawdzić, czy transformacja (np. log, Box‑Cox) nie wprowadzi symetrii i nie zmieni znacząco wyniku U.

Jeśli przy silnej skośności i różnym kształcie ogonów test U daje istotny wynik, nie ma podstaw, by sprowadzać go do testu median. Dotyczy on wtedy wypadkowej kształtu, skośności i rozrzutu, a nie czystej różnicy „typowej wartości”.

Wiele remisów i „poszatkowana” skala

Problem często ignorowany, a bardzo poważny: wiele remisów (ties) i krótka skala. Gdy dane przyjmują tylko kilka wartości (np. skala 1–5, liczba hospitalizacji 0, 1, 2…) i w każdym poziomie siedzi dużo obserwacji, rangi przestają być „prawie ciągłe”. Zaczynają tworzyć całe bloki remisów, które są dzielone na rangi średnie.

W takim kontekście:

  • niewielkie różnice w częstościach na poszczególnych poziomach potrafią silnie wpływać na statystykę U,
  • drobnym przetasowaniem liczebności między poziomami (np. kilkanaście obserwacji przeskakuje z 3 na 4) można uzyskać istotny wynik, bez zmiany mediany,
  • „zwykła” interpretacja P(X > Y) komplikuje się, bo udział remisów X = Y robi się duży.

W efekcie U Manna‑Whitneya częściowo zaczyna pełnić rolę testu różnic w rozkładach częstości między poziomami skali, zamiast czystego testu położenia. Klasyczny przykład: porównanie ocen satysfakcji 1–5, gdzie w jednej grupie przewaga odpowiedzi 4 kosztem 3, a w drugiej odwrotnie, przy tej samej medianie 4.

Punkty kontrolne dla krótkich skal:

  • zliczenie odsetków odpowiedzi na każdym poziomie skali i porównanie ich między grupami,
  • sprawdzenie, czy mediana w ogóle jest stabilna (np. czy niewielka zmiana liczebności nie przesuwa jej o jeden poziom),
  • rozważenie użycia testu chi‑kwadrat/ Fishera dla tabeli krzyżowej poziom × grupa zamiast (lub obok) testu U.

Jeśli skala jest krótka, z wieloma remisami, a istotny wynik U wynika głównie z niewielkich przesunięć częstości między sąsiednimi poziomami, to nazywanie tego „różnicą median” jest nadużyciem. W takiej sytuacji U zachowuje się bliżej testu różnic w profilu odpowiedzi niż testu lokalizacji.

Mieszanki rozkładów i podgrupy w obrębie jednej grupy

Szczególnie problematyczne są mieszanki rozkładów – sytuacje, gdy jedna z grup nie jest jednorodna, ale składa się z kilku podgrup o różnych charakterystykach. Przykład: grupa „leczenie standardowe” zawiera zarówno pacjentów z łagodnym, jak i ciężkim przebiegiem choroby, a grupa „nowa terapia” obejmuje wyłącznie pacjentów z łagodnym przebiegiem.

Taka mieszanina potrafi generować zaskakujące wyniki:

  • mediana całej grupy mieszanej może przypadkowo wypaść podobnie jak w grupie jednorodnej,
  • jednocześnie rośnie rozrzut i pojawiają się dodatkowe ogony w jednym lub obu kierunkach,
  • test U rejestruje te zaburzenia rang, choć mediana „na wierzchu” zdaje się nie ruszać.

Na wykresach mieszanka wygląda jak połączenie dwóch różnych rozkładów, często z dodatkowymi „garbami” lub podwójną modą. U reaguje na wynikowy kształt, który jest wypadkową kilku podgrup, więc nie ma prostego przełożenia na porównanie pojedynczych median.

Co jest absolutnym minimum diagnostycznym przy podejrzeniu mieszanek:

  • analiza wyników w potencjalnych podgrupach (np. według stadium choroby, wieku, płci) w każdej grupie z osobna,
  • sprawdzenie, czy rozkład w którejś grupie nie ma wielomodalnego charakteru lub „garbów” sugerujących różne populacje,
  • ewentualne przeprowadzenie testu U osobno w względnie jednorodnych podgrupach zamiast w połączonej mieszance.

Jeżeli U jest istotne, a jedna z grup ma ewidentnie złożoną strukturę (np. dwa piki na histogramie), to interpretacja w kategoriach „inna mediana” jest błędna. Wynik testu mówi raczej: „struktura grup jest inna”, a nie: „typowa wartość się różni”.

Sytuacje z bardzo małą liczebnością i niestabilną medianą

Osobną kategorią są małe próby, w których sama mediana jest bardzo niestabilna. W takich warunkach pojedyncza obserwacja potrafi przestawić medianę o duży krok, ale też mocno zmienić wartość statystyki U. Wynik: powstają pozornie silne wnioski o „różnicy median”, choć w rzeczywistości jedynie losowe fluktuacje rzutują na rangi.

Dla małych n obserwuje się m.in.:

  • skokowe zmiany mediany przy przestawieniu 1–2 obserwacji,
  • silną wrażliwość P(X > Y) na pojedyncze ekstrema (zwłaszcza gdy jedna grupa liczy kilka osób),
  • duże przedziały ufności dla mediany, często zachodzące na siebie mimo istotnego U.

W tej sytuacji test U „widzi” głównie losowy układ rang, a nie stabilną cechę populacji. Wnioskowanie o medianie staje się obarczone dużą niepewnością, nawet jeśli formalny p‑value jest niski.

Podstawowe punkty kontrolne przy małych próbach:

  • oszacowanie przedziałów ufności dla median (np. metodą nieparametryczną lub bootstrapową),
  • sprawdzenie, jak bardzo zmienia się wynik U po usunięciu pojedynczych obserwacji skrajnych (analiza wrażliwości),
  • ostrożne sformułowanie wniosków – raczej w kategoriach „sygnału różnicy w rozkładach” niż „twardej różnicy median”.

Jeśli liczebności są małe, mediany niestabilne, a istotność testu U zależy silnie od kilku punktów, to każdy wniosek o różnicy median jest co najwyżej hipotezą roboczą. W takim otoczeniu U nie pełni roli sensownego testu median, bo sama mediana nie jest wystarczająco dobrze oszacowana.

Rozbieżne wnioski z testu U i testów bezpośrednio medianowych

Najbardziej praktyczny sygnał ostrzegawczy pojawia się wtedy, gdy test U i test stricte medianowy mówią co innego. Jeśli np. klasyczny test median (oparty na tabeli 2×2: poniżej/powyżej wspólnej mediany) nie wykazuje istotności, a U – tak, to oznacza wprost, że U reaguje na coś innego niż różnica median.

W takich sytuacjach zaleca się krótki audyt porównawczy:

  • uruchomić test median (np. test Mood’a) lub inne metody skoncentrowane na położeniu (np. testy oparte na współczynniku Hodgesa–Lehmanna),
  • porównać kierunek i siłę efektu z U,
  • sprawdzić, czy różnice nie wynikają z odmiennej wrażliwości na rozrzut i ogony.

Jeżeli U „krzyczy”, a test median milczy, to znak, że U reaguje na zmiany w kształcie i rozproszeniu, a nie na czyste przesunięcie centrum. W takiej konfiguracji przypisywanie U roli testu median jest nie do obrony – trzeba wprost powiedzieć, że test wskazuje na różnicę rozkładów, a niekoniecznie ich median.

Najczęściej zadawane pytania (FAQ)

Czy test U Manna‑Whitneya jest testem median?

Nie, w swojej definicji test U Manna‑Whitneya nie jest testem median. Jest to test rangowy sprawdzający, czy rozkłady w dwóch grupach są stochastycznie równe, czyli czy jedna grupa nie generuje systematycznie wyższych lub niższych wartości niż druga.

O medianach można mówić jedynie po spełnieniu dodatkowych założeń (np. podobny kształt rozkładów, zbliżona zmienność). Jeśli rozkłady różnią się nie tylko położeniem, ale także rozrzutem czy skośnością, wniosek „test U pokazał różnicę median” jest nadinterpretacją. Punkt kontrolny: zanim nazwiesz U „testem median”, obejrzyj kształt obu rozkładów.

Co dokładnie testuje U Manna‑Whitneya w sensie hipotezy zerowej?

Formalna hipoteza zerowa testu U brzmi: rozkłady w dwóch niezależnych grupach są stochastycznie równe. W praktyce oznacza to, że prawdopodobieństwo, iż losowo wybrana obserwacja z grupy A jest większa niż z grupy B, równa się 0,5 (przy ciągłych rozkładach i braku remisów).

Test nie zakłada ani nie sprawdza równości konkretnych parametrów, takich jak średnia czy mediana. Te parametry można wiązać z wynikiem U dopiero wtedy, gdy mamy silne przesłanki, że jedyna różnica między grupami to „przesunięcie” całego rozkładu, bez zmiany kształtu. Jeśli hipoteza badawcza dotyczy wprost median, trzeba zweryfikować, czy U jest właściwym narzędziem, czy potrzebny jest inny test.

Jaka jest różnica między testem U Manna‑Whitneya a formalnym testem median (Mood’a)?

Test U Manna‑Whitneya operuje na rangach wszystkich obserwacji i bada, czy rangi w jednej grupie są systematycznie wyższe niż w drugiej. Jest czuły na ogólną różnicę rozkładów: zarówno położenia, jak i rozrzutu czy ogonów.

Formalny test median (Mood’a) dzieli obserwacje względem jednej, wspólnej mediany i zlicza, ile wartości w każdej grupie jest powyżej i poniżej tej mediany. Następnie analizuje różnice w częstościach (tablica 2×2). Jest to prostsza konstrukcja, ale mniej czuła: ignoruje informację „jak bardzo” wartości są wyższe, liczy się tylko po której stronie mediany leżą. Punkt kontrolny: jeśli kluczowe jest ściśle „H0: mediana A = mediana B”, rozważ test median zamiast automatycznie sięgać po U.

Kiedy można sensownie interpretować U Manna‑Whitneya jako test różnicy „położenia” (np. median)?

Taka interpretacja jest dopuszczalna, gdy spełnione są przynajmniej następujące kryteria:

  • rozkłady w obu grupach mają podobny kształt (podobna skośność, brak radykalnie różnych ogonów),
  • zmienność jest zbliżona (podobne IQR, odchylenia standardowe, brak wyraźnej różnicy w liczbie wartości skrajnych),
  • brak silnej dysproporcji liczebności grup połączonej z innym kształtem rozkładu.

Jeśli te punkty kontrolne są spełnione, różnica w rangach dobrze przybliża różnicę w lokalizacji rozkładów, więc można ostrożnie mówić o różnicy „typowych wartości”. Jeśli choć jeden z nich jest naruszony, wynik U opisuje przede wszystkim różnicę w całych rozkładach, a nie wyłącznie w medianach.

Jakie są sygnały ostrzegawcze, że użycie U Manna‑Whitneya jako „testu median” jest błędem?

Do najczęstszych sygnałów ostrzegawczych należą:

  • wyraźnie różne rozrzuty między grupami (inne IQR, dużo więcej wartości skrajnych w jednej z nich),
  • odmienny kształt rozkładów (jedna grupa mocno skośna, druga prawie symetryczna; różne ogony),
  • silnie różne liczebności grup, połączone z różnym kształtem rozkładu,
  • dane porządkowe z małą liczbą kategorii i wieloma remisami (np. skale 1–5).

Jeśli którykolwiek z tych punktów jest spełniony, interpretacja „test U wykazał różnicę median” jest z dużym prawdopodobieństwem nieuprawniona. Bez obejrzenia wykresów (np. boxploty, wykresy gęstości) i oceny tych sygnałów ograniczanie się do samych median i p‑wartości jest naruszeniem minimum jakości analizy.

Jak poprawnie raportować wynik testu U Manna‑Whitneya przy danych nieparametrycznych?

W raporcie kluczowe są trzy elementy: co dokładnie testowano, jak wyglądają rozkłady i jak formułowany jest wniosek. Zamiast automatycznego „porównano mediany testem U Manna‑Whitneya”, lepszy opis brzmi np.: „Przeprowadzono test U Manna‑Whitneya w celu porównania rozkładów wartości między grupami”.

W części opisowej warto zestawić: mediany i IQR, wykresy rozkładów oraz krótki komentarz, czego dotyczy różnica (położenia, rozrzutu, ogonów). Jeśli wynik U jest istotny, a mediany podobne, uczciwy wniosek to np.: „Rozkłady różnią się; w grupie B częściej występują wartości skrajnie wysokie”, zamiast „medianę w grupie B stwierdzono istotnie wyższą”. Punkt kontrolny: treść wniosku musi odpowiadać rzeczywistej hipotezie testu, a nie domyślnemu skojarzeniu „U = mediana”.

Jak zdecydować, czy użyć U Manna‑Whitneya, testu median, czy innego testu nieparametrycznego?

Decyzję można oprzeć na krótkiej liście kontrolnej:

  • Jaka jest hipoteza badawcza: „różnica typowych wartości (median)” czy „ogólna różnica rozkładów / stochastyczna przewaga”?
  • Jak wyglądają rozkłady: podobny kształt i rozrzut, czy raczej silnie różne?
  • Jakie są dane: ciągłe z niewielką liczbą remisów, czy porządkowe z małą liczbą kategorii?

Jeśli priorytetem jest ogólna różnica rozkładów i dane są rangowe/ciągłe, test U jest naturalnym wyborem. Jeśli celem jest formalna hipoteza o medianach, a rozkłady są problematyczne, rozważ test median (lub inne podejścia, np. metody oparte na percentylach). Minimum to świadome oddzielenie pytania o mediany od pytania o stochastyczną dominację i dopasowanie testu do tego, które z nich naprawdę zadajesz.