Strona główna Interpretacja i raportowanie Testy post hoc po ANOVA: jak raportować Tukeya, Bonferroniego i Games Howella

Interpretacja i raportowanie

Testy post hoc po ANOVA: jak raportować Tukeya, Bonferroniego i Games Howella

Q: Jak wybrać między testem Tukeya, Bonferroniego a Games‑Howella?

Test Tukeya HSD jest dobrym wyborem, gdy spełnione są typowe założenia ANOVA: zbliżone wariancje między grupami (nieistotny test Levene’a) i podobne liczebności. Zapewnia kontrolę poziomu błędu I rodzaju dla całej rodziny porównań i jest mniej konserwatywny niż prosta korekcja Bonferroniego przy większej liczbie grup.nKorekcja Bonferroniego to nie osobny test, lecz reguła zmiany poziomu alfa przy wielu porównaniach (alfa podzielone przez liczbę testów). Sprawdza się przy niewielkiej liczbie starannie zaplanowanych porównań (np. kilka kontrastów planowanych). Games‑Howell jest natomiast projektowany pod sytuacje, w których wariancje i liczebności grup są wyraźnie różne – wtedy bywa bezpieczniejszy niż Tukey.

Q: Jak raportować wyniki testu Tukeya po ANOVA w pracy naukowej?

Raportując Tukeya, podajesz najpierw wynik ANOVA (F, df, p, miarę wielkości efektu), a potem najważniejsze pary porównań. Dla każdej istotnej pary warto wypisać: różnicę średnich, p‑value skorygowane w procedurze Tukeya oraz 95% przedział ufności. Przykładowy opis: „Test Tukeya HSD wykazał, że metoda blended przyniosła wyższe wyniki niż metoda tradycyjna (różnica M = 5,2 punktu, p = 0,01, 95% CI [1,3; 9,1]).”.nW tabeli lub dodatku można pokazać pełną macierz par (wszystkie różnice, SE, p, CI), a w tekście skupić się na porównaniach kluczowych dla hipotez. Dobrą praktyką jest łączenie informacji o istotności z interpretacją wielkości różnicy (czy różnica ma znaczenie dydaktyczne, kliniczne itp.).

Q: Czym różnią się testy post hoc od kontrastów planowanych?

Testy post hoc (Tukey, Games‑Howell, porównania z Bonferronim) traktują wszystkie pary grup w zasadzie równorzędnie: sprawdzają „co z czym się różni” po tym, jak ANOVA pokaże, że różnice w ogóle istnieją. Są nastawione na przegląd całego obrazu, kosztem większej ostrożności i silniejszej korekcji na wielokrotne porównania.nKontrasty planowane definiuje się z góry, przed analizą, na podstawie hipotez teoretycznych (np. każda terapia vs kontrola, bez porównań terapii między sobą). Zwykle jest ich mniej, dzięki czemu można stosować łagodniejsze korekcje (Bonferroni, Holm) lub w niektórych szkołach – wręcz bez korekcji, jeśli liczba kluczowych testów jest bardzo ograniczona i dobrze uzasadniona. W praktyce badawczej często łączy się oba podejścia: główne pytania sprawdza kontrastami, a post hoc traktuje uzupełniająco.

Q: Czy można stosować testy post hoc, jeśli ANOVA nie wyszła istotnie?

Konserwatywne podejście mówi „nie”: brak istotnego F oznacza brak podstaw do szukania różnic między parami, aby nie zwiększać niepotrzebnie liczby testów. To podejście jest bezpieczne i często akceptowane przez recenzentów, szczególnie przy dużej liczbie grup.nIstnieje jednak argument, że w pewnych konfiguracjach średnich (i przy niskiej mocy) można mieć nieistotne F, a mimo to istotne niektóre porównania dwugrupowe. Jeśli decydujesz się wtedy na post hoc, trzeba jasno opisać motywację (konkretne, wcześniej zdefiniowane pytania) i zachować korekcję na wielokrotne porównania. Bez takiego uzasadnienia recenzenci często uznają takie analizy za „łowienie istotnych wyników”.

Q: Jak interpretować p‑value i przedziały ufności w testach post hoc?

Dla każdej pary grup program podaje zwykle: różnicę średnich, błąd standardowy, skorygowane p‑value oraz przedział ufności. Jeśli skorygowane p jest mniejsze od przyjętego poziomu alfa (np. 0,05), a przedział ufności nie obejmuje zera, uznajesz różnicę za istotną statystycznie w danej procedurze post hoc.nPorównując przedziały między parami, widać nie tylko „czy”, ale też „jak bardzo” grupy się różnią. W badaniu klinicznym może się okazać, że kilka porównań jest statystycznie istotnych, ale tylko te z najszerszą różnicą średnich i wąskim przedziałem mają realne znaczenie praktyczne – to właśnie one są warte podkreślenia w sekcji wyników.

Q: Jak raportować korekcję Bonferroniego przy wielu porównaniach?

Przy korekcji Bonferroniego możesz pójść dwiema drogami: albo dzielisz poziom alfa przez liczbę testów (np. 0,05/10 = 0,005) i odnosisz do niego surowe p, albo raportujesz p‑value już skorygowane. W obu przypadkach trzeba jasno zaznaczyć, że zastosowano korekcję Bonferroniego oraz ile porównań wchodziło do rodziny testów.nPrzykładowy opis: „Dla pięciu zaplanowanych porównań zastosowano korekcję Bonferroniego (alfa skorygowane = 0,01). Istotną różnicę uzyskano jedynie między grupą A a kontrolą (t = …, p = 0,004 < 0,01).”. W tabelach możesz pokazać zarówno p surowe, jak i skorygowane, co ułatwia czytelnikowi ocenę konserwatywności zastosowanej korekcji.

Przez

Robert Błaszczyk

15 maja, 2026

Abstrakcyjne wykresy i wykresy słupkowe symbolizujące analizę danych — Źródło: Pexels | Autor: Negative Space

Rate this post

Nawigacja po artykule:

Po co w ogóle testy post hoc po ANOVA?

ANOVA odpowiada na pytanie „czy”, testy post hoc – na pytanie „co dokładnie”

Jednoczynnikowa ANOVA informuje, czy istnieją jakiekolwiek różnice między średnimi w więcej niż dwóch grupach. Statystyka F i odpowiadające jej p-value mówią tylko, że przynajmniej dwie średnie nie są sobie równe. Nie wskazują, które to grupy, ani jak duża jest między nimi różnica.

Testy post hoc po ANOVA wypełniają tę lukę. Dla każdej pary grup obliczana jest średnia różnica, jej błąd standardowy, p-value skorygowane na wielokrotne porównania oraz przedział ufności.
Dzięki temu można odpowiedzieć na pytania praktyczne:

która metoda nauczania daje wyższy wynik niż konkretna alternatywa,
czy lek A różni się od B, a może tylko od C,
czy średni wynik w grupie kontrolnej odbiega istotnie od wszystkich interwencyjnych, czy tylko od części.

Bez analizy post hoc informacja „efekt globalny jest istotny” jest statystycznie poprawna, ale mało użyteczna interpretacyjnie. Dopiero porównania par w testach Tukeya, z korekcją Bonferroniego czy przy użyciu Games-Howella pozwalają odpowiedzieć na to, jakie relacje między grupami stoją za istotnym F.

Testy post hoc a kontrasty planowane

Nie zawsze interesują wszystkie możliwe pary porównań. Czasem badacz ma zdefiniowane z góry, które porównania są kluczowe (np. każda z trzech terapii vs jedna grupa kontrolna, ale nie porównania terapii między sobą).
W takiej sytuacji stosuje się często kontrasty planowane zamiast pełnego zestawu testów post hoc.

Kontrasty planowane:

są zdefiniowane przed analizą danych, w oparciu o hipotezy teoretyczne,
obejmują zwykle mniej porównań, dzięki czemu korekcja alfa może być łagodniejsza,
często wykorzystują t‑testy z korekcją Bonferroniego lub inne, bardziej wydajne schematy (np. Holm).

Testy post hoc po ANOVA (jak Tukey czy Games-Howell) traktują wszystkie pary grup w sposób zbliżony, bez wyróżniania hipotez priorytetowych. Dają całościowy obraz różnic, ale kosztem większej ostrożności (konserwatyzmu).
Jeśli badanie ma jasno określone główne kontrasty, post hoc może być uzupełnieniem, a nie głównym narzędziem.

Co się dzieje, gdy testy post hoc są pominięte

Pomijanie testów post hoc po istotnej ANOVA prowadzi do kilku problemów:

przeinterpretowanie efektu globalnego – sugerowanie, że „wszystkie grupy się różnią”, gdy w rzeczywistości różnice występują tylko między kilkoma parami,
brak informacji praktycznej – czy interwencja X jest lepsza od konkretnej alternatywy, czy tylko różni się od kontroli, pozostaje bez odpowiedzi,
ryzyko wybiórczego porównywania – badacz „na czuja” patrzy na średnie i wyciąga wnioski bez statystycznego potwierdzenia, co bywa po prostu zgadywaniem.

W raportach publikacyjnych standardem jest, aby po istotnym efekcie globalnym ANOVA przedstawić przynajmniej kluczowe porównania par, zwykle przy użyciu testów post hoc dopasowanych do spełnionych (lub niespełnionych) założeń. Bez tego wniosek o różnicach między grupami jest statystycznie niepełny.

Warunki wstępne: kiedy w ogóle można przechodzić do post hoc

Testy post hoc a istotność F – dwie szkoły myślenia

Klasyczna szkoła mówi: testów post hoc używamy tylko wtedy, gdy efekt globalny ANOVA jest istotny (p < alfa). Takie podejście ogranicza liczbę wykonywanych porównań i utrzymuje spójność z logiką „omnibus test → testy szczegółowe”.

Jednak w literaturze pojawiło się również podejście, w którym omnibus ANOVA nie jest warunkiem koniecznym dla porównań wielokrotnych. Argumentuje się, że przy specyficznych układach średnich można mieć nieistotne F, ale istotne niektóre porównania par (szczególnie przy małej mocy testu globalnego). W takim scenariuszu dopuszcza się wykonywanie post hoc nawet przy p > 0,05 dla F, pod warunkiem, że porównania par są jasno umotywowane.

W praktyce publikacyjnej częściej spotyka się podejście konserwatywne – post hoc po istotnej ANOVA. Jeśli jednak badanie ma niewielką moc lub nierównomierny układ grup, dobrze jest tę kwestię uzasadnić w sekcji Metody, szczególnie gdy autor decyduje się raportować testy post hoc mimo braku istotności globalnej.

Założenia ANOVA i ich wpływ na wybór testu post hoc

Decyzja, czy użyć testu Tukeya, korekcji Bonferroniego czy Games-Howella, zależy od tego, na ile spełnione są założenia:

normalność rozkładu w grupach – w praktyce ANOVA i testy post hoc są stosunkowo odporne na umiarkowane odstępstwa, zwłaszcza przy większych próbach,
homogeniczność wariancji – jednorodność wariancji w grupach; zwykle testowana testem Levene’a,
zbliżone liczebności w grupach – duże dysproporcje w liczebnościach przy nierównych wariancjach szczególnie komplikują sytuację.

Jeżeli:

wariancje są zbliżone (test Levene’a nieistotny),
liczebności grup nie różnią się drastycznie,

bezpiecznym i standardowym wyborem jest test Tukeya HSD. Gdy wariancje i liczebności są różne, lepszym rozwiązaniem bywa Games-Howell, który został właśnie na takie sytuacje zaprojektowany.

Krótki kontekst badawczy: metody nauczania i leki

Dwa proste scenariusze dobrze pokazują, kiedy testy post hoc po ANOVA są sensowne:

Przykład 1: trzy metody nauczania – badacz porównuje średnie wyniki testu w trzech grupach uczniów, uczonych metodą tradycyjną, blended learning i w pełni online. ANOVA pokazuje istotny efekt typu metody. Testy post hoc odpowiadają na pytania:

czy metoda blended różni się od tradycyjnej,
czy online jest gorsza lub lepsza od pozostałych,
czy różnice są istotne statystycznie po korekcji na wielokrotne porównania.

Przykład 2: cztery leki na ból – porównywane są średnie natężenia bólu po podaniu czterech różnych leków. ANOVA wykazuje istotne zróżnicowanie skuteczności. Dzięki testom post hoc da się powiedzieć, czy np. lek A jest istotnie lepszy od B i C, ale nie różni się od D, oraz jak duże są te różnice w skali rezultatu klinicznego.

Bez testów post hoc oba badania kończą się informacją: „efekt typu metody/typu leku jest istotny”. Z punktu widzenia praktyki edukacyjnej czy medycznej jest to informacja zbyt ogólna, by wspierać decyzje.

Smartfon z kolorowymi wykresami na papierowych raportach danych — Źródło: Pexels | Autor: RDNE Stock project

Przegląd głównych testów post hoc: Tukey, Bonferroni, Games-Howell

Tukey HSD – klasyczny wybór przy równych wariancjach

Test Tukeya HSD (Honest Significant Difference) jest jednym z najczęściej stosowanych testów post hoc po ANOVA. Został zaprojektowany do sytuacji, gdy:

wariancje w grupach są zbliżone (założenie homogeniczności),
liczebności w grupach są równe lub zbliżone,
chcemy porównać wszystkie pary średnich w ramach jednego eksperymentu.

Tukey kontroluje family-wise error rate (FWER) dla całej rodziny porównań par. Jest mniej konserwatywny niż prosta korekcja Bonferroniego przy dużej liczbie grup, a jednocześnie dobrze kontroluje ryzyko błędu I rodzaju dla wszystkich porównań.

W outputach programów statystycznych (SPSS, R, JASP, jamovi) test Tukeya najczęściej podaje:

różnicę średnich między parami grup,
błąd standardowy różnicy,
p-value skorygowane dla procedury Tukeya,
95% przedział ufności dla różnicy.

Interpretacja jest bezpośrednia: jeśli p < 0,05 (lub inne przyjęte alfa), a przedział ufności dla różnicy średnich nie obejmuje zera, to różnica między daną parą grup jest istotna statystycznie w procedurze Tukeya.

Korekcja Bonferroniego – nie tyle test, co zasada

Korekcja Bonferroniego często bywa mylona z konkretnym testem post hoc. W rzeczywistości to ogólna reguła modyfikacji poziomu istotności przy wielu porównaniach:

nowy poziom alfa = alfa / liczba porównań,
ewentualnie: porównywanie skorygowanego p z niezmienionym alfa.

Bonferroni może być zastosowany do prawie każdego testu (np. t‑testów), a także do kontrastów planowanych. Jest prosty, ale często konserwatywny, zwłaszcza przy dużej liczbie porównań, przez co zmniejsza moc statystyczną.

W kontekście post hoc po ANOVA korekcja Bonferroniego jest szczególnie przydatna:

gdy liczba porównań jest ograniczona (np. 3–4 kluczowe pary),
gdy porównania są częściowo planowane, ale liczba ich jest zbyt duża, aby całkowicie zignorować korekcję na wielokrotne testowanie,
gdy stosuje się własne t‑testy między grupami zamiast zintegrowanego testu typu Tukey.

W raportach często spotyka się dwie strategie: albo podaje się p‑value już skorygowane Bonferronim, albo raportuje się poziom alfa po korekcji (np. „alfa skorygowane Bonferronim = 0,017”) i odnosi się do nieskorygowanego p. Obie praktyki są poprawne, jeśli są jasno opisane.

Games-Howell – gdy wariancje są nierówne i grupy różnej wielkości

Test Games-Howell jest mniej znany niż Tukey, ale bardzo użyteczny w praktyce. Projektowano go z myślą o sytuacjach, w których:

założenie homogeniczności wariancji jest naruszone (test Levene’a istotny),
liczebności w grupach są wyraźnie różne,
nadal interesują wszystkie pary porównań.

Games-Howell:

nie zakłada równości wariancji,
wykorzystuje odrębne estymacje wariancji w grupach i zbliżoną do Welchowskiej korektę stopni swobody,
stosuje własną, wbudowaną korekcję na wielokrotne porównania.

W praktyce oznacza to, że w warunkach nierówności wariancji i liczebności test Games-Howell jest bardziej wiarygodny niż Tukey, który zakłada homogeniczność. W raportach warto wtedy wyraźnie napisać, że zastosowano procedurę odporną na heterogeniczność wariancji (Games-Howell) zamiast klasycznego Tukeya.

Logika korekcji na wielokrotne porównania – dlaczego Tukey ≠ Bonferroni

Inflacja błędu I rodzaju przy wielu porównaniach

Jeśli dla jednej pary grup używa się alfa = 0,05, prawdopodobieństwo błędu I rodzaju wynosi 5%. Jednak przy wielu niezależnych porównaniach, prawdopodobieństwo, że przynajmniej jedno z nich wyjdzie „fałszywie istotne”, rośnie wraz z liczbą testów.

To zjawisko nazywa się inflacją błędu I rodzaju. Przy kilkunastu porównaniach ryzyko „fałszywego trafienia” może być znacznie większe niż 5%, jeśli do każdego porównania stosuje się ten sam, niekorygowany próg p < 0,05.

Z tego powodu opracowano różne procedury korekcji na wielokrotne porównania, w tym:

prosty Bonferroni,
testy specyficzne dla ANOVA, takie jak Tukey HSD,
metody odporne na nierówne wariancje i liczebności, np. Games-Howell.

Family-wise error rate vs per-comparison error rate

Dwa ważne pojęcia pomagają zrozumieć, jak działają testy post hoc:

Per-comparison error rate (PCER) – prawdopodobieństwo błędu I rodzaju dla pojedynczego porównania (np. 0,05 dla jednego t‑testu),
Family-wise error rate (FWER) – prawdopodobieństwo, że w całej rodzinie porównań popełnimy przynajmniej jeden błąd I rodzaju.

Kontrola FWER: jak różnią się podejścia Tukeya i Bonferroniego

Tukey i Bonferroni mają ten sam cel – utrzymać family-wise error rate pod kontrolą – ale robią to innymi drogami i z inną skutecznością.

Korekcja Bonferroniego:

traktuje każdy test oddzielnie,
przyjmuje najgorszy możliwy scenariusz zależności między testami,
dzieli alfa przez liczbę porównań niezależnie od struktury danych.

Test Tukeya:

zakłada wspólne źródło wariancji szacowane z ANOVA,
wykorzystuje rozkład statystyki q (studentized range), który wprost opisuje „rozpiętość” między średnimi w całej rodzinie porównań,
uwzględnia zależności między porównaniami wynikające z tego samego MSE.

Efekt w praktyce: przy tej samej liczbie grup test Tukeya zazwyczaj daje niższe p‑value niż t‑testy z korekcją Bonferroniego, a więc ma większą moc, przy zachowaniu FWER na zadanym poziomie. Bonferroni jest z kolei bardziej „asekuracyjny” – ogranicza ryzyko fałszywych alarmów kosztem większej liczby fałszywych negatywów.

FWER a alternatywne podejścia (Holm, FDR – krótki kontekst)

W literaturze często pojawiają się alternatywy dla prostego Bonferroniego, np. procedura Holma czy korekcja FDR (Benjamini-Hochberg). W klasycznej analizie po ANOVA dominują jednak trzy podejścia:

specyficzne testy post hoc (Tukey, Games-Howell),
Bonferroni (czasem Holm-Bonferroni) do ograniczonego zestawu t‑testów,
raportowanie wybranych kontrastów bez pełnej korekcji, gdy hipotezy są ściśle planowane.

Holm-Bonferroni jest mniej konserwatywny niż klasyczny Bonferroni, ale nadal kontroluje FWER. W raportach psychologicznych i medycznych można go użyć zamiast „gołego” Bonferroniego dla kilku kluczowych porównań; jeśli jednak celem jest kompletna analiza wszystkich par po ANOVA, wygodniej pozostać przy Tukeyu lub Games-Howellu i o tym wyraźnie napisać.

Dłonie analizujące wykresy i notatki statystyczne na biurku — Źródło: Pexels | Autor: Lukas Blazek

Jak czytać wyniki testów post hoc w popularnych programach

SPSS: tabela „Multiple Comparisons” krok po kroku

W SPSS-ie klasyczna ścieżka to Analyze → Compare Means → One-Way ANOVA, a następnie przycisk Post Hoc…. Po zaznaczeniu np. Tukeya i/lub Games-Howella otrzymuje się tabelę „Multiple Comparisons”. Zwykle zawiera ona kolumny:

(I) grupa i (J) grupa – pary porównywanych kategorii,
Mean Difference (I–J) – różnica średnich,
Std. Error – błąd standardowy różnicy,
Sig. – p‑value już skorygowane wg wybranej procedury,
Lower Bound i Upper Bound – granice przedziału ufności.

Przy Tukeyu SPSS zaznacza często istotne różnice gwiazdką przy średniej różnicy. Interpretacja jest prosta:

jeśli Sig. < 0,05 – różnica między parami grup jest istotna w teście Tukeya,
jeśli przedział ufności nie zawiera zera – daje to tę samą konkluzję.

Przy Games-Howellu tabela wygląda bardzo podobnie, ale pod spodem korzysta z innego wzoru na błąd standardowy i inne stopnie swobody. W raporcie nie trzeba wchodzić w szczegóły matematyczne; wystarczy rozsądnie opisać wybór (np. „z powodu istotnego testu Levene’a zastosowano test Games-Howell”).

R: funkcje do Tukeya, Bonferroniego i Games-Howella

W R najczęściej spotyka się trzy sposoby generowania post hoc po jednoczynnikowej ANOVA:

TukeyHSD() na obiekcie aov() – klasyczny Tukey,
pairwise.t.test() – t‑testy między grupami z wybraną korekcją (m.in. Bonferroni, Holm),
pakiet userfriendlyscience lub rstatix dla Games-Howella i ładniejszych tabel.

Przykładowo:

model <- aov(wynik ~ grupa, data = dane)
TukeyHSD(model)

Zwraca listę tabel z kolumnami:

diff – różnica średnich,
lwr, upr – granice przedziału ufności,
p adj – p‑value skorygowane wg Tukeya.

Dla Bonferroniego:

pairwise.t.test(dane$wynik, dane$grupa,
                p.adjust.method = "bonferroni")

otrzymuje się macierz p‑value, już skorygowanych. Przy Games-Howellu wygodny jest np. pakiet userfriendlyscience:

library(userfriendlyscience)
oneway(as.factor(grupa), wynik, posthoc = "games-howell")

Wynik to tabela z różnicami średnich, błędem standardowym, p‑value i przedziałami ufności, bardzo podobna do outputu z SPSS-a.

JASP i jamovi: tabele „Post Hoc Tests”

JASP i jamovi są zbliżone – działają „menu‑driven”, a wyniki są prezentowane w przejrzystych tabelach. Po uruchomieniu ANOVA wystarczy zaznaczyć interesujące testy post hoc po prawej stronie panelu (Tukey, Bonferroni, Games-Howell). Pojawia się tabela:

z parami grup (np. A–B, A–C, B–C),
różnicą średnich i błędem standardowym,
skorygowanym p‑value (często kolumna p-tukey, p-bonf itp.),
przedziałami ufności.

Istotne wyniki są zwykle wyróżnione pogrubieniem. Z punktu widzenia raportowania różnice względem SPSS-a są kosmetyczne – opiera się na tych samych liczbach. Dodatkowo JASP/jamovi ułatwia szybkie przepisanie tabeli bez konieczności jej ręcznego „czyszczenia”.

Interpretacja testu Tukeya krok po kroku

Od wyniku ANOVA do konkretnych par porównań

Typowy ciąg analizy wygląda tak:

ANOVA wykazuje istotny efekt czynnika (np. typu metody nauczania, rodzaju leku).
Założenie homogeniczności wariancji jest spełnione (test Levene’a nieistotny).
Wykonywany jest test Tukeya dla wszystkich par grup.

Interpretując tabelę Tukeya, dobrze jest najpierw spojrzeć ogólnie na wzór wyników:

które pary są istotne (p < alfa),
jak duże są różnice średnich i czy są one konsekwentne w jednym kierunku.

Przykład z metodami nauczania:

blended – tradycyjna: różnica średnich dodatnia i istotna,
online – tradycyjna: różnica nieistotna,
online – blended: różnica istotna, na niekorzyść online.

W takiej sytuacji sensowny wniosek brzmi: „Metoda blended daje wyższe wyniki niż tradycyjna i online, natomiast metoda online nie różni się istotnie od tradycyjnej po korekcji Tukeya.”

Znaczenie przedziałów ufności w raporcie

Sam współczynnik p mówi, czy różnica jest istotna, ale nie mówi, jak duża ona jest i jak precyzyjnie jest oszacowana. Przedziały ufności (np. 95%) podawane przez Tukeya można interpretować dwojako:

jeśli CI nie zawiera zera – różnica jest istotna przy poziomie 0,05,
szerokość CI pokazuje niepewność oszacowania: wąski przedział oznacza stabilny szacunek, szeroki – większą niepewność.

W raporcie naukowym dobrym nawykiem jest podawanie różnicy średnich wraz z CI, np.: „blended vs tradycyjna: Mdiff = 5,2 punktu, 95% CI [2,1; 8,3]”. Pozwala to czytelnikowi ocenić, czy różnica jest nie tylko statystycznie istotna, lecz także potencjalnie istotna praktycznie.

Efekt wielkości (Cohen d, Hedges g) a wnioski z Tukeya

Test Tukeya mówi, czy różnica jest wiarygodna statystycznie, ale nie ile „znaczy” w skali efektu. Dlatego często obok wyniku Tukeya oblicza się wielkość efektu dla każdej pary grup, np. Cohen d lub Hedges g.

Prosta procedura:

odczytać średnie i odchylenia standardowe w grupach z tabeli opisowej,
policzyć d lub g dla par, które wyszły istotne w Tukeyu,
podawać w raporcie wraz z 95% CI dla wielkości efektu, jeśli to możliwe.

Dla badań psychologicznych, edukacyjnych czy klinicznych połączenie: p‑value z Tukeya + różnica średnich + d/g daje pełniejszy obraz niż sam status istotności. Widać wtedy zarówno, czy efekt jest wiarygodny, jak i czy jest mały, średni czy duży w praktycznej skali.

Dokumenty z analizą danych, lupa i okulary na biurku — Źródło: Pexels | Autor: Hanna Pad

Korekcja Bonferroniego – od t‑testów do zgrabnego raportu

Przeliczanie alfa vs przeliczanie p‑value

Korekcję Bonferroniego można zastosować na dwa ekwiwalentne sposoby:

korekta alfa – wyznacza się alfa_korr = alfa / m, gdzie m to liczba porównań; następnie każdy nieskorygowany p porównuje się z alfa_korr,
korekta p‑value – mnoży się każde p przez m (a jeśli wynik > 1, obcina się go do 1) i porównuje z klasycznym alfa = 0,05.

Matematycznie obie opcje są równoważne. Dla czytelności raportu lepiej jest konsekwentnie trzymać się jednego podejścia i jasno je nazwać. Przykładowo:

„Przeprowadzono trzy t‑testy; poziom istotności skorygowany metodą Bonferroniego wyniósł 0,017 (0,05/3).”
lub: „Poniżej podano p‑value skorygowane metodą Bonferroniego (p_bonf).”

Przykład: trzy planowane porównania między lekami

Załóżmy, że badacz z góry planuje trzy kontrasty:

lek A vs lek B,
lek A vs lek C,
średnia (B i C) vs lek D.

Może wykonać trzy t‑testy (lub odpowiednie kontrasty w ANOVA) i uzyskać np. p₁, p₂, p₃. Dalsze kroki:

ustalić m = 3 (tyle porównań faktycznie wykonano),
obliczyć alfa_korr = 0,05 / 3 ≈ 0,017,
sprawdzić, które p są < 0,017; tylko te uznaje się za istotne po Bonferronim.

W raporcie można to zapisać np. tak: „Ze względu na trzy planowane porównania zastosowano korekcję Bonferroniego (alfa = 0,017). Różnica między lekiem A i B pozostała istotna (p = 0,006 < 0,017), podczas gdy różnice A–C (p = 0,04) i (B,C)–D (p = 0,03) nie osiągnęły skorygowanego poziomu istotności.”

Raportowanie skorygowanych p‑value: styl APA i praktyka

W stylu APA dopuszczalne są oba podejścia – można raportować:

„surowe” p‑value oraz wspomnieć o skorygowanym alfa,
lub od razu p‑value po korekcji, oznaczając je np. jako p_bonf lub opisowo w tekście.

Przykładowy zapis:

„Przeprowadzono trzy porównania z korekcją Bonferroniego. Różnica między metodą A i B pozostała istotna po korekcji (t(58) = 2,9, p_bonf = 0,012), podczas gdy efekt między A i C nie osiągnął skorygowanego poziomu istotności (t(58) = 2,1, p_bonf = 0,063).”

Kluczowe jest, by czytelnik wiedział:

ile porównań wchodziło do rodziny,
jaką metodą wykonano korekcję,

Bonferroni przy wielu grupach: pułapka zbyt małej mocy

Bonferroni jest bardzo prosty koncepcyjnie, ale przy większej liczbie grup bywa bezlitosny dla mocy testu. Kontrastuje to mocno z Tukeyem i Games-Howellem, które lepiej wykorzystują informację z całej ANOVA.

Przykład: cztery grupy (A, B, C, D). Wszystkich par jest 6. Jeśli ktoś robi 6 t‑testów z korekcją Bonferroniego, dostaje alfa_korr ≈ 0,0083. W praktyce:

niewielkie, ale konsekwentne różnice między sąsiednimi poziomami (np. dawkami leku) mogą „nie przejść” korekcji,
test staje się bardzo konserwatywny – chroni przed fałszywie dodatnimi wynikami, ale szybko „gubi” efekty średniej wielkości.

W tej samej sytuacji Tukey dla tej samej rodziny porównań będzie często łagodniejszy, bo opiera się na wspólnej wariancji z modelu ANOVA, a nie na prostym mnożeniu p przez m. Dla projektów eksploracyjnych z wieloma poziomami czynnika Tukey bywa lepszym kompromisem niż „goły” Bonferroni.

Bonferroniego warto więc zostawić głównie dla:

niewielkiej liczby planowanych porównań (2–5),
prostych schematów t‑testów (np. dwie skale wyników porównywane w trzech grupach),
projektów, w których priorytetem jest minimalizacja fałszywych alarmów kosztem mocy.

Alternatywy do Bonferroniego: Holm, Hochberg i FDR

W wielu dziedzinach Bonferroni przegrywa dziś z metodami „stepwise”, takimi jak Holm czy Hochberg, które lepiej gospodarują mocą przy zachowaniu kontroli błędu rodziny (FWER).

Holm – porządkuje p‑value od najmniejszego do największego i stosuje sekwencyjnie coraz mniej restrykcyjne progi; nigdy nie jest bardziej konserwatywny niż Bonferroni, a często wyraźnie bardziej czuły.
Hochberg – podobny duch, ale procedura „od końca” (od największych p), wymaga jednak spełnienia silniejszych założeń o niezależności testów.
FDR (np. Benjamini–Hochberg) – zamiast ograniczać prawdopodobieństwo choć jednego fałszywie dodatniego wyniku, kontroluje odsetek fałszywych odkryć wśród istotnych (częstszy wybór przy dziesiątkach lub setkach testów).

Dla klasycznych ANOVA z kilkoma grupami i niewielką liczbą porównań różnice między Bonferronim a Holmem mogą być subtelne. Przy kilkunastu porównaniach Holm zaczyna wygrywać – szczególnie gdy badacz ma kilka hipotez mocno popartych teorią i nie chce ich „utopić” w zbyt twardej korekcji.

W raportach z ANOVA użycie Holma zamiast Bonferroniego można zaznaczyć jednym zdaniem, np.: „p‑value skorygowano metodą Holma (kontrola błędu rodziny).” Interpretacja pozostaje taka sama: porównuje się p_holm z klasycznym alfa = 0,05.

Games-Howell w praktyce raportowania

Kiedy Games-Howell jest lepszy niż Tukey i Bonferroni

Games-Howell jest projektowany na sytuacje, w których dwa kluczowe założenia ANOVA są naruszone lub co najmniej wątpliwe:

grupy mają różne wariancje (test Levene’a istotny lub boxploty sugerują silne rozproszenie w jednej z grup),
grupy mają różne liczebności – np. jedna grupa jest bardzo mała, a pozostałe duże.

Na tym tle:

Tukey zakłada homogeniczność wariancji i jest najbardziej wiarygodny przy zbliżonych liczebnościach,
Bonferroni bazujący na t‑testach par niezależnych często korzysta z wariantu z korekcją na niejednorodne wariancje (Welch), ale wymaga dodatkowych decyzji przy każdym porównaniu,
Games-Howell „wbudowuje” w siebie zarówno korekcję na różne wariancje, jak i korekcję na wielokrotne porównania.

Jeśli więc:

Levene w ANOVA jest istotny,
test Welcha dla głównego efektu czynnika wychodzi istotny,

naturalnym następnym krokiem jest Games-Howell zamiast Tukeya. Taki dobór testów jest spójny: główny efekt testuje się wersją odporną (Welch), a post hoc – testem zaprojektowanym na brak homogeniczności.

Jak czytać tabelę Games-Howella

Tabele z Games-Howellem są na pierwszy rzut oka podobne do Tukeya, ale kryją kilka różnic technicznych.

Mean difference (M_diff) – różnica średnich między dwiema grupami, zwykle z kierunkiem (dodatnia: pierwsza grupa ma wyższy wynik).
SE – błąd standardowy różnicy, obliczany z użyciem odrębnych wariancji grup (a nie wspólnej wariancji z ANOVA).
df – liczba stopni swobody nie jest stała dla całej tabeli (jak w Tukeyu), tylko osobna dla każdej pary, szacowana wzorem Satterthwaite’a.
p / p_GH – p‑value już skorygowane na wielokrotne porównania w logice Games-Howell.
CI – przedziały ufności zbudowane z odpowiednim t‑rozkładem z df dla danej pary.

Interpretacja jest podobna jak w Tukeyu:

jeśli p_GH < 0,05 (lub przyjęte alfa) – różnica jest istotna,
jeśli CI nie obejmuje zera – wniosek o istotności jest identyczny przy 95% CI.

Różnica polega na tym, że w Games-Howellu nie ma jednej wspólnej „puli wariancji” dla wszystkich porównań; każda para jest oceniana z własną wariancją i df. Dlatego w raportach sensowne jest podawanie stopni swobody dla t lub q z tabeli, jeśli program je wyświetla (częściej w R i jamovi niż w SPSS-ie).

Raportowanie Games-Howella: przykładowe zapisy

W tekstach naukowych Games-Howell jest zwykle sygnalizowany już przy opisie ANOVA. Przykładowy schemat:

„Ze względu na istotne naruszenie założenia homogeniczności wariancji (test Levene’a, p < .05) zastosowano jednostronną ANOVA Welcha oraz test Games-Howella do porównań post hoc. Analiza wykazała, że grupa wysokiego wsparcia społecznego uzyskała wyższe wyniki niż grupa niskiego wsparcia (Mdiff = 4,3, 95% CI [1,8; 6,8], p_GH = .002), podczas gdy różnica między grupą średniego i wysokiego wsparcia nie była istotna (Mdiff = 1,1, 95% CI [‑0,7; 2,9], p_GH = .24).”

Warto jasno nazwać metodę (Games-Howell lub Games–Howell) i oznaczyć p‑value jako p_GH albo opisać w nawiasie, że są to p‑value po tym teście. Dla czytelnika ważna jest informacja, że zastosowano procedurę przyjazną dla nierównych wariancji i nierównych liczebności.

Games-Howell vs Tukey: porównanie praktyczne

Zestawiając Tukeya i Games-Howella w kilku typowych scenariuszach:

Równe wariancje, równe liczebności – oba testy dają bardzo podobne wyniki; różnice p dotyczącą głównie zaokrągleń.
Nierówne wariancje, równe liczebności – Games-Howell nadal jest poprawny, Tukey zaczyna być zbyt liberalny (rośnie ryzyko błędu I rodzaju w „rozsianych” grupach).
Nierówne wariancje, nierówne liczebności – Games-Howell wyraźnie wygrywa pod względem kontroli błędu; Tukey może zbyt łatwo wskazywać istotność tam, gdzie różnice napędza przede wszystkim odmienna wariancja.

Jeśli więc projekt badawczy zbliża się bardziej do trzeciego scenariusza (np. kliniczne dane z jedną małą grupą pacjentów i dużą grupą kontrolną), Games-Howell będzie bezpieczniejszym wyborem niż klasyczny Tukey.

Łączenie wyników ANOVA i post hoc w spójnym opisie

Logika „od ogółu do szczegółu”

ANOVA i testy post hoc dobrze działają jako duet tylko wtedy, gdy opis wyników jest uporządkowany. Najprostszy i najbardziej czytelny schemat to:

Najpierw podać wynik głównego testu (klasyczna ANOVA lub Welch): F, df, p, eta² lub partial eta².
Następnie krótko odnieść się do założeń (np. homogeniczność wariancji) i wskazać, który test post hoc jest użyty.
Na końcu przejść do konkretnych porównań par grup – uporządkowanych logicznie, niekoniecznie w kolejności alfabetycznej.

Przykładowy akapit łączący wszystkie te elementy:

„Jednoczynnikowa ANOVA wykazała istotny wpływ typu metody nauczania na wynik testu (F(2, 87) = 6,21, p = .003, η² = .13). Założenie homogeniczności wariancji nie zostało naruszone (test Levene’a, p = .28), dlatego przeprowadzono test Tukeya do porównań post hoc. Wyniki pokazały, że metoda blended prowadzi do wyższych wyników niż metoda tradycyjna (Mdiff = 5,2, 95% CI [2,1; 8,3], p_tukey = .001) oraz online (Mdiff = 4,6, 95% CI [1,5; 7,7], p_tukey = .003), natomiast metoda tradycyjna i online nie różnią się istotnie (Mdiff = 0,6, 95% CI [‑2,7; 3,8], p_tukey = .89).”

Cały sens testów post hoc polega na tym, by „przetłumaczyć” suchy komunikat ANOVA („coś się różni”) na konkretne stwierdzenia typu: „która metoda / dawka / grupa jest wyższa lub niższa i o ile”. Zbyt rozbudowane wyliczanie wszystkich par bez hierarchii (co jest kluczowe, co poboczne) szybko męczy czytelnika.

Wybór porównań do omówienia: istotne vs nieistotne

Rozbudowane tabele post hoc często zawierają dziesięć lub więcej par porównań. Opis w tekście nie musi omawiać każdej pary w równym stopniu.

Porównania istotne – zazwyczaj omawiane jako główne wyniki, z podaniem M_diff, CI i wielkości efektu.
Porównania nieistotne – można zgrupować, np. „pozostałe pary nie różniły się istotnie po korekcji Tukeya (wszystkie p > .10)”.
Porównania kluczowe teoretycznie – nawet jeśli nie wyszły istotne, często zasługują na krótkie wytłumaczenie (np. brak spodziewanego efektu, trend przy małej próbie).

Bonferroni w tej logice dobrze służy wtedy, gdy badacz ma kilka z góry zdefiniowanych hipotez i chce je wyróżnić na tle serii eksploracyjnych porównań. Tukey i Games-Howell są bardziej „symetryczne”: traktują wszystkie pary jako równorzędne, co pasuje do badań bardziej eksploracyjnych lub opisowych.

Łączenie efektów post hoc z wykresami

Gołe liczby z tabeli post hoc są znacznie łatwiejsze do interpretacji, jeśli towarzyszy im klarowny wykres średnich. Trzy najczęściej używane rozwiązania to:

wykres słupkowy z błędami standardowymi lub CI (popularny, ale łatwo przeszarżować kolorami i zdublować informacje z tabeli),
wykres punktowy z CI (bardziej minimalistyczny, lepiej pokazuje różnice między poziomami),
boxploty (pozwalają zobaczyć rozkład, medianę, wartości odstające – dobre uzupełnienie przy heterogenicznych wariancjach).

W połączeniu z wynikami post hoc można np.:

oznaczyć na wykresie grupy literami (a, b, c), gdzie grupy z tą samą literą nie różnią się istotnie wg Tukeya/Games-Howella,
dodać poziome kreski z gwiazdkami (*, **, ***) między grupami, ale tylko dla kilku kluczowych porównań, a resztę pozostawić w tekście.

Takie wizualne streszczenie pozwala odbiorcy szybciej zorientować się, które grupy tworzą „klastry podobieństwa”, a które jednoznacznie odstają, zamiast śledzić całą siatkę par z tabeli.

Najczęściej zadawane pytania (FAQ)

Kiedy po ANOVA trzeba wykonywać testy post hoc?

Testy post hoc wykonuje się wtedy, gdy interesuje Cię nie tylko to, czy „jakieś” różnice między grupami istnieją (na to odpowiada ANOVA), lecz przede wszystkim: które konkretne grupy się różnią i o ile. Klasyczne podejście statystyczne zakłada, że do porównań post hoc przechodzi się po istotnym efekcie globalnym (istotne F, p < 0,05).

Coraz częściej dopuszcza się jednak analizę porównań par nawet przy nieistotnym F, zwłaszcza przy małej mocy, nierównych liczebnościach lub specyficznym układzie średnich. W takim wypadku trzeba jasno uzasadnić w metodach, dlaczego mimo braku istotności globalnej raportujesz testy post hoc.

Jak wybrać między testem Tukeya, Bonferroniego a Games‑Howella?

Test Tukeya HSD jest dobrym wyborem, gdy spełnione są typowe założenia ANOVA: zbliżone wariancje między grupami (nieistotny test Levene’a) i podobne liczebności. Zapewnia kontrolę poziomu błędu I rodzaju dla całej rodziny porównań i jest mniej konserwatywny niż prosta korekcja Bonferroniego przy większej liczbie grup.

Korekcja Bonferroniego to nie osobny test, lecz reguła zmiany poziomu alfa przy wielu porównaniach (alfa podzielone przez liczbę testów). Sprawdza się przy niewielkiej liczbie starannie zaplanowanych porównań (np. kilka kontrastów planowanych). Games‑Howell jest natomiast projektowany pod sytuacje, w których wariancje i liczebności grup są wyraźnie różne – wtedy bywa bezpieczniejszy niż Tukey.

Jak raportować wyniki testu Tukeya po ANOVA w pracy naukowej?

Raportując Tukeya, podajesz najpierw wynik ANOVA (F, df, p, miarę wielkości efektu), a potem najważniejsze pary porównań. Dla każdej istotnej pary warto wypisać: różnicę średnich, p‑value skorygowane w procedurze Tukeya oraz 95% przedział ufności. Przykładowy opis: „Test Tukeya HSD wykazał, że metoda blended przyniosła wyższe wyniki niż metoda tradycyjna (różnica M = 5,2 punktu, p = 0,01, 95% CI [1,3; 9,1]).”.

W tabeli lub dodatku można pokazać pełną macierz par (wszystkie różnice, SE, p, CI), a w tekście skupić się na porównaniach kluczowych dla hipotez. Dobrą praktyką jest łączenie informacji o istotności z interpretacją wielkości różnicy (czy różnica ma znaczenie dydaktyczne, kliniczne itp.).

Czym różnią się testy post hoc od kontrastów planowanych?

Testy post hoc (Tukey, Games‑Howell, porównania z Bonferronim) traktują wszystkie pary grup w zasadzie równorzędnie: sprawdzają „co z czym się różni” po tym, jak ANOVA pokaże, że różnice w ogóle istnieją. Są nastawione na przegląd całego obrazu, kosztem większej ostrożności i silniejszej korekcji na wielokrotne porównania.

Kontrasty planowane definiuje się z góry, przed analizą, na podstawie hipotez teoretycznych (np. każda terapia vs kontrola, bez porównań terapii między sobą). Zwykle jest ich mniej, dzięki czemu można stosować łagodniejsze korekcje (Bonferroni, Holm) lub w niektórych szkołach – wręcz bez korekcji, jeśli liczba kluczowych testów jest bardzo ograniczona i dobrze uzasadniona. W praktyce badawczej często łączy się oba podejścia: główne pytania sprawdza kontrastami, a post hoc traktuje uzupełniająco.

Czy można stosować testy post hoc, jeśli ANOVA nie wyszła istotnie?

Konserwatywne podejście mówi „nie”: brak istotnego F oznacza brak podstaw do szukania różnic między parami, aby nie zwiększać niepotrzebnie liczby testów. To podejście jest bezpieczne i często akceptowane przez recenzentów, szczególnie przy dużej liczbie grup.

Istnieje jednak argument, że w pewnych konfiguracjach średnich (i przy niskiej mocy) można mieć nieistotne F, a mimo to istotne niektóre porównania dwugrupowe. Jeśli decydujesz się wtedy na post hoc, trzeba jasno opisać motywację (konkretne, wcześniej zdefiniowane pytania) i zachować korekcję na wielokrotne porównania. Bez takiego uzasadnienia recenzenci często uznają takie analizy za „łowienie istotnych wyników”.

Jak interpretować p‑value i przedziały ufności w testach post hoc?

Dla każdej pary grup program podaje zwykle: różnicę średnich, błąd standardowy, skorygowane p‑value oraz przedział ufności. Jeśli skorygowane p jest mniejsze od przyjętego poziomu alfa (np. 0,05), a przedział ufności nie obejmuje zera, uznajesz różnicę za istotną statystycznie w danej procedurze post hoc.

Porównując przedziały między parami, widać nie tylko „czy”, ale też „jak bardzo” grupy się różnią. W badaniu klinicznym może się okazać, że kilka porównań jest statystycznie istotnych, ale tylko te z najszerszą różnicą średnich i wąskim przedziałem mają realne znaczenie praktyczne – to właśnie one są warte podkreślenia w sekcji wyników.

Jak raportować korekcję Bonferroniego przy wielu porównaniach?

Przy korekcji Bonferroniego możesz pójść dwiema drogami: albo dzielisz poziom alfa przez liczbę testów (np. 0,05/10 = 0,005) i odnosisz do niego surowe p, albo raportujesz p‑value już skorygowane. W obu przypadkach trzeba jasno zaznaczyć, że zastosowano korekcję Bonferroniego oraz ile porównań wchodziło do rodziny testów.

Przykładowy opis: „Dla pięciu zaplanowanych porównań zastosowano korekcję Bonferroniego (alfa skorygowane = 0,01). Istotną różnicę uzyskano jedynie między grupą A a kontrolą (t = …, p = 0,004 < 0,01).”. W tabelach możesz pokazać zarówno p surowe, jak i skorygowane, co ułatwia czytelnikowi ocenę konserwatywności zastosowanej korekcji.

Najważniejsze wnioski

ANOVA mówi jedynie, że „coś się różni” między grupami, natomiast testy post hoc (np. Tukeya, Bonferroniego, Games-Howella) wskazują konkretne pary grup, wielkość różnic i ich przedziały ufności.
Brak analizy post hoc po istotnej ANOVA prowadzi do nadinterpretacji efektu globalnego i nie daje odpowiedzi na pytania praktyczne typu: „czy terapia A jest lepsza od B, czy tylko od kontroli?”.
Kontrasty planowane służą do kilku z góry określonych, teoretycznie uzasadnionych porównań (np. każda terapia vs kontrola), zwykle z łagodniejszą korekcją alfa; testy post hoc traktują wszystkie pary grup równorzędnie i są bardziej konserwatywne.
W praktyce badawczej dominuje podejście, w którym pełne testy post hoc wykonuje się po istotnym efekcie globalnym ANOVA, choć przy niskiej mocy lub specyficznym układzie średnich można rozważyć porównania par także przy nieistotnym F – pod warunkiem jasnego uzasadnienia.
Wybór testu post hoc zależy od spełnienia założeń: przy zbliżonych wariancjach i liczebnościach sensownym standardem jest Tukey HSD, natomiast przy nierównych wariancjach i dysproporcjach liczebności bezpieczniejszy bywa Games-Howell.
Testy z korekcją Bonferroniego są szczególnie użyteczne przy ograniczonej liczbie kluczowych porównań (np. 3–4 główne hipotezy), bo wtedy ich konserwatywność mniej „boli” niż w pełnym zestawie wszystkich możliwych par.

Zobacz także:

1 KOMENTARZ

SzaryKreslarz 10 czerwca, 2026 W 8:58 pm
Bardzo interesujący artykuł! Bardzo mi się podobała w nim klarowna i przystępna analiza testów post hoc po ANOVA. Szczególnie doceniam dokładne omówienie różnych metod, takich jak Tukeya, Bonferroniego i Games Howella, co na pewno będzie pomocne dla osób zajmujących się analizą danych.
Jednakże, mam jedną uwagę. Brakuje mi w artykule bardziej obszernej dyskusji na temat przykładowych zastosowań konkretnych testów post hoc. Myślę, że dodanie realnych case study lub wyjaśnienie, w jakich sytuacjach najlepiej używać poszczególnych testów, mogłoby ułatwić zrozumienie czytelnikom. Warto byłoby również rozważyć dodanie więcej grafik lub przykładów, aby jeszcze lepiej zilustrować przedstawione koncepcje.
Mimo tego, całościowo artykuł jest bardzo wartościowy i pomocny dla osób chcących pogłębić swoją wiedzę na temat testów post hoc po ANOVA. Mam nadzieję, że autorzy będą kontynuować serię artykułów o analizie danych, bo ich podejście i sposób prezentacji informacji jest naprawdę godny uwagi.

Komentarze są aktywne tylko po zalogowaniu.