Dlaczego samo p-value to za mało?
Co właściwie mówi p-value w testach parametrycznych?
p-value w testach parametrycznych (t‑test, ANOVA, korelacja, regresja) odpowiada na bardzo wąskie pytanie: jak bardzo otrzymany wynik nie pasuje do świata, w którym efekt jest równy zeru. W świecie hipotez statystycznych to odnosi się do hipotezy zerowej H₀, że:
- różnica średnich między grupami wynosi dokładnie 0,
- korelacja w populacji wynosi 0,
- współczynnik regresji w populacji jest równy 0,
- albo – ogólniej – że „nie ma żadnego efektu”.
Jeżeli p-value jest mniejsze od założonego poziomu α (najczęściej 0,05), mówisz: „wynik jest statystycznie istotny”. To oznacza, że przy założeniu braku efektu uzyskany wynik jest na tyle ekstremalny, że trudno go przypisać przypadkowi.
Pytanie kontrolne: czego dokładnie szukasz – dowodu, że efekt nie jest 0, czy oszacowania, jak duży ten efekt jest? Bo p-value mówi tylko to pierwsze.
p-value mówi „czy coś widać”, a nie „jak bardzo”
Wyobraź sobie test t dla dwóch grup. Wynik: p < 0,001. Brzmi imponująco. Czy to znaczy, że różnica między grupami jest ogromna? Niekoniecznie.
p-value nie koduje informacji o skali efektu. Ten sam poziom p może wynikać z:
- dużej różnicy między grupami i małej próby,
- bardzo małej różnicy między grupami i ogromnej próby.
Właśnie dlatego p-value nie pozwala ocenić ważności praktycznej wyniku. Mówi tylko: czy sygnał wybija się ponad szum losowy, przy zadanych założeniach i przy danej liczebności próby. Nie odpowiada natomiast na pytanie: „o ile jednostek rośnie wynik?”, „jak silny jest związek?”, „jak duża część zmienności jest wyjaśniona?” – do tego potrzebujesz wielkości efektu.
Istotność statystyczna vs znaczenie praktyczne i biznesowe
Istotność statystyczna (p < 0,05) to warunek konieczny, ale niewystarczający, żeby mówić o wyniku znaczącym w praktyce. W wielu obszarach – medycyna, psychologia, analityka biznesowa – dużo ważniejsze jest pytanie: czy efekt jest wystarczająco duży, by coś z nim zrobić?
Przykład z analizy biznesowej: testujesz nowy wariant strony produktowej. Masz setki tysięcy użytkowników. Różnica w konwersji między wariantem A i B jest minimalna, ale p < 0,001. Statystycznie różnica istnieje. Jednak czy ta zmiana:
- zwróci koszt wdrożenia nowego designu,
- jest stabilna między różnymi segmentami użytkowników,
- ma znaczenie z perspektywy strategii firmy?
Tu wchodzą w grę wielkość efektu oraz kontekst biznesowy, a nie samo p-value. Podobnie w badaniach klinicznych: lek może obniżać symptom o ułamek punktu na skali, dając bardzo małe p przy ogromnej próbie. Czy to realnie poprawi życie pacjentów?
Duża próba, mikroskopijny efekt, bardzo małe p-value
Im większa próba, tym łatwiej wykryć nawet znikomy efekt. Statystyki testowe (t, F) rosną wraz z liczebnością próby, co przekłada się na mniejsze p-value. W praktyce może to prowadzić do sytuacji:
- zmiana pokazuje różnicę w średniej na trzecim miejscu po przecinku,
- p < 0,0001,
- a jednocześnie różnica jest kompletnie nieistotna dla pacjenta, klienta czy użytkownika.
Czy taki wynik coś zmienia w decyzji? Czasem tak – jeżeli jesteś w obszarze, gdzie nawet minimalne efekty są cenne (np. bezpieczeństwo, rzadkie choroby, koszty miliardowych operacji). Ale bardzo często nie. Bez wielkości efektu nie masz narzędzia, by przejść od „czy coś jest” do „czy to jest wystarczająco duże”.
Jaki masz cel: odkryć cokolwiek czy odkryć coś warte działania?
Dobrze zadać sobie pytanie: jaki jest mój realny cel analizy?
- Jeśli chcesz „udowodnić, że cokolwiek istnieje” (np. w badaniach podstawowych), p-value może być pierwszym filtrem.
- Jeśli jednak chcesz podejmować decyzje – rekrutacyjne, marketingowe, kliniczne, produktowe – potrzebujesz informacji o skali zjawiska.
W testach parametrycznych tę skalę daje wielkość efektu: d Cohena, eta squared, korelacja r, R² i inne miary. Pozwalają one połączyć informację „czy efekt istnieje” z informacją „jak bardzo jest on istotny dla mojej decyzji”.
Podstawy: co to jest wielkość efektu w testach parametrycznych
Intuicyjna definicja: miara siły różnicy lub związku
Wielkość efektu to liczba, która opisuje skalę różnicy lub związku między zmiennymi. Nie pyta: „czy efekt jest różny od zera”, tylko: „jak duży jest ten efekt?”.
Można myśleć o niej tak:
- przy porównaniu średnich – „o ile jednostek różnią się dwie grupy i jak ta różnica ma się do ich zmienności?”,
- przy korelacjach – „jak silnie zmienne współwystępują?”,
- przy regresji – „jaka część wariancji wyniku jest wyjaśniona przez model?” lub „o ile zmieni się Y przy jednostkowej zmianie X?”.
W przeciwieństwie do p-value, które jest związane z prawdopodobieństwem i hipotezami, wielkość efektu mierzy samą istotę zjawiska. Można ją interpretować i porównywać między badaniami, nawet jeśli miały różne liczebności próby.
Standaryzowane i niestandaryzowane wielkości efektu
Wielkości efektu dzielą się na dwie główne kategorie: niestandaryzowane i standaryzowane.
Niestandaryzowane wielkości efektu zachowują jednostki oryginalnej skali pomiaru:
- różnica średnich w punktach testu, kilogramach, złotówkach, procentach,
- współczynniki regresji „surowe” (unstandardized beta): np. „dodatkowe 10 zł przy każdym dodatkowym 1 punkcie X”.
Ich zaleta: łatwa interpretacja w języku domainowym („o ile punktów poprawia się wynik po interwencji?”). Wadą jest to, że trudno porównywać je między badaniami o różnych skalach.
Standaryzowane wielkości efektu są wyrażone w jednostkach odchylenia standardowego lub w postaci udziału wariancji:
- d Cohena, g Hedgesa – różnica średnich w jednostkach odchylenia standardowego,
- r, r² – korelacja i procent wyjaśnionej wariancji,
- η², ηp², ω² – procent wariancji wyjaśnionej przez czynnik w ANOVA,
- standaryzowane bety w regresji – zmiana Y w odchyleniach standardowych na 1 odchylenie standardowe X.
Ich zaletą jest to, że umożliwiają porównywanie efektów między różnymi badaniami i różnymi skalami. W praktyce analizy danych często łączy się oba podejścia: podaje się i miary niestandaryzowane, i standaryzowane.
Gdzie pojawia się wielkość efektu w typowych testach parametrycznych?
Wielkość efektu to nie jest „dodatek dla purystów”. W testach parametrycznych ma swoje stałe odpowiedniki:
- Testy t (dla jednej, dwóch grup, prób sparowanych) – d Cohena, g Hedgesa, czasem także r jako przeliczenie z t.
- ANOVA (jedno- i wieloczynnikowa) – η² (eta squared), ηp² (partial eta squared), ω² (omega squared).
- Korelacje – sam współczynnik r pełni funkcję wielkości efektu, a r² to udział wyjaśnionej wariancji.
- Regresja liniowa – R², skorygowane R², częściowe r² (semi-partial), standaryzowane bety.
Jeśli korzystasz z popularnych pakietów statystycznych lub narzędzi analitycznych, bardzo często te miary można wyświetlić jednym dodatkowym parametrem lub wyliczyć z podanych już statystyk (t, F, SS, MS).
Dlaczego wielkość efektu „nadaje sens” wynikom?
p-value mówi: „dane są mało lub bardzo mało zgodne z hipotezą zerową”. Wielkość efektu mówi: „jak silny jest obserwowany efekt, niezależnie od tego, jak duża jest próba”. Dopiero połączenie obu rzeczy z kontekstem pozwala odpowiedzieć na sensowne pytania:
- czy efekt jest na tyle duży, by warto było zmieniać politykę firmy, protokół leczenia, projekt badania?
- czy efekt ma znaczenie w skali populacji lub rynku?
- czy efekt jest porównywalny z tym, co pokazują inne badania w tej dziedzinie?
Bez wielkości efektu łatwo o pułapkę: „wynik jest albo istotny, albo nieistotny”, co sprowadza złożoną rzeczywistość do prostej binarnej decyzji, bez oceny skali zjawiska.
Jakiego typu efekt chcesz zmierzyć?
Przed wyborem konkretnej miary odpowiedz sobie: co jest celem analizy?
- Porównywanie grup (np. grupa eksperymentalna vs kontrolna) – sięgnij po d Cohena, g Hedgesa, η², ω².
- Mierzenie związku (np. związek satysfakcji z lojalnością, związek cech osobowości z wynikiem testu) – skorzystaj z korelacji r i r².
- Prognozowanie (np. przewidywanie sprzedaży, wyniku egzaminu, ryzyka choroby) – użyj R², skorygowanego R², semi-partial r² i standaryzowanych bet.
To dopasowanie celu do typu efektu jest kluczowe. Jaki masz główny cel: porównać grupy, zbadać związek czy zbudować model predykcyjny? Od tego zaczyna się wybór właściwej miary.

Kluczowe rodzaje wielkości efektu w praktyce
Różnice średnich: d Cohena i g Hedgesa
Przy porównywaniu dwóch grup (test t dla prób niezależnych) standardem jest d Cohena. Intuicyjnie:
d Cohena = różnica średnich / wspólne odchylenie standardowe.
Jeśli d = 0,5, to średnie różnią się o pół odchylenia standardowego. To daje wyczucie: im większy d, tym bardziej rozdzielone rozkłady obu grup.
Często stosuje się orientacyjne progi:
- d ≈ 0,2 – mały efekt,
- d ≈ 0,5 – średni efekt,
- d ≈ 0,8 – duży efekt.
To tylko ogólne wskazówki. W analizie biznesowej mały efekt może być warty milionów złotych przy dużej skali, a w medycynie „mały” efekt dla jednostki może być ogromny na poziomie populacji.
g Hedgesa to odmiana d, która koryguje bias przy małych próbach. Przy N < 20–30 użycie g zamiast d pozwala uniknąć lekkiego zawyżania wielkości efektu. Większość kalkulatorów statystycznych oferuje obie opcje.
Miary wariancji wyjaśnionej: r², η², partial η², ω²
W wielu testach parametrycznych interesuje nie tylko różnica średnich, ale to, jaka część zmienności wyników jest „tłumaczona” przez dany czynnik. Tu przydają się miary oparte na wariancji:
- r² – kwadrat korelacji; pokazuje, jaki procent wariancji jednej zmiennej jest wyjaśniany przez liniowy związek z drugą zmienną.
- η² (eta squared) – w ANOVA: SS(czynnik) / SS(całkowite); udział wariancji wyjaśnionej przez dany czynnik w całkowitej wariancji.
- ηp² (partial eta squared) – w wieloczynnikowej ANOVA: udział wariancji wyjaśnionej przez dany czynnik w wariancji niewyjaśnionej przez inne czynniki. Częściej używana w badaniach z kilkoma czynnikami.
- ω² (omega squared) – wariant eta squared korygujący efekt liczebności próby; bardziej „konserwatywny” i mniej obciążony.
Miary te mówią: „czynnik X wyjaśnia np. 15% zmienności wyniku Y”, co jest znacznie bardziej informatywne niż samo stwierdzenie, że efekt jest istotny statystycznie.
Miary związku: r Pearsona i pokrewne korelacje
Jeśli badany jest związek między zmiennymi ciągłymi, najpopularniejszą miarą jest korelacja r Pearsona. Zakres: od -1 do 1. Interpretacja:
Jak interpretować korelacje w kategoriach wielkości efektu?
Korelacja jest kusząca, bo sprowadza związek dwóch zmiennych do jednej liczby. Pojawia się jednak pytanie: kiedy związek jest „silny”, a kiedy „słaby”?
Często przywołuje się orientacyjne progi (wg Cohena):
- |r| ≈ 0,1 – mały związek,
- |r| ≈ 0,3 – średni związek,
- |r| ≈ 0,5 – duży związek.
To wygodne etykiety, ale łatwo prowadzą do automatyzmu. Zadaj sobie pytanie: w moim kontekście biznesowym/klinicznym/edukacyjnym – czy taki związek coś realnie zmienia? Korelacja r = 0,2 może oznaczać drobną przewagę w prognozie jednostkowej, ale przy ogromnej skali (np. scoring kredytowy) przekłada się na znaczące sumy pieniędzy.
Dobrym nawykiem jest zaglądanie również do r². Pokazuje on, jaki odsetek wariancji jednej zmiennej jest wyjaśniany przez liniowy związek z drugą. Jeśli r = 0,3, to r² = 0,09 – zaledwie 9% wariancji. Czy to dużo? Zależy, jaki masz cel:
- jeśli budujesz bardzo prosty model predykcyjny – 9% może być startem, ale nie celem,
- jeśli badana cecha z natury jest „szumowa” (np. nastroje dzienne) – 9% bywa już całkiem przyzwoite.
Regresja: R², semi-partial r² i standaryzowane bety
W regresji liniowej wielkość efektu można ująć z trzech stron. Zastanów się: interesuje Cię siła całego modelu czy wkład pojedynczych predyktorów?
- R² – pokazuje, jaki procent wariancji zmiennej zależnej wyjaśnia cały model. To odpowiednik „mocy wyjaśniającej” zestawu predyktorów.
- Skorygowane R² – koryguje R² o liczbę predyktorów; chroni przed iluzją „im więcej zmiennych, tym lepiej”.
- Semi-partial r² (częściowe r²) – mówi, o ile dodatkowej wariancji wyjaśnia dany predyktor po uwzględnieniu pozostałych.
- Standaryzowane bety – pokazują, o ile odchyleń standardowych zmieni się Y, gdy X wzrośnie o 1 odchylenie standardowe (przy stałych pozostałych zmiennych).
W praktyce możesz myśleć tak:
- jeśli pytasz: „czy mój model w ogóle ma sens?” – patrz na R² / R² skorygowane,
- jeśli pytasz: „który predyktor wnosi najwięcej?” – patrz na semi-partial r² i standaryzowane bety.
Przykład z praktyki HR: gdy chcesz przewidywać wynik sprzedaży z cech osobowości, doświadczenia i szkoleń, samo p-value przy betach powie „coś działa”. Dopiero semi-partial r² pokaże, że np. doświadczenie wyjaśnia sporą część dodatkowej wariancji, a jedna ze skal osobowości – ledwie ślad.
Efekty w modelach z kilkoma czynnikami: jak patrzeć na ηp² i ω²?
W wieloczynnikowej ANOVA (np. 2×2, 3×2) przydatne jest pytanie: czy dany czynnik ma istotny wkład, gdy obok są inne?
Tu wchodzą w grę:
- ηp² (partial eta squared) – udział wariancji wyjaśnionej przez dany czynnik w wariancji pozostałej po odjęciu innych czynników. Im więcej czynników w modelu, tym bardziej naturalne staje się patrzenie na ηp².
- ω² – bardziej konserwatywna miara, która „karze” duże próby i liczbę poziomów czynnika. Często daje mniejsze wartości niż η², ale jest bliższa temu, co można by się spodziewać w populacji.
Jeśli analizujesz np. wpływ typu szkolenia (A/B), doświadczenia (niskie/wysokie) i działu (3 działy) na wynik sprzedaży, pojawi się kilka efektów głównych i interakcji. Same p-value mogą zasypać Cię „istotnościami”. ηp² i ω² pomogą wybrać, o czym pisać w raporcie, a co zredukować do krótkiej wzmianki.
Jak wielkość efektu łączy się z p-value i mocą testu
Trójkąt: wielkość efektu – liczebność próby – p-value
W testach parametrycznych te trzy elementy są ze sobą nierozerwalnie związane. Zanim uruchomisz kolejne analizy, zadaj sobie pytanie: co tu jest naprawdę małe – efekt, próba, czy może tylko margines błędu?
- Przy dużej próbie nawet bardzo mały efekt może dać p < 0,05.
- Przy małej próbie nawet umiarkowanie duży efekt może nie osiągnąć istotności (wysokie p).
Formuły statystyk testowych wyraźnie to pokazują. Przykładowo w teście t:
t = (różnica średnich) / (błąd standardowy), a błąd standardowy maleje, gdy rośnie N. Im większa próba, tym łatwiej o duże |t| i małe p, nawet gdy różnica średnich jest skromna. Dlatego samo p-value nie mówi, czy efekt jest „sensowny” praktycznie.
Moc testu: jak wielkość efektu wpływa na prawdopodobieństwo wykrycia efektu?
Moc testu (power) to prawdopodobieństwo odrzucenia hipotezy zerowej, gdy w populacji naprawdę istnieje dany efekt. Zależy ona głównie od:
- wielkości efektu (im większa, tym łatwiej ją wykryć),
- liczebności próby (im większa, tym większa moc),
- poziomu istotności α (im wyższy, tym łatwiej uzyskać istotność).
Planowanie mocy praktycznie zawsze wymaga założenia oczekiwanej wielkości efektu. Pojawia się więc kolejne pytanie: jakiego efektu się spodziewasz i jaki efekt chcesz mieć szansę wiarygodnie wykryć?
- jeśli planujesz badanie pilotażowe – możesz przyjąć „średni” efekt (np. d = 0,5) jako punkt startu,
- jeśli masz dane z wcześniejszych badań lub metaanaliz – warto oprzeć się właśnie na ich efektach.
Bez takiego założenia planowanie mocy staje się zgadywanką. A wtedy badanie bywa z góry skazane albo na „mocy za mało”, albo na marnowanie zasobów na nadmiernie dużą próbę.
Jak czytać sytuacje: duże p i duża/mała wielkość efektu
W praktyce warto rozważyć four typowe kombinacje. Zastanów się, która dotyczy Twoich danych.
- Małe p, duża wielkość efektu – sytuacja luksusowa. Efekt jest zarówno istotny, jak i silny. W raporcie możesz mocno podkreślać znaczenie praktyczne.
- Małe p, mała wielkość efektu – typowe w bardzo dużych próbach. Statystycznie „coś się dzieje”, ale różnice czy związki są skromne. Tutaj kluczowe pytanie brzmi: „czy ten mały efekt ma wartość w moim kontekście?”.
- Duże p, duża wielkość efektu – często znak zbyt małej próby. Wynik jest nieistotny, ale obserwowany efekt (np. d ≈ 0,6) wskazuje, że przy większej próbie mógłby być bardzo interesujący. To sygnał, by myśleć o replikacji na większej próbie, a nie o wyrzuceniu badania do kosza.
- Duże p, mała wielkość efektu – tu zarówno brak istotności, jak i słaby efekt sugerują, że badany wpływ jest znikomy. Oczywiście wrażliwość na „znikomość” zależy od dziedziny.
Dlaczego raportowanie wielkości efektu ułatwia metaanalizy i replikacje?
Jeśli kolejne zespoły raportują tylko p-value, trudno łączyć ich wyniki w spójny obraz. p-value jest silnie zależne od N i od szczegółów modelu. Wielkości efektu – szczególnie standaryzowane – pozwalają:
- porównać wyniki badań o różnych liczebnościach i skalach pomiaru,
- przeliczyć wyniki testów na wspólne miary (np. g Hedgesa z różnych testów t),
- oszacować, jaka wielkość efektu jest typowa w danej dziedzinie i jak bardzo nowe badanie od niej odbiega.
Gdy myślisz o replikacji – własnej lub cudzej – zapytaj: jakiej wielkości efektu spodziewam się na podstawie poprzednich badań i jaką moc chcę mieć do jego wykrycia? To dużo konkretniejsze niż „czy uzyskam p < 0,05?”.
Obliczanie wielkości efektu dla najczęstszych testów parametrycznych
Test t dla prób niezależnych: jak policzyć d Cohena z danych i ze statystyki t?
Przy dwóch niezależnych grupach masz kilka dróg obliczenia d Cohena. Która będzie dla Ciebie najszybsza?
- Z surowych danych (średnie i odchylenia standardowe)
Jeśli znasz średnie (M₁, M₂), odchylenia standardowe (s₁, s₂) i liczebności (n₁, n₂), zwykle stosuje się pooled SD (wspólne odchylenie):
SD_pooled = sqrt( ((n₁ - 1)*s₁² + (n₂ - 1)*s₂²) / (n₁ + n₂ - 2) )
d = (M₁ - M₂) / SD_pooled
To klasyczna wersja d przy założeniu zbliżonej wariancji w obu grupach.
- Z samej statystyki t i liczebności
Gdy masz tylko wynik testu t oraz liczebności, można użyć przelicznika:
d = t * sqrt(1/n₁ + 1/n₂)
lub (w zależności od definicji w danym źródle):
d = 2t / sqrt(df)
gdzie df = n₁ + n₂ – 2. W raportach naukowych statystyka t i df są niemal zawsze podawane, więc taki przelicznik jest bardzo praktyczny.
- Korekta na małą próbę: g Hedgesa
Jeśli chcesz skorygować d przy małym N, stosujesz współczynnik J (tzw. correction for small sample bias):
J = 1 - 3 / (4*(n₁ + n₂) - 9)
g = J * d
Im mniejsza próba, tym bardziej J < 1 i tym silniejsza korekta.
Test t dla prób sparowanych: jak przeliczyć różnicę na d?
Dla par (np. pomiar przed–po) pracujesz na różnicach wewnątrzosobniczych. Pytanie pomocnicze: interesuje Cię efekt w stosunku do zmienności różnic, czy do zmienności wyników bazowych?
Standardowa wersja d dla prób zależnych używa odchylenia standardowego różnic:
d = (M_po - M_przed) / SD_różnic
Jeśli dysponujesz tylko wynikiem testu t dla prób zależnych i liczebnością n (liczbą par), możesz skorzystać z:
d = t / sqrt(n)
Warto jasno opisać w raporcie, jak definiujesz d przy próbach sparowanych, szczególnie gdy porównujesz się z literaturą, gdzie mogą pojawiać się inne konwencje.
ANOVA jednoczynnikowa: jak uzyskać η² i ω² z tabeli ANOVA?
W klasycznej ANOVA jednoczynnikowej tabela wyjściowa zawiera zwykle:
- SS_between – sumę kwadratów między grupami,
- SS_within – sumę kwadratów wewnątrz grup (błąd),
- SS_total – sumę kwadratów całkowitą,
- MS_between, MS_within, F, df_between, df_within.
Z takiej tabeli łatwo policzysz:
Eta squared (η²):
η² = SS_between / SS_total
Pokazuje, jaką część całkowitej wariancji zmiennej zależnej można „przypisać” czynnikowi (np. typowi interwencji).
Omega squared (ω²):
ω² = (SS_between - df_between * MS_within)
/ (SS_total + MS_within)
Ta formuła koryguje prostą η² o wpływ liczebności próby i liczby poziomów czynnika. Jeśli Twoja próba jest duża, różnica między η² i ω² może być wyraźna – ω² będzie niższa, ale częściej bliższa populacyjnemu udziałowi wariancji.
Regresja liniowa: jak przełożyć wyniki modelu na wielkość efektu?
Regresja kusi tym, że „załatwia” kilka rzeczy naraz. Pojawia się jednak pytanie: jak opisać wielkość efektu w modelu z wieloma predyktorami?
Masz do dyspozycji kilka uzupełniających się miar. Której potrzebujesz?
- R² (współczynnik determinacji) – udział wariancji zmiennej zależnej wyjaśnionej przez cały model.
- ΔR² – przyrost R² po dodaniu konkretnego predyktora (lub bloku predyktorów).
- f² Cohena – lokalna wielkość efektu dla modelu lub konkretnego predyktora.
- Standaryzowane współczynniki β – efekt w jednostkach odchylenia standardowego.
Jeśli zastanawiasz się, czy pojedynczy predyktor „naprawdę coś wnosi”, szczególnie ważne będą ΔR² i f². Przy wielu predyktorach surowe β bywa trudne do intuicyjnej interpretacji.
R² i ΔR²: ile dodatkowej wariancji „dokłada” predyktor?
R² jest prosty: mówi, jaki odsetek wariancji zmiennej zależnej jest wyjaśniany przez cały model. Problem w tym, że przy większej liczbie predyktorów prawie zawsze rośnie – nawet przy małych, przypadkowych efektach.
Dlatego w analizach krokowych lub hierarchicznych kluczowe jest ΔR² – różnica R² między modelem prostszym a rozszerzonym:
ΔR² = R²_model_rozszerzony - R²_model_bazowy
Jeśli ΔR² jest bardzo małe (np. rzędu 0,01), zapytaj: czy ten przyrost ma znaczenie praktyczne, nawet jeśli p < 0,05?
f² Cohena w regresji: lokalna wielkość efektu
f² spina w całość informację o R² i ΔR². Dla całego modelu:
f²_model = R² / (1 - R²)
Dla konkretnego predyktora lub bloku predyktorów (np. po dodaniu zmiennych kontrolnych):
f²_predyktora = (R²_model_rozszerzony - R²_model_bazowy)
/ (1 - R²_model_rozszerzony)
Cohen podawał orientacyjne progi interpretacyjne (dla f²): mały ≈ 0,02, średni ≈ 0,15, duży ≈ 0,35. Zanim jednak uznasz swój efekt za „mały”, spójrz na swoją dziedzinę – w niektórych obszarach ΔR² = 0,02 bywa już bardzo cenne (np. przy przewidywaniu rzadkich zjawisk).
Zadaj sobie pytanie: co bardziej Cię interesuje – siła całego modelu, czy realny wkład nowego predyktora? Jeśli to to drugie, skup się na f² i ΔR², a nie wyłącznie na p dla współczynnika β.
Standaryzowane β: ile SD zmienia się wynik przy zmianie predyktora o 1 SD?
Gdy chcesz porównać względną „ważność” predyktorów mierzonych w różnych jednostkach, przydają się standaryzowane β. Interpretacja jest prosta:
- β = 0,30 – wzrost predyktora o 1 SD wiąże się ze wzrostem zmiennej zależnej o 0,30 SD (przy stałych pozostałych predyktorach).
Praktyczne pytanie: czy 0,30 SD różnicy ma w Twoim kontekście znaczenie, czy jest kosmetyką? W badaniach edukacyjnych 0,20–0,30 SD bywa już traktowane jako sensowny efekt, w innych – jako umiarkowany.
Testy chi-kwadrat i tabele krzyżowe: jak nie zgubić wielkości efektu w danych kategorycznych?
Przy zmiennych kategorycznych często kończy się na stwierdzeniu „zależność istotna” lub „brak istotnej zależności”. Tymczasem tu także można, a wręcz trzeba, mówić o wielkości efektu. Jakie masz opcje?
- φ (phi) – dla tabel 2×2.
- Cramér’s V – dla większych tabel (np. 2×3, 3×4).
- h Cohena – dla różnicy dwóch proporcji.
φ dla tabel 2×2: szybka miara siły asocjacji
Przy prostej tabeli (np. skuteczność leku: tak/nie × grupa: eksperymentalna/kontrolna) można obliczyć φ:
φ = sqrt(χ² / N)
φ zachowuje się podobnie do korelacji r: mieści się w przedziale [-1, 1], choć interpretacja kierunku zależy od tego, jak zakodujesz kategorie. Jako orientacyjny punkt odniesienia część autorów stosuje progi zbliżone do r, ale lepiej odnieść wynik do typowych efektów w Twojej dziedzinie.
Cramér’s V: gdy tabela ma więcej kategorii
Gdy liczba kategorii przekracza 2 w którejkolwiek zmiennej, φ przestaje być odpowiedni. Wtedy stosuje się Cramér’s V:
V = sqrt(χ² / (N * (k - 1)))
gdzie k to mniejsza z liczby wierszy i kolumn.
V zawiera się między 0 a 1. Tu znów p-value mocno zależy od N – w bardzo dużych próbach V = 0,10 może dawać bardzo małe p. Kluczowe pytanie: czy ta siła asocjacji zmienia decyzje w praktyce, czy tylko „sygnalizuje” istnienie jakiejś zależności?
Różnica proporcji: h Cohena
Jeśli porównujesz dwie proporcje (np. odsetek pacjentów, którzy wyzdrowieli w grupie A vs B), możesz użyć h Cohena. To miara standaryzująca różnicę proporcji transformacją łukowym sinusem:
h = 2 * arcsin(sqrt(p₁)) - 2 * arcsin(sqrt(p₂))
Proporcje przekształca się do bardziej „normalnych” rozkładów, co poprawia własności statystyczne. Cohen proponował dla h orientacyjne progi: 0,20 (mały), 0,50 (średni), 0,80 (duży). Przy danych binarnych te wartości bywają jednak trudniejsze do intuicyjnego „wyobrażenia”, dlatego dobrze jest podawać obok h także surowe proporcje.
Korelacja Pearsona: r i jego kwadrat jako wielkości efektu
Korelacja jest jednym z nielicznych testów, gdzie statystyka testowa i wielkość efektu są praktycznie tym samym. r samo w sobie jest miarą efektu, a test dotyczy tego, czy r ≠ 0 w populacji.
r jako wielkość efektu
Interpretując r, zapytaj: czy mówisz o sile liniowego związku, czy o przewidywaniu? Dla siły związku ważne jest, jak gęsto punkty leżą wokół hipotezy liniowej. Dla przewidywania przydatny jest r²:
r² = udział wariancji jednej zmiennej wyjaśnianej przez drugą
Przykład: r = 0,30 między poziomem motywacji a wynikiem testu. Wtedy r² = 0,09, czyli tylko 9% wariancji wyników testu da się „wyjaśnić” motywacją. Czy to dużo? Zależy, czy robisz badania psychologiczne, czy projektujesz system sterowania rakietą.
Jak przeliczyć r z t lub F, gdy nie masz surowej korelacji?
Czasem w raporcie masz tylko t lub F, a chcesz uzyskać r jako wielkość efektu (np. do metaanalizy). Kilka użytecznych przeliczników:
- z t (np. dla korelacji lub regresji z jednym predyktorem):
r = t / sqrt(t² + df)
- z F (z jednym stopniem swobody w liczniku, np. prosty test jednoczynnikowy lub ANOVA z jednym kontrastem):
r = sqrt( F / (F + df_error) )
Zadaj sobie pytanie: do czego potrzebujesz tej konwersji? Jeśli budujesz metaanalizę lub porównujesz wyniki różnych testów na wspólnej skali, r jest wygodnym „mostem” między metodami.
Przybliżone progi interpretacyjne: jak nie wpaść w pułapkę „mały/średni/duży”?
Wielkość efektu kusi prostymi etykietami. „Mały”, „średni”, „duży” – brzmi wygodnie. Co chcesz osiągnąć, stosując te progi? Opis ogólny, czy decyzję praktyczną?
Dla porządku – oto często cytowane, bardzo ogólne progi Cohena:
- d Cohena: mały ≈ 0,20, średni ≈ 0,50, duży ≈ 0,80,
- r: mały ≈ 0,10, średni ≈ 0,30, duży ≈ 0,50,
- f (ANOVA): mały ≈ 0,10, średni ≈ 0,25, duży ≈ 0,40,
- f² (regresja): mały ≈ 0,02, średni ≈ 0,15, duży ≈ 0,35.
Te wartości są uśrednionymi punktami orientacyjnymi. W wielu dziedzinach „typowy” efekt jest mniejszy lub większy. Dlatego zamiast sztywno trzymać się tych progów, zadaj trzy pytania:
- Jakie wielkości efektu są typowe w mojej dziedzinie (na podstawie metaanaliz i wcześniejszych badań)?
- Jakie konsekwencje praktyczne ma efekt tej wielkości (np. koszt, bezpieczeństwo, czas)?
- Jakiej wielkości efekt moją metoda pomiaru w ogóle jest w stanie wiarygodnie uchwycić?
Mały efekt w psychologii może być akceptowalny i ciekawy, ale ten sam „mały” efekt w inżynierii bezpieczeństwa może być albo zbyt mały, by cokolwiek zmienić, albo przeciwnie – krytyczny, bo redukuje rzadkie, ale groźne zdarzenia.
Jak raportować wielkość efektu wraz z p-value i przedziałami ufności?
Technicznie umiesz już policzyć wiele wskaźników. Pytanie praktyczne: jak je elegancko i użytecznie wpleść do raportu?
Trzy elementy minimalne: p, wielkość efektu, przedział ufności
Dla większości testów parametrycznych sensowne minimum raportowe to:
- statystyka testowa i p (np. t, F, χ²),
- miara wielkości efektu odpowiednia do testu (np. d, r, η², V),
- przedział ufności dla wielkości efektu lub dla różnicy średnich/proporcji.
Przykładowy opis (test t dla prób niezależnych):
Grupa interwencyjna uzyskała istotnie wyższy wynik niż kontrolna, t(78) = 2,45, p = 0,017, d = 0,55, 95% CI [0,10; 1,00].
Co tu widzisz jako badacz? Nie tylko to, że p < 0,05, ale że efekt jest umiarkowany (d ≈ 0,55), a możliwy realistyczny zakres waha się między małym a dużym (przedział ufności).
Przedziały ufności dla d i r – skąd je brać?
Ręczne liczenie przedziałów ufności dla d i r wymaga kilku kroków (transformacje, błędy standardowe). Na co dzień praktyczniej jest:
- skorzystać z pakietów statystycznych (np. esci, MBESS w R, moduły w JASP, jamovi),
- użyć sprawdzonych kalkulatorów online, które zwracają zarówno punktowe oszacowanie efektu, jak i 95% CI.
Zanim zaufasz kalkulatorowi, zapytaj: jaką konwencję d stosuje (pooled SD? korekta Hedgesa?) i czy zgadza się ona z Twoją analizą? Jeśli definiujesz d inaczej, zaznacz to w metodach, aby uniknąć nieporozumień przy porównaniach.
Łączenie wielu testów: jak użyć wielkości efektu do uporządkowania wyników?
W praktycznych projektach często wykonujesz nie jeden, lecz kilkanaście testów. Co już próbowałeś: patrzysz tylko na „gwiazdki” przy p, czy porządkujesz efekty według siły?
Wielkość efektu pozwala zbudować prostą hierarchię wniosków:
- zidentyfikuj najsilniejsze efekty (np. d > 0,8, r > 0,5),
- sprawdź, które efekty są istotne przy sensownym poziomie korekty na wielokrotne porównania,
- spójrz na stabilność – szerokość przedziałów ufności,
- efekty małe, ale teoretycznie istotne, zakwalifikuj jako hipotezy do dalszych badań.
Zamiast listy kilkunastu p-value możesz wtedy przedstawić np. tabelę z trzema kolumnami: „Efekt (test) – wielkość efektu (z 95% CI) – wniosek praktyczny”. To narzędzie zarówno dla Ciebie, jak i dla czytelnika.
Jak dobrać miarę wielkości efektu do swojego celu badawczego?
Wybór miary to nie tylko kwestia techniczna. Jakiego typu decyzję chcesz podjąć na podstawie wyników?
Najczęściej zadawane pytania (FAQ)
Czym różni się p-value od wielkości efektu w testach parametrycznych?
p-value odpowiada na pytanie: „na ile moje dane są zgodne ze światem, w którym efekt wynosi dokładnie zero?”. Jeżeli jest mniejsze niż przyjęty poziom alfa (np. 0,05), mówisz, że wynik jest statystycznie istotny. To informacja typu „czy coś w ogóle widać ponad szum losowy?”.
Wielkość efektu odpowiada na inne pytanie: „jak duży jest ten efekt?”. Pokazuje skalę różnicy lub związku – np. o ile jednostek różnią się średnie, jak silna jest korelacja, jaki procent wariancji wyjaśnia model regresji. Pomyśl: czego teraz szukasz – samej „istotności”, czy informacji, czy opłaca się coś zmieniać w praktyce?
Dlaczego p-value nie wystarcza do oceny wyników badania lub testu A/B?
p-value mówi tylko, czy efekt jest różny od zera w sensie statystycznym. Przy bardzo dużej próbie nawet mikroskopijna różnica między wariantami (np. stroną A i B) da p < 0,001. Statystycznie wszystko gra, ale czy taka zmiana ma znaczenie biznesowe lub kliniczne? To już inne pytanie.
Żeby ocenić sensowność działania, potrzebujesz wielkości efektu: jak duża jest różnica w konwersji, o ile punktów spada nasilenie objawu, jaki procent zmienności wyniku tłumaczy nowy model scoringowy. Zadaj sobie kontrolne pytanie: gdyby ta różnica była realnie tak mała, czy podjąłbyś koszt wdrożenia zmiany?
Jakie miary wielkości efektu stosuje się w testach t, ANOVA, korelacji i regresji?
W typowych testach parametrycznych istnieją „domyślne” miary wielkości efektu, powiązane z konkretnym testem. Jeśli nie wiesz, od czego zacząć, możesz trzymać się tego prostego schematu:
- Testy t (jednej próby, dwóch grup, parowane) – d Cohena lub g Hedgesa jako różnica średnich w jednostkach odchylenia standardowego.
- ANOVA – η² (eta squared), ηp² (partial eta squared) lub ω² jako procent wyjaśnionej wariancji przez czynnik/czynniki.
- Korelacja – sam współczynnik r jest wielkością efektu, a r² mówi, jaki procent wariancji jednej zmiennej wiąże się z drugą.
- Regresja liniowa – R² (i skorygowane R²), częściowe r² oraz standaryzowane współczynniki beta.
Zastanów się: z jakim testem pracujesz najczęściej? Od razu sprawdź, jaka miara efektu jest dla niego standardem – większość pakietów statystycznych podaje ją „z automatu” lub jednym dodatkowym poleceniem.
Jak interpretować „duży” lub „mały” efekt (np. d Cohena, r, R²)?
Popularne są „sztywne” progi (np. dla d Cohena: 0,2 – mały, 0,5 – średni, 0,8 – duży), ale to tylko punkt startu. W praktyce liczy się kontekst: w badaniach klinicznych mały efekt może mieć ogromne znaczenie populacyjne, a w marketingu „średni” efekt może być niewystarczający, by pokryć koszty kampanii.
Zadaj sobie dwa pytania: po pierwsze, jak ten efekt wygląda w porównaniu z innymi badaniami w twojej dziedzinie? Po drugie, jaki minimalny efekt byłby dla ciebie „warte działania” (MDE – minimal detectable effect)? Wielkość efektu warto wtedy porównać z tą granicą, a nie tylko z „książkowymi” progami.
Czy duża próba zawsze jest lepsza, skoro daje bardzo małe p-value?
Większa próba zmniejsza niepewność oszacowania i zwiększa moc testu, ale ma też „ciemną stronę”: bardzo łatwo wykrywa statystycznie istotne, lecz praktycznie znikome efekty. Możesz dostać p < 0,0001 przy różnicy na trzecim miejscu po przecinku – i nic z tego nie wynika decyzyjnie.
Kluczowe pytanie: czy przy tej liczebności próby jesteś w stanie wykryć efekt o wielkości, która ma dla ciebie realne znaczenie? Jeżeli tak, spójrz następnie na samą wielkość efektu (np. d, η², R²). Jeżeli jest znacznie mniejsza niż twoje minimum „warte działania”, dodatkowe powiększanie próby tylko zwiększy ci liczbę „istotnych, ale nieistotnych w praktyce” wyników.
Kiedy lepiej podawać standaryzowaną, a kiedy niestandaryzowaną wielkość efektu?
Niestandaryzowane miary (np. różnica średnich w punktach testu, złotówkach, kilogramach; surowe współczynniki regresji) są świetne, gdy ważna jest bezpośrednia, „ludzka” interpretacja. Np. „program poprawia wynik o 5 punktów” albo „każdy dodatkowy 1 punkt X daje średnio 10 zł więcej przychodu”.
Standaryzowane miary (d Cohena, r, R², η², standaryzowane bety) pozwalają porównywać wyniki między badaniami i skalami. Przydają się szczególnie, gdy robisz przegląd badań, metaanalizę lub chcesz porównać efekty wielu zmiennych w jednym modelu. Zadaj sobie pytanie: czy twoim odbiorcom bardziej potrzebny jest „przekład na działania”, czy porównywalność pomiędzy wynikami? Od tego uzależnij, co pokazujesz w pierwszej kolejności.
Jak połączyć p-value i wielkość efektu przy podejmowaniu decyzji biznesowych lub badawczych?
Najprostszy schemat jest dwustopniowy. Najpierw sprawdzasz p-value, żeby wiedzieć, czy obserwowany efekt prawdopodobnie nie jest czystym przypadkiem (przy założonej H₀). Potem patrzysz na wielkość efektu i jej przedziały ufności, żeby ocenić, czy skala zjawiska uzasadnia decyzję: wdrożenie zmiany, rozpoczęcie kolejnego etapu badania, inwestycję w kampanię.
Zadaj sobie trzy pytania diagnostyczne: jaki efekt uznaję za minimalnie opłacalny? Jak moja oszacowana wielkość efektu ma się do tej granicy? Jak szeroki jest przedział ufności – czyli na ile jestem gotów zaryzykować, że „prawdziwy” efekt jest mniejszy niż ten, który teraz widzę? Dopiero wtedy p-value i wielkość efektu razem przekładają się na sensowną decyzję.
Kluczowe Wnioski
- p-value odpowiada tylko na pytanie, czy obserwowany efekt jest trudny do wyjaśnienia czystym przypadkiem przy założeniu „braku efektu”, ale nie mówi nic o tym, jak duży jest sam efekt – czego dokładnie szukasz: dowodu istnienia zjawiska czy jego skali?
- Ten sam poziom p (np. p < 0,001) może wynikać z dużej różnicy przy małej próbie albo z mikroskopijnej różnicy przy ogromnej próbie, więc nie da się z niego wyczytać znaczenia praktycznego wyniku.
- Istotność statystyczna (p < 0,05) jest tylko pierwszym filtrem; do decyzji biznesowych, klinicznych czy produktowych potrzebna jest informacja, czy efekt jest „wystarczająco duży”, by uzasadnić koszt, ryzyko lub zmianę strategii.
- Przy bardzo dużych próbach prawie każda, nawet trzecie miejsce po przecinku w średniej, może dać ekstremalnie małe p-value – pytanie brzmi nie „czy coś istnieje”, ale „czy ta różnica cokolwiek zmienia w decyzji lub życiu odbiorcy?”.
- Wielkość efektu (np. d Cohena, eta squared, korelacja r, R²) opisuje siłę różnicy lub związku: mówi, o ile jednostek zmienia się wynik, jak mocno współwystępują zmienne lub jaka część wariancji jest wyjaśniona przez model.
- Niestandaryzowane miary efektu (np. różnica w punktach testu, złotówkach, kilogramach, surowe bety regresji) są najbardziej zrozumiałe w języku praktyki, natomiast standaryzowane pozwalają porównywać wyniki między badaniami i kontekstami – czego w danej decyzji bardziej potrzebujesz?






