Laptop i arkusze z danymi statystycznymi widziane z góry
Źródło: Pexels | Autor: Tima Miroshnichenko
Rate this post

Nawigacja po artykule:

Dlaczego sposób raportowania testu t ma znaczenie

Standard APA jako wspólny język statystyki

Raportowanie testu t zgodnie ze standardem APA porządkuje komunikację między badaczami, analitykami i odbiorcami raportu. Niezależnie od tego, czy wyniki powstają w kontekście akademickim, czy biznesowym, spójny schemat zapisu ułatwia szybkie odczytanie kluczowych informacji: co porównano, jak silny jest efekt i z jaką niepewnością został oszacowany.

Standard APA wymusza pokazanie zarówno istotności statystycznej (wartości t, df, p), jak i wielkości efektu (Cohen’s d) oraz przedziałów ufności (CI). Dzięki temu odbiorca nie widzi tylko „test wyszedł/nie wyszedł”, ale otrzymuje pełniejszy obraz: różnica może być bardzo mała, ale istotna statystycznie, albo całkiem duża, lecz oszacowana z dużą niepewnością. Ten „pełny obraz” jest często ważniejszy niż sama informacja, czy p < .05.

Spójne raportowanie staje się szczególnie istotne, gdy wyniki mają służyć jako podstawa do decyzji: wprowadzenia nowej procedury w firmie, wdrożenia szkolenia, zmiany interfejsu w aplikacji. Jasny schemat zapisu w stylu: t(df) = …, p = …, 95% CI […, …], d = … pozwala jednym rzutem oka uchwycić sedno wyników.

Oczekiwania odbiorcy: liczby i sens, nie tylko „p < .05”

Osoba czytająca wynik testu t chce zwykle odpowiedzi na kilka prostych pytań: czy grupy/warunki różnią się istotnie, jak duża jest ta różnica oraz w jakim zakresie można się spodziewać podobnych wyników w przyszłości. Samo wskazanie p-value realizuje tylko pierwszy punkt, a pozostawia otwarte pytania: co wiemy? Że w danych nie ma silnych przesłanek, aby uznać brak efektu. Czego nie wiemy? Jak istotny praktycznie jest ten efekt oraz jak bardzo pewni jesteśmy oszacowanej różnicy.

Standard APA kładzie nacisk na to, by odbiorca mógł zinterpretować wynik zarówno na poziomie „statystycznie”, jak i „praktycznie”. Zestaw obowiązkowych elementów raportu testu t w tym podejściu obejmuje:

  • wartość statystyki testowej t,
  • liczbę stopni swobody df,
  • wartość p (z odpowiednim zapisem),
  • przedział ufności dla różnicy średnich (najczęściej 95% CI),
  • wielkość efektu, np. Cohen’s d.

Bez tych elementów odbiorca ma ograniczone możliwości oceny jakości analizy i jej użyteczności dla decyzji. To dotyczy zarówno recenzenta artykułu naukowego, jak i menedżera decydującego, czy powtarzać kampanię marketingową.

Konsekwencje niepełnego i „surowego” raportu

Udostępnienie jedynie surowego outputu z programu (SPSS, R, JASP) rzadko spełnia standard APA. Takie raporty bywają przeładowane nieistotnymi szczegółami, a równocześnie brakuje w nich kluczowych elementów, jak Cohen’s d czy czytelny opis porównywanych warunków. Dodatkowo, nazwy zmiennych technicznych i skróty (np. Group1, Var2) utrudniają zrozumienie, czego naprawdę dotyczył test.

Niepełny zapis ma dwie poważne wady: utrudnia replikację badania oraz utrudnia ocenę trafności wniosków. Bez informacji o różnicy średnich, przedziałach ufności i wielkości efektu trudno ocenić, czy raportujący nie przecenia wyniku (gdy efekt jest minimalny) lub go nie bagatelizuje (gdy efekt jest duży, ale „granicznie istotny” statystycznie).

Różnica między „surowym” outputem a raportem w stylu APA to w istocie różnica między danymi a informacją. Spójny, zwięzły zapis typu: „Średnia satysfakcja była wyższa w grupie A niż w grupie B, t(…)=…, p=…, 95% CI […, …], d=…” od razu mówi odbiorcy, co się wydarzyło, bez konieczności przeglądania wielu tabel programu statystycznego.

Podstawy testu t – co trzeba mieć przed raportowaniem

Typy testu t: jedna próba, próby zależne, próby niezależne

Zanim pojawi się pytanie, jak raportować test t zgodnie ze standardem APA, trzeba jasno wiedzieć, jaki test t został użyty. Schemat raportowania t, df, p, przedziałów ufności i Cohen’s d jest podobny dla wszystkich wariantów, ale kontekst interpretacyjny jest inny.

Najczęściej stosuje się trzy typy testu t:

  • Test t dla jednej próby – porównuje średnią z próby z określoną wartością teoretyczną lub benchmarkiem (np. średnia satysfakcja klientów vs. ustalone minimum akceptowalne).
  • Test t dla prób zależnych (paired t test) – porównuje dwie średnie z tej samej grupy osób, mierzonych w dwóch warunkach lub momentach (np. wynik testu umiejętności przed szkoleniem i po szkoleniu).
  • Test t dla prób niezależnych – porównuje średnie z dwóch różnych grup (np. grupa eksperymentalna vs. kontrolna, użytkownicy wersji A vs. wersji B interfejsu).

Każdy z tych testów ma inną interpretację jednostki analizy i inny sposób obliczania wielkości efektu Cohen’s d. W raporcie APA trzeba jasno zasygnalizować, jaki był schemat: czy osoby były te same, czy różne, czy porównuje się do wartości teoretycznej, czy między grupami.

Minimalny zestaw informacji przed uruchomieniem testu

Poprawne raportowanie zaczyna się już na etapie planowania analizy. Aby móc w ogóle rozsądnie zinterpretować wynik testu t i przygotować raport w stylu APA, potrzebne są co najmniej następujące informacje:

  • Średnie w porównywanych grupach/warunkach (lub średnia w próbie i wartość teoretyczna w teście jednej próby).
  • Odchylenia standardowe (SD) lub inna miara zmienności, zwykle dla każdej grupy osobno.
  • Liczebności (n) w każdej grupie/warunku, co pozwala zrozumieć, czy efekt pochodzi z małej czy dużej próby.
  • Kierunek hipotezy – czy test jest dwustronny (standard w APA), czy jednostronny (wyjątek, wymagający uzasadnienia).

Bez tych elementów raport będzie niepełny, nawet jeśli formalnie pojawi się w nim t, df, p i CI. Samo p-value nie powie, czy różnica łączy się z istotnym znaczeniem praktycznym, ani jak stabilny jest efekt w próbach przyszłych.

Założenia testu t w tle raportu

Test t jest testem parametrycznym, opartym na określonych założeniach dotyczących danych i rozkładów. W klasycznym opisie testu t wymienia się trzy główne założenia:

  • Przybliżony rozkład normalny zmiennej w populacji (lub rozkład różnic w testach zależnych).
  • Homogeniczność wariancji (równość wariancji) w testach dla prób niezależnych, o ile nie stosuje się wersji z poprawką Welcha.
  • Niezależność obserwacji – pomiary w różnych jednostkach (osobach, klientach, użytkownikach) nie powinny na siebie wpływać.

Raport według APA rzadko opisuje każde założenie szczegółowo, ale w przypadku wątpliwości (np. poważne odstępstwa od normalności, bardzo różne wariancje) warto dodać krótki komentarz. Z punktu widzenia odbiorcy informacja, że test został przeprowadzony z poprawką na nierówność wariancji, lub że wynik powinien być interpretowany ostrożnie z powodu małej próby, bywa ważniejsza niż sama wartość p.

Pytanie kontrolne: co daje sama wartość p

Sama wartość p odpowiada na pytanie: jak prawdopodobny byłby uzyskany lub jeszcze bardziej skrajny wynik, gdyby w populacji nie było efektu (różnicy, zależności). Nie mówi natomiast:

  • jak duża jest różnica średnich,
  • jak bardzo ten efekt jest niepewny (jak szeroki jest przedział ufności),
  • czy efekt ma znaczenie praktyczne lub biznesowe.

Z punktu widzenia standardu APA prawidłowe raportowanie testu t wymaga, by p pojawiło się w kontekście: t, df, CI i Cohen’s d. Dopiero taki zestaw pozwala oddzielić informację o „istnieniu efektu” od informacji o jego „wielkości i znaczeniu”.

Standard APA w pigułce: zasady ogólne zapisu wyników

Elementy zapisu testu t: kursywa, nawiasy, format t(df)

Raportowanie testu t w APA ma kilka prostych reguł formatowania, które szybko stają się odruchowe. Kluczowe zasady:

  • Symbole statystyczne takie jak t, p, M (mean), SD, d zapisuje się kursywą.
  • Wartości liczbowe zapisuje się standardową czcionką, bez kursywy.
  • Format dla testu t: t(df) = wartość, np. t(58) = 2.45.
  • Stopnie swobody (df) są podawane w nawiasie bez dodatkowego opisu: t(34), nie t(df = 34).

W raportach polskojęzycznych praktykuje się często mieszany zapis językowy: opis słowny po polsku, ale symbole i skróty w standardzie APA, np. t, p, M, SD, d, CI. Taki styl jest akceptowany zarówno w pracach naukowych, jak i w raportach biznesowych, które chcą pozostać spójne z międzynarodowym standardem.

Zaokrąglanie wartości: t, p, d, średnie, odchylenia

APA zaleca spójne zasady zaokrąglania, aby uniknąć „szumu” w postaci niepotrzebnych miejsc po przecinku. Najczęściej stosowane zasady w raportowaniu testu t:

  • Statystyka t – do dwóch miejsc po przecinku, np. t(38) = 2.14.
  • Wielkość efektu Cohen’s d – do dwóch miejsc po przecinku, np. d = 0.47.
  • Średnie i odchylenia standardowe – jedno lub dwa miejsca po przecinku (spójnie w całym raporcie), np. M = 4.30, SD = 1.12.
  • Przedziały ufności – zgodnie z dokładnością średnich, zwykle dwa miejsca po przecinku, np. 95% CI [0.12, 0.48].
  • Wartości p – do trzech miejsc po przecinku, z dodatkowymi regułami dla bardzo małych wartości.

Dla p-value obowiązuje dodatkowa zasada: jeśli p < .001, zapisuje się p < .001, a nie p = .000. Pojawiające się w outputach programów „p = .000” to efekt ograniczenia precyzji i nie powinno być przenoszone do raportu.

Zapis p-value: p < .001, p = .032 i brak zera przed przecinkiem

Raportowanie p-value według APA ma kilka charakterystycznych cech stylistycznych:

  • Brak zera przed przecinkiem – zapis p = .032, nie p = 0.032.
  • Trzy miejsca po przecinku – np. p = .048. Wyjątek: gdy p < .001, podaje się p < .001.
  • Brak zaokrąglania do .05 – jeśli p = .051, zapisuje się p = .051, a nie „p < .05”.
  • Stosowanie znaku równości dla większości wartości: p = .217, p = .032, oraz znaku mniejszości tylko dla skrajnie małych wartości: p < .001.

Ten sposób zapisu pozwala uniknąć niejasności w okolicach progu istotności. Np. p = .049 i p = .051 mogą prowadzić do bardzo podobnych wniosków praktycznych, a nadmierne eksponowanie liniowych progów zaciera ten fakt. W stylu APA odczytanie dokładnej wartości p jest ważniejsze niż prosta etykieta „istotne/nieistotne”.

APA 6 vs APA 7: różnice istotne dla raportowania testu t

Między 6. a 7. wydaniem APA zaszły pewne zmiany, ale w kontekście raportowania testu t większość zasad pozostała stabilna. Dla praktyki najważniejsze są dwie kwestie:

  • Silniejszy nacisk na wielkość efektu – APA 7 wyraźnie podkreśla, że oprócz wartości p trzeba raportować miary wielkości efektu (np. Cohen’s d) oraz przedziały ufności.
  • Utrzymanie schematu t(df) = … – format zapisu samego testu t i p-value nie uległ zasadniczej zmianie.
Laptop z wykresami statystycznymi w jasnym biurze
Źródło: Pexels | Autor: Lukas Blazek

Jak raportować wynik testu t: struktura zdania w tekście

Typowy schemat zdania opisującego wynik testu t

W stylu APA wynik testu t zwykle włącza się do jednego, zwartego zdania, które łączy opis słowny z zapisem statystycznym w nawiasie. Schemat jest dość stały:

  • najpierw krótka informacja o efekcie (czy grupy się różniły, w jakim kierunku),
  • następnie konkretne liczby opisowe (średnie, SD),
  • na końcu wynik testu: t(df) = …, p = …, 95% CI […], d = ….

Przykład schematu po polsku, z zachowaniem APA:

Średnia satysfakcja była wyższa w grupie po interwencji niż w grupie kontrolnej (Minterwencja = 4.30, SD = 0.90; Mkontrola = 3.80, SD = 0.95), t(78) = 2.10, p = .039, 95% CI [0.03, 0.96], d = 0.47.

Najpierw pojawia się zatem interpretacja („była wyższa”), potem liczby opisowe, a dopiero na końcu test z pełnym pakietem: t, df, p, CI, d.

Kiedy wynik wpleść w tekst, a kiedy dać tabelę

Jeśli analiz jest niewiele (np. jeden główny test t), pełny wynik można podać w tekście. Gdy testów jest wiele (np. kilka porównań par warunków), zwykle:

  • w tekście podaje się 1–2 kluczowe wyniki z pełnym zapisem,
  • pozostałe wyniki lądują w tabeli, a tekst odsyła do niej krótkim komentarzem.

Przykładowe zdanie z odwołaniem do tabeli:

Wyniki testów t dla kolejnych wskaźników zaangażowania pokazano w Tabeli 2. Istotną różnicę odnotowano jedynie w satysfakcji z przełożonego, t(112) = 2.34, p = .021, 95% CI [0.05, 0.58], d = 0.44.

Formułowanie wniosku: unikanie sformułowania „brak różnic”

Przy braku istotności statystycznej sprawa jest delikatniejsza. Wynik p > .05 nie dowodzi, że różnic „nie ma”; pokazuje jedynie, że w tych danych nie wykryto efektu na przyjętym poziomie.

Zamiast kategorycznego „nie różniły się”, bezpieczniej użyć sformułowań typu:

  • „nie stwierdzono istotnych statystycznie różnic”,
  • „różnica nie osiągnęła poziomu istotności statystycznej”.

Przykład:

Nie stwierdzono istotnej statystycznie różnicy w poziomie stresu między grupą A i B (MA = 21.4, SD = 5.2; MB = 20.7, SD = 5.0), t(94) = 0.63, p = .532, 95% CI [-1.51, 2.85], d = 0.13.

Pytanie kontrolne: co wiemy z takiego zapisu? Znamy kierunek i oszacowanie różnicy, wiemy, że przedział obejmuje zero i że wielkość efektu jest niewielka. Sam brak „gwiazdki” przy p byłby znacznie mniej informacyjny.

Raportowanie t, df i p dla różnych typów testu t

Test t dla jednej próby: format i przykład zapisu

W teście jednej próby porównuje się średnią z ustaloną wartością (np. normą, celem biznesowym). Struktura raportu jest podobna, ale trzeba jasno wskazać wartość odniesienia.

Elementy, które muszą się pojawić:

  • średnia i SD w próbie,
  • wartość teoretyczna (benchmark),
  • t(df), p, przedział ufności dla różnicy (średnia – wartość teoretyczna),
  • wielkość efektu, np. d dla jednej próby.

Przykładowe zdanie:

Średni wynik satysfakcji klientów (M = 4.10, SD = 0.85) był istotnie wyższy od przyjętego progu 3.5 punktu, t(49) = 4.72, p < .001, 95% CI [0.35, 0.85], d = 0.67.

Stopnie swobody w tym teście to n − 1. W tle, w sekcji metod, można krótko zaznaczyć, dlaczego wybrano akurat taką wartość odniesienia.

Test t dla prób zależnych (paired): podkreślenie charakteru danych

W próbach zależnych analizy dotyczą różnic pomiędzy pomiarami w tej samej grupie (np. przed–po). W raporcie dobrze jest to nazwać wprost: „porównanie wyniku przed i po interwencji”, „porównanie warunków A i B u tych samych osób”.

Wynik można podać z perspektywy średniej różnicy lub dwóch osobnych średnich. Oba style są akceptowane:

  • Perspektywa dwóch średnich: Mprzed i Mpo plus test t.
  • Perspektywa różnicy: średnia zmiana (np. Mróżnicy) oraz test t na tej różnicy.

Przykład pierwszego wariantu:

Wynik testu kompetencji wzrósł po szkoleniu (Mprzed = 62.3, SD = 8.4; Mpo = 68.1, SD = 7.9), t(31) = 3.56, p = .001, 95% CI [2.38, 9.14], d = 0.63.

Przykład drugiego wariantu:

Średni wzrost wyniku po szkoleniu wyniósł 5.8 punktu (SD = 6.1), co było efektem istotnym statystycznie, t(31) = 3.56, p = .001, 95% CI [2.38, 9.14], d = 0.63.

W obu przypadkach stopnie swobody to n − 1, gdzie n oznacza liczbę par obserwacji.

Test t dla prób niezależnych: wersja klasyczna i z poprawką Welcha

Dla prób niezależnych, poza liczbą osób w grupach, kluczowe jest wskazanie, czy zastosowano klasyczny test z założeniem równości wariancji, czy wersję z poprawką Welcha (gdy wariancje lub liczebności mocno się różnią).

W raporcie nie trzeba rozwijać całej procedury; wystarczy zasygnalizowanie wersji testu. Przykład dla wariantu klasycznego:

Osoby w grupie eksperymentalnej uzyskały wyższą średnią wydajność (M = 15.2, SD = 3.4) niż osoby w grupie kontrolnej (M = 13.6, SD = 3.9), t(98) = 2.21, p = .029, 95% CI [0.16, 3.09], d = 0.44.

Dla testu Welcha df są zazwyczaj niecałkowite. Zgodnie z APA można je zaokrąglić do liczby całkowitej lub podać z jednym miejscem po przecinku. Przykład z jawnie wskazanym wariantem:

Zastosowano test t z poprawką Welcha ze względu na różne wariancje. Średni czas reakcji był krótszy w grupie z nowym interfejsem (M = 1.23 s, SD = 0.30) niż w grupie kontrolnej (M = 1.45 s, SD = 0.35), t(42.7) = -2.68, p = .010, 95% CI [-0.39, -0.06], d = 0.74.

Gdy wariant Welcha jest domyślnym ustawieniem w oprogramowaniu (np. część pakietów tak działa), informacja o nim może znaleźć się w opisie metody („do porównań zastosowano test t z poprawką Welcha”).

Raportowanie kierunku testu: jednostronny vs dwustronny

APA zakłada domyślnie testy dwustronne. Jeśli użyto testu jednostronnego, trzeba to wyraźnie zaznaczyć, ponieważ wpływa to na interpretację p. Typowa formuła:

Zgodnie z hipotezą kierunkową zastosowano jednostronny test t.

Przykład pełnego zapisu:

Średnia liczba błędów była niższa w grupie po szkoleniu (M = 2.4, SD = 1.3) niż w grupie kontrolnej (M = 3.1, SD = 1.5), jednostronny t(58) = -1.76, p = .041, 95% CI [-1.40, -0.01], d = 0.46.

Jeżeli stosuje się jednostronny test, warto upewnić się, że hipoteza kierunkowa została zapowiedziana wcześniej w opisie badania, a nie dopisania po obejrzeniu wyników.

Przedziały ufności (CI) dla różnicy średnich – jak i po co je podawać

Co oznacza przedział ufności w praktyce

Przedział ufności 95% dla różnicy średnich opisuje zakres wartości, z którymi wynik jest zgodny przy danym poziomie niepewności. Statystycznie rzecz biorąc, przy wielokrotnym powtarzaniu procedury 95% takich przedziałów zawierałoby prawdziwą różnicę w populacji.

dla odbiorcy liczą się dwa elementy:

  • czy przedział obejmuje zero (czyli brak różnicy),
  • jak szeroki jest przedział (czyli jak precyzyjne jest oszacowanie).

W przykładzie: 95% CI [0.03, 0.96] wiemy, że zgodne z danymi są zarówno bardzo małe, jak i umiarkowane różnice na korzyść jednej z grup, ale wartości ujemne (korzyść drugiej grupy) są mało prawdopodobne.

Standard zapisu CI w stylu APA

APA rekomenduje zapis typu: 95% CI [dolna, górna], bez równości przed nawiasem. Przedział można umieścić bezpośrednio po p lub na końcu zestawu statystyk.

Przykłady akceptowalnych zapisów:

  • t(58) = 2.10, p = .039, 95% CI [0.03, 0.96], d = 0.47
  • 95% CI [0.03, 0.96], t(58) = 2.10, p = .039, d = 0.47

Ważna jest konsekwencja – w jednym raporcie warto trzymać jeden porządek elementów (np. zawsze t, p, CI, d).

Jak interpretować szerokość przedziału

Wąski przedział (np. [0.40, 0.60]) oznacza, że oszacowanie efektu jest dość precyzyjne; różne próby z tej samej populacji prawdopodobnie dałyby podobną różnicę. Szeroki przedział (np. [-0.10, 1.10]) sygnalizuje dużą niepewność.

Pytanie kontrolne: czego nie wiemy bez CI? Bez przedziału trudno ocenić, czy brak istotności wynika z rzeczywiście znikomego efektu, czy po prostu z dużej niepewności spowodowanej małą próbą. Przedział częściowo na to odpowiada.

Praktyczny komentarz, który można dodać w tekście (zwłaszcza w raportach biznesowych):

Choć średnia różnica była dodatnia, szeroki przedział ufności (95% CI [-0.05, 1.20]) wskazuje na dużą niepewność oszacowania i możliwą zgodność z zerową lub bardzo małą różnicą.

Przedziały ufności dla średnich vs dla różnicy

Niektóre programy raportują osobne przedziały ufności dla każdej średniej w grupach, inne od razu podają CI dla różnicy. W kontekście testu t kluczowy jest ten drugi – to on koresponduje bezpośrednio z hipotezą o równości średnich.

Możliwe są dwa style raportowania:

  • Przedział tylko dla różnicy: oszczędny i najbliższy pytaniu badawczemu.
  • Przedziały dla każdej średniej plus dla różnicy: przydatne, gdy ważne jest osobne oszacowanie poziomu w każdej grupie (np. normy kliniczne).

Jeśli w tekście brakuje miejsca, lepiej utrzymać CI dla różnicy, a CI dla średnich – ewentualnie w tabeli.

Wydruki wykresów statystycznych obok otwartego laptopa
Źródło: Pexels | Autor: Lukas Blazek

Cohen’s d dla testu t: obliczanie, warianty i interpretacja

Dlaczego Cohen’s d obok wartości p

p mówi, na ile dane są zgodne z hipotezą zerową, ale nie przekłada się wprost na „siłę” efektu. Niewielka różnica może być istotna przy dużej próbie, a umiarkowana różnica – nieistotna przy małej.

Cohen’s d standaryzuje różnicę średnich względem zmienności, dzięki czemu:

  • porównywanie efektów między badaniami staje się prostsze,
  • Podstawowy wzór na Cohen’s d w testach t

    Cohen’s d jest ilorazem różnicy średnich i miary zmienności. Ogólna idea:

    d = (dfrac{text{różnica średnich}}{text{odchylenie standardowe}})

    Konkretna postać wzoru zależy od typu testu:

  • jedna próba: d = (dfrac{M – mu_0}{SD})
  • próby niezależne: d = (dfrac{M_1 – M_2}{SD_{pooled}})
  • próby zależne: kilka konkurencyjnych definicji – d oparte na SD różnic, na wspólnym SD z pomiarów lub na SD z pierwszego pomiaru.

W praktyce raportowej kluczowe pytanie brzmi: jaki wariant d jest spójny z celem badania i jak go nazwać, by nie wprowadzać odbiorcy w błąd.

Współczynnik d w teście t dla jednej próby

W przypadku testu jednej próby logika jest najprostsza. Zmienność w próbie opisuje odchylenie standardowe w tej samej jednostce, w której mierzona jest zmienna.

Standardowy wzór:

d = (dfrac{M – mu_0}{SD})

gdzie M to średnia w próbie, (mu_0) – wartość teoretyczna (benchmark), a SD – odchylenie standardowe w próbie.

Co wiemy, gdy widzimy d w tym kontekście? Proporcję, o ile średni wynik odbiega od wartości odniesienia w jednostkach własnego rozproszenia wyników. d = 0.60 oznacza, że średnia jest o 0.6 SD wyżej niż punkt odniesienia – efekt typowo interpretowany jako umiarkowany.

W raporcie nie trzeba pokazywać wzoru, wystarczy konsekwentne oznaczenie, np. d lub doprecyzowanie w metodach: „Cohen’s d obliczono jako różnicę średniej w próbie i wartości teoretycznej, podzieloną przez SD w próbie”.

Cohen’s d dla prób niezależnych: klasyczne d i Hedges g

Dla dwóch niezależnych grup najczęściej stosuje się odchylenie standardowe łączone (pooled). Wzór:

d = (dfrac{M_1 – M_2}{SD_{pooled}})

gdzie:

SDpooled = (sqrt{dfrac{(n_1 – 1)SD_1^2 + (n_2 – 1)SD_2^2}{n_1 + n_2 – 2}})

Taka definicja zakłada w przybliżeniu równość wariancji w grupach (co jest tym samym założeniem, które stoi za klasycznym testem t). Gdy wariancje są podobne, d jest stabilnym i intuicyjnym wskaźnikiem wielkości efektu.

Przy małych próbach pojawia się jednak systematyczne zawyżanie d. Rozwiązaniem jest tzw. Hedges g – skorygowana wersja d dla niskich liczebności. Korekta sprowadza się do przemnożenia d przez współczynnik zależny od stopni swobody:

g = J · d, gdzie J ≈ 1 − (dfrac{3}{4df − 1})

W raportach APA coraz częściej spotyka się zapis: „Cohen’s d (z korektą Hedgesa)”. Jeśli program statystyczny automatycznie podaje g, można używać nadal symbolu d, o ile korekta jest opisana w sekcji metod.

Warianty d dla prób zależnych: dz, drm i dav

Dla prób zależnych (np. przed–po) kluczowe jest, względem jakiej zmienności standaryzujemy różnicę. W literaturze funkcjonuje kilka rozwiązań.

  • dz – różnica średnich podzielona przez odchylenie standardowe różnic (SDdiff); bezpośrednio odpowiada testowi t dla różnic:

    dz = (dfrac{M_{po} − M_{przed}}{SD_{różnic}})

    Jest ściśle związany z korelacją pomiędzy pomiarami; gdy korelacja jest wysoka, SDdiff maleje, a dz rośnie.

  • drm (repeated measures) – oparty na odchyleniu standardowym „wewnątrz osoby” (within-subject), które uwzględnia zarówno SD każdego pomiaru, jak i korelację między nimi. Jest mniej wrażliwy na arbitralny wybór konkretnego SD, ale trudniejszy do samodzielnego policzenia bez odpowiednich wzorów.
  • dav – różnica średnich dzielona przez średnie odchylenie standardowe z obu pomiarów:

    dav = (dfrac{M_{po} − M_{przed}}{(SD_{przed} + SD_{po})/2})

    To kompromis: nie używa SD różnic, więc mniej zależy od korelacji, ale wymaga dwóch SD i jest bardziej „ekologiczny”, gdy interpretujemy zmiany na tej samej skali.

Co jest najistotniejsze z perspektywy APA? Spójność i jawność. Jeżeli w analizach użyto dz, dobrze jest albo nazwać go w tekście (np. „Cohen’s d dla różnic”), albo w metodach opisać sposób obliczeń. W przeciwnym razie porównywanie efektów między badaniami może być obciążone ukrytymi różnicami definicji.

Jak powiązać d z wynikiem testu t

W wielu sytuacjach d można przeliczyć bezpośrednio z wartości t i liczebności, bez ręcznego wprowadzania średnich i odchyleń. To przydaje się zwłaszcza wtedy, gdy odtwarzamy efekt z publikacji lub zestawiamy wyniki metaanalizy.

Dla prób niezależnych (klasyczny test t):

d = t · (sqrt{dfrac{1}{n_1} + dfrac{1}{n_2}})

Dla prób zależnych (test t dla różnic, wariant dz):

dz = (dfrac{t}{sqrt{n}})

Dla jednej próby:

d = (dfrac{t}{sqrt{n}})

Formuły te zakładają zgodność użytego d z definicją testu t (np. dz przy t dla różnic). Gdy w literaturze podano tylko t i df, można tym sposobem oszacować d zadowalająco dokładnie na potrzeby raportu porównawczego lub metaanalizy.

Typowe progi interpretacyjne i ich ograniczenia

Najczęściej cytowane wartości graniczne za Cohenem:

  • d ≈ 0.20 – mały efekt,
  • d ≈ 0.50 – średni efekt,
  • d ≈ 0.80 – duży efekt.

To jednak tylko punkty odniesienia. W wielu dziedzinach (np. badania edukacyjne, psychologia zdrowia, badania UX) mniejsze efekty mogą mieć wyraźne znaczenie praktyczne, jeśli wiążą się z niskim kosztem interwencji lub dużą skalą wdrożenia.

Kluczowe pytania kontrolne przy interpretacji:

  • co wiemy? Jak duża jest różnica w jednostkach SD, a więc jak bardzo typowy uczestnik jednej grupy różni się od typowego uczestnika drugiej grupy.
  • czego nie wiemy? Jak rozkładają się wartości w praktyce (np. ilu uczestników „wygrywa” w porównaniu indywidualnym) i jakie są koszty/korzyści zastosowania badanej procedury.

Dla uzupełnienia można odnieść d do konkretnych punktów skali lub do istniejących standardów w danej dziedzinie, zamiast ograniczać się do etykiet „mały”, „średni”, „duży”.

Raportowanie d zgodnie z APA: format i precyzja

Styl APA preferuje dwie lub trzy cyfry po przecinku dla współczynnika d, spójnie z resztą statystyk. Symbol d zapisuje się kursywą, podobnie jak t, p czy M.

Przykładowy zapis:

t(78) = 2.34, p = .022, 95% CI [0.08, 1.05], d = 0.53

Gdy w badaniu stosuje się więcej niż jeden wariant d (np. dla pomiarów powtarzanych i dla porównań między grupami), przydają się doprecyzowania w tekście lub przypisy dolne w tabelach, np. „d – Cohen’s d obliczony na podstawie SD różnic (dz)”.

Łączenie d z przedziałami ufności

W standardzie APA zachęca się, by obok punktowego oszacowania wielkości efektu podawać również jego przedział ufności. Dotyczy to również Cohen’s d. Choć nie wszystkie programy raportują CI dla d automatycznie, większość pakietów statystycznych i bibliotek w R/Python ma do tego gotowe funkcje.

Typowy zapis:

d = 0.47, 95% CI [0.08, 0.86]

Co daje taka informacja? Widać zarówno orientacyjną wielkość efektu (0.47, czyli efekt średni), jak i zakres zgodnych z danymi wartości – od niewielkiego do stosunkowo wyraźnego. W połączeniu z CI dla różnicy średnich odbiorca zyskuje pełniejszy obraz: nie tylko „czy jest efekt”, ale też „jak silny może on być w realistycznym przedziale niepewności”.

Jak spójnie łączyć t, p, CI i d w jednym zdaniu

Układ statystyk powinien być czytelny i powtarzalny. W raportach naukowych dominują dwie strategie.

1. Najpierw opis słowny, potem pakiet statystyk

Uczestnicy w grupie interwencyjnej uzyskali wyższy wynik odporności psychicznej niż w grupie kontrolnej, t(88) = 2.45, p = .016, 95% CI [0.12, 1.21], d = 0.52.

Zdanie zaczyna się od interpretacji (co się stało i w jakim kierunku), a liczby pełnią rolę uzasadnienia. To dobry układ dla czytelnika niezajmującego się statystyką na co dzień.

2. Najpierw dane opisowe, potem inferencyjne

Średnie wyniki w zakresie wypalenia zawodowego były niższe w grupie po programie wsparcia (M = 2.8, SD = 0.6) niż w grupie kontrolnej (M = 3.2, SD = 0.7), t(102) = -3.10, p = .002, 95% CI [-0.64, -0.15], d = 0.61.

Ten wariant najpierw opisuje poziomy w każdej grupie (fakt), a następnie podaje wynik testu (ocena zgodności z hipotezą zerową) i wielkość efektu (skala różnicy).

Spójność między tekstem a tabelami i wykresami

Jeżeli w raporcie oprócz krótkiego opisu w tekście pojawiają się tabele lub wykresy, które również zawierają informacje o testach t i wielkości efektu, kluczowa jest konsekwencja w wyborze metryk i ich formatu.

  • Te same wartości d i CI powinny być raportowane w tekście i w tabeli. Jeżeli wartości różnią się w trzecim miejscu po przecinku, nie jest to poważny problem, ale w podstawowych raportach sensowne jest zaokrąglanie według jednego schematu.
  • Gdy w tabeli pojawia się wiele testów, pakiet statystyk może zostać skrócony (np. t, p, d), a przedziały ufności zostają w tekście dla kluczowych porównań lub w osobnej tabeli zbiorczej.
  • Opis osi i słupków na wykresach powinien zgadzać się z tym, jak zdefiniowano efekt w teście t (np. „różnica: po minus przed” vs „przed minus po”). Ta sama konwencja kierunku powinna być użyta przy interpretacji znaku d.

Najczęstsze błędy w raportowaniu t, p, CI i d

Przegląd typowych potknięć pomaga uporządkować procedurę raportowania.

  • Brak informacji o typie testu – czy porównanie dotyczyło prób niezależnych, czy zależnych; czy zastosowano wersję Welcha. Bez tego czytelnik nie wie, jaka dokładnie hipoteza o wariancjach stoi za wynikiem.
  • Nieścisły zapis p – m.in. „p = .000” zamiast „p < .001” lub niekonsekwentne liczby miejsc po przecinku.
  • Przedziały ufności tylko dla średnich, bez CI dla różnicy – utrudnia to bezpośrednią ocenę hipotezy porównawczej.
  • Co warto zapamiętać

  • Spójne raportowanie testu t w standardzie APA tworzy wspólny język statystyki – ułatwia szybkie zrozumienie, co porównano, jak silny jest efekt i z jaką niepewnością został oszacowany, niezależnie od tego, czy kontekst jest naukowy czy biznesowy.
  • Sam wynik p (np. p < .05) odpowiada tylko na pytanie, czy efekt jest statystycznie istotny; bez informacji o wielkości efektu i przedziałach ufności nie wiemy, jak ważna jest różnica w praktyce ani jak stabilne mogą być podobne wyniki w przyszłości.
  • Pełny zapis testu t zgodny z APA powinien zawierać co najmniej: wartość t, stopnie swobody (df), wartość p, przedział ufności dla różnicy średnich (zwykle 95% CI) oraz miarę wielkości efektu (np. Cohen’s d), dzięki czemu odbiorca może ocenić zarówno istotność statystyczną, jak i praktyczną.
  • Nieprzetworzony „surowy” output z programów (SPSS, R, JASP) jest niewystarczający: przeładowany detalami technicznymi, a jednocześnie pozbawiony kluczowych informacji (np. Cohen’s d, jasny opis warunków), przez co utrudnia replikację badania i rzetelną ocenę wniosków.
  • Jasny opis typu „Średnia satysfakcja była wyższa w grupie A niż w grupie B, t(df)=…, p=…, 95% CI […, …], d=…” zamienia dane w informację – menedżer, badacz czy analityk od razu widzi sedno wyniku bez przeglądania wielu tabel.
  • Opracowano na podstawie

  • Publication Manual of the American Psychological Association (7th ed.). American Psychological Association (2020) – Oficjalne wytyczne APA dot. raportowania statystyk, w tym testu t
  • Reporting Statistics in Psychology: APA Style. American Psychological Association – Instrukcje APA jak zapisywać t, df, p, CI i wielkości efektu
  • Statistical Power Analysis for the Behavioral Sciences (2nd ed.). Lawrence Erlbaum Associates (1988) – Klasyczne omówienie Cohen’s d i interpretacji wielkości efektu
  • APA Style Guidelines for Reporting Statistics. American Psychological Association Style and Grammar Guidelines – Przykłady zapisu t(df)=…, p=…, CI, d w stylu APA
  • Discovering Statistics Using IBM SPSS Statistics. SAGE Publications (2017) – Praktyczne raportowanie testów t, CI i d w badaniach społecznych
  • Introduction to the Practice of Statistics. W. H. Freeman (2018) – Podstawy testu t, założenia, interpretacja p-value i CI
  • Statistical Methods for Psychology. Cengage Learning (2013) – Szczegółowe omówienie testów t, wariantów i założeń parametrycznych
  • Guidelines for Reporting Statistics in Journals Published by the American Physiological Society. American Physiological Society (2012) – Zalecenia raportowania t, p, CI i efektu w artykułach naukowych