Po co w ogóle liczyć moc testu i wielkość próby?
Różnica między „czy wyjdzie istotnie” a „czy wynik ma sens praktyczny”
W planowaniu badania ilościowego kluczowe pytanie rzadko brzmi tylko: „czy wynik będzie istotny statystycznie?”. Znacznie ważniejsze jest: czy efekt, który chcesz wykryć, ma znaczenie praktyczne oraz czy Twoje narzędzia (w tym liczebność próby) pozwolą taki efekt w ogóle zauważyć.
Istotność statystyczna (p < 0,05) zależy od trzech głównych elementów: wielkości efektu, liczebności próby oraz poziomu istotności alfa. Przy bardzo dużych próbach nawet minimalne, mało istotne praktycznie różnice mogą okazać się „istotne statystycznie”. Przy małych próbach bywa odwrotnie – efekt może być ciekawy i użyteczny, ale test jest zbyt mało czuły, by go wykryć.
Analiza mocy testu w SPSS pozwala zaplanować badanie tak, aby:
- mieć sensowną szansę wykrycia efektu o interesującej wielkości,
- nie marnować czasu i środków na niepotrzebnie duże próby,
- świadomie dobrać poziom alfa i moc w zależności od celu badania.
Inaczej mówiąc – nie chodzi o to, by „p wyszło < 0,05 za wszelką cenę”, tylko by zaplanować takie N, które odpowiada na realne pytanie badawcze i ograniczenia projektu.
Konsekwencje zbyt małej i zbyt dużej próby
Zbyt mała próba oznacza niską moc testu (power), czyli wysokie ryzyko błędu II rodzaju (nieodrzucenia fałszywej hipotezy zerowej). Przekłada się to na sytuacje, w których:
- nie wykrywasz realnych różnic między grupami,
- wniosek „brak istotnych różnic” jest tak naprawdę „nie było wystarczająco danych, by to ocenić”,
- praca magisterska, raport lub projekt naukowy traci na wiarygodności, bo każdą nieistotność można zbyć stwierdzeniem, że „może próba była za mała”.
Z kolei zbyt duża próba to inny zestaw problemów:
- marnujesz zasoby (czas, budżet, energię badanych),
- ryzykujesz uzyskanie „istotnych” efektów, które są statystycznie wykrywalne, ale praktycznie znikome,
- w projektach komercyjnych płacisz za niepotrzebnie rozbudowane badania.
W badaniach studenckich problemem jest zwykle zbyt mała próba, bo trudno zrekrutować uczestników. W projektach komercyjnych – często przeciwnie: zbiera się dane „na wszelki wypadek”, bez przemyślanej analizy mocy testu.
Moc, koszt badania i czas realizacji – jak to się łączy
Planowanie wielkości próby to zawsze kompromis. Wyższa moc testu (np. 0,90 zamiast 0,80) oznacza wyraźnie większe wymagane N. Skutki są proste:
- więcej dni rekrutacji uczestników,
- wyższe koszty (wynagrodzenia, licencje, dostęp do paneli badawczych),
- duża ilość danych do obróbki i analiz.
Z drugiej strony niższa moc (np. 0,70) może być akceptowalna w projektach pilotażowych, gdy celem jest eksploracja, a nie ostateczne potwierdzenie hipotez. Tam, gdzie decyzje biznesowe lub medyczne opierają się na wynikach badania, moc 0,80 to minimum, a często wymaga się 0,90.
Badania eksploracyjne a potwierdzające – różne standardy planowania mocy
Warto odróżnić dwa typy badań:
- eksploracyjne – szukanie związków, tworzenie hipotez, pilotaże,
- potwierdzające – testowanie konkretnych hipotez, np. w eksperymentach, RCT, badaniach klinicznych.
W badaniach eksploracyjnych analiza mocy testu bywa bardziej elastyczna. Można przyjąć nieco niższą moc lub mniejszą precyzję oszacowania efektu, bo wnioski służą głównie do zaplanowania właściwego, większego badania. W badaniach potwierdzających zbyt niska moc jest poważnym problemem metodologicznym – wyniki trudno obronić przed recenzentami czy klientem.
SPSS (szczególnie z dodatkiem SamplePower) pozwala dopasować wymaganą liczebność próby do rodzaju projektu. Pierwszy krok to jasne określenie, czy planujesz eksplorację, czy chcesz postawić mocny, potwierdzający wniosek.
Podstawowe pojęcia: moc, alfa, beta, wielkość efektu
Poziom istotności alfa i błąd I rodzaju
Poziom istotności alfa (α) to maksymalne akceptowane prawdopodobieństwo popełnienia błędu I rodzaju, czyli odrzucenia prawdziwej hipotezy zerowej. Standardowo przyjmuje się α = 0,05, ale w niektórych dziedzinach używa się 0,01 lub nawet 0,001.
W praktyce „p < 0,05” oznacza: jeśli hipoteza zerowa jest w rzeczywistości prawdziwa, to uzyskanie tak ekstremalnego wyniku lub bardziej ekstremalnego zdarza się z prawdopodobieństwem mniejszym niż 5%. To nie znaczy, że prawdopodobieństwo, iż hipoteza zerowa jest prawdziwa, wynosi 5% – to częste nieporozumienie.
W kontekście planowania próby, niższe alfa (np. 0,01 zamiast 0,05) wymaga większego N, aby utrzymać tę samą moc testu. Dlatego w SPSS/SamplePower trzeba konsekwentnie ustawiać taki poziom alfa, jaki zamieszczasz w planie badania i opisie metod.
Błąd II rodzaju (beta) i moc testu (1 – beta)
Błąd II rodzaju, oznaczany jako beta (β), to sytuacja, w której nie odrzucasz hipotezy zerowej, mimo że jest ona fałszywa. Mówiąc prościej – efekt istnieje, ale go „nie widzisz”, bo test jest za słaby.
Moc testu to 1 − β, czyli prawdopodobieństwo poprawnego odrzucenia fałszywej hipotezy zerowej. Standardem jest moc 0,80 (β = 0,20), co oznacza 80% szans wykrycia efektu o założonej wielkości, przy danym N i alfa. W bardziej wymagających dziedzinach oczekuje się mocy 0,90 lub wyższej.
W SPSS (lub w dodatku SamplePower) można ustawić:
- czy chcesz oszacować wymaganą liczebność próby dla zadanej mocy,
- czy interesuje Cię moc testu przy już danej próbie.
W obu przypadkach kluczowe jest określenie przewidywanej wielkości efektu – bez tego wyniki analizy mocy będą niewiele warte.
Wielkość efektu: Cohen d, eta-kwadrat, r
Istotność p mówi, czy efekt można odróżnić od zera przy danym N. Wielkość efektu mówi, jak duży jest ten efekt w praktyce. Dla różnych testów stosuje się inne miary:
- Cohen d – różnica między dwiema średnimi, wyrażona w jednostkach odchylenia standardowego (testy t),
- eta-kwadrat (η²) lub częściowa eta-kwadrat – dla ANOVA,
- r (współczynnik korelacji) – dla związków między zmiennymi,
- f (Cohen f) – używany w analizach mocy dla ANOVA.
Przykładowe „standardowe” interpretacje (wg Cohena, bardzo ogólnie):
- d ≈ 0,20 – efekt mały,
- d ≈ 0,50 – efekt średni,
- d ≈ 0,80 – efekt duży.
SPSS zwykle raportuje wielkości efektu po wykonaniu testu (np. eta-kwadrat w ANOVA). Do analizy mocy przed badaniem trzeba je jednak oszacować z:
- wcześniejszych badań (metaanalizy, literatura),
- pilotażu (mała, wstępna próba),
- założeń praktycznych – jak duża różnica jest realnie ważna (np. różnica 5 punktów na skali vs 1 punkt).
Jak alfa, beta, wielkość efektu i liczebność próby są powiązane
Te cztery elementy są ściśle powiązane. Można je porównać do czterech pokręteł w jednym urządzeniu – kręcenie jednym zmusza do korekty pozostałych, jeśli chcesz zachować jakość.
- większe N → wyższa moc (przy stałym alfa i efekcie),
- większy efekt → wyższa moc przy tym samym N,
- niższe alfa (np. 0,01 zamiast 0,05) → niższa moc przy stałym N,
- wyższa wymagana moc (np. 0,90 zamiast 0,80) → wymaga większego N przy tych samych pozostałych parametrach.
Analiza mocy testu w SPSS polega na ustawieniu trzech z tych parametrów i obliczeniu czwartego (np. ustawiasz alfa, moc i efekt, a SPSS wylicza wymaganą liczebność próby). Świadome operowanie tymi „pokrętłami” odróżnia dobrze zaprojektowane badanie od losowego zbierania danych.
Jak SPSS podchodzi do analizy mocy – możliwości i ograniczenia
SPSS bazowy a dodatek SamplePower
Podstawowa instalacja IBM SPSS Statistics zawiera gotowe testy (t, ANOVA, korelacje, regresję), ale nie oferuje pełnej, interaktywnej analizy mocy testu tak wygodnej jak specjalne narzędzia. W standardowym SPSS można:
- po wykonaniu testu wyliczyć niektóre miary efektu,
- czasem oszacować moc post-hoc (w wybranych procedurach),
- ręcznie korzystać z formuł i wzorów w połączeniu z wynikami z SPSS.
IBM oferuje jednak osobny produkt – SPSS SamplePower, zaprojektowany właśnie do planowania badań i analizy mocy. To osobna aplikacja (nie tylko dodatek), która integruje się koncepcyjnie z SPSS, ale działa jako niezależny program.
W SamplePower można m.in.:
- wybierać typ testu (t, ANOVA, korelacje, regresja, proporcje, chi-kwadrat),
- ustawiać alfa, moc, wielkość efektu, liczebności grup,
- rysować wykresy zależności mocy od N,
- obliczać zarówno wymagane N, jak i moc przy zadanym N.
Kiedy wystarczy „ręczne” oszacowanie mocy na podstawie wyników SPSS
Jeśli masz tylko podstawową wersję SPSS, bez SamplePower, nie oznacza to, że jesteś całkowicie odcięty od analizy mocy testu. Istnieją dwa główne scenariusze:
- analiza post-hoc – badanie jest już wykonane, masz wyniki testów (np. t, ANOVA) i chcesz ocenić moc uzyskaną w praktyce,
- planowanie kolejnego badania na podstawie wyników pierwszego (np. pilotażu).
W takim przypadku możesz:
- Wyciągnąć z SPSS dane:
- liczebność próby (N),
- wielkość efektu (np. Cohen d, eta-kwadrat, r) – czasem trzeba je obliczyć z wyników,
- zastosowany poziom alfa.
- Wprowadzić je do zewnętrznego narzędzia (np. G*Power) i obliczyć moc post-hoc lub dobrą wielkość próby dla kolejnego badania.
To rozwiązanie jest mniej wygodne niż korzystanie z SamplePower, ale dla wielu prac magisterskich i doktorskich w zupełności wystarczy. Sam SPSS pełni wtedy rolę „dostawcy parametrów”, a właściwa analiza mocy odbywa się poza nim.
Porównanie z G*Power i Excelem
G*Power to darmowy program do analizy mocy testu, popularny szczególnie w środowisku akademickim. W zestawieniu ze SPSS/SamplePower wygląda to mniej więcej tak:
| Narzędzie | Zakres testów | Łatwość obsługi | Koszt |
|---|---|---|---|
| SPSS (podstawowy) | Testy statystyczne, ograniczone wsparcie mocy | Średnia | Wysoki (licencja) |
| SPSS SamplePower | Szeroki zakres, dedykowana analiza mocy | Wysoka (interaktywne okna) | Wysoki (oddzielny produkt) |
| G*Power | Wiele testów, w tym t, ANOVA, korelacje, regresja | Średnia (interfejs mniej „biznesowy”) | Bezpłatny |
| Excel (z formułami / dodatkami) | Ręczne obliczenia lub gotowe szablony | Niska–średnia (wymaga znajomości wzorów) | Zależny od licencji Office |
Przygotowanie do analizy mocy: co trzeba ustalić przed otwarciem SPSS
Precyzyjne pytanie badawcze zamiast „zobaczymy, co wyjdzie”
Analiza mocy testu zaczyna się na poziomie pytania badawczego. Od niego zależy wybór testu, a więc i sposób liczenia wielkości próby. Inaczej modeluje się sytuację:
- porównania dwóch średnich (np. grupa kontrolna vs eksperymentalna),
- porównania wielu grup (ANOVA jednoczynnikowa lub wieloczynnikowa),
- badania związku między zmiennymi (korelacja, regresja),
- analizy proporcji / częstości (testy chi-kwadrat, porównanie proporcji).
Im jaśniej zdefiniowany jest główny kontrast (np. „średnia w grupie A ma być wyższa niż w B o co najmniej X jednostek”), tym łatwiej przełożyć go na parametry w SamplePower czy innym narzędziu.
Wybór kierunku testu: jednostronny vs dwustronny
Ten sam efekt i to samo N dadzą inną moc w zależności od tego, czy stosujesz test jednostronny czy dwustronny. Porównanie jest dość proste:
- test dwustronny – używany najczęściej; sprawdza, czy średnia różni się od zera (w górę lub w dół); bardziej konserwatywny, wymaga zwykle większego N,
- test jednostronny – bada tylko jeden kierunek (np. „po interwencji poprawa będzie większa, nie interesuje mnie pogorszenie”); przy tym samym N ma większą moc, ale jest znacznie trudniejszy do obrony w pracy naukowej, jeśli nie ma bardzo mocnego uzasadnienia teoretycznego.
W SamplePower opcja „one-sided” / „two-sided” jest zawsze jednym z pierwszych ustawień okna dialogowego. Zmiana z two-sided na one-sided często podnosi moc o kilka–kilkanaście punktów procentowych przy tym samym N, ale recenzenci prac dyplomowych i artykułów zwracają szczególną uwagę na zasadność takiej decyzji.
Źródło założeń o wielkości efektu
Planowanie mocy bez sensownego założenia o wielkości efektu przypomina szacowanie budżetu imprezy „na oko”. Typowe źródła to:
- literatura – wyniki podobnych badań, metaanalizy, raportowane Cohen d, r, η²,
- pilotaż – mała próba przeprowadzona w zbliżonych warunkach,
- standardy dziedzinowe – np. „interwencja musi poprawić wynik o X punktów, żeby miała sens praktyczny”.
Jeśli literatura pokazuje rozrzut efektów (np. od małych do dużych), można policzyć analizę mocy dla dwóch–trzech scenariuszy: efekt minimalny, realistyczny i optymistyczny. W SamplePower łatwo to zwizualizować, rysując wykres mocy w funkcji N dla kilku wartości d lub f.
Założenia dotyczące rozkładów i wariancji
Większość klasycznych procedur (t, ANOVA, regresja liniowa) opiera się na założeniu:
- przybliżonej normalności rozkładów (lub reszt),
- homogeniczności wariancji między grupami,
- braku silnych odstających obserwacji.
W analizie mocy zakłada się zwykle, że te warunki są spełnione. Jeśli w badanej populacji wyniki są mocno skośne lub heterogeniczność wariancji jest spodziewana, rzeczywista moc będzie niższa niż wynikałoby to z modelu idealnego. Wtedy korzystniejsze bywa planowanie nieco większej liczebności lub sięgnięcie po testy bardziej odporne na naruszenia założeń.

Analiza mocy dla testu t-Studenta w SPSS SamplePower krok po kroku
Wybór typu testu t i scenariusza
SamplePower rozróżnia kilka wariantów testu t, które przekładają się na różne wzory na moc i wielkość próby:
- one-sample t test – porównanie średniej z wartością teoretyczną (np. próg normy),
- independent-samples t test – porównanie dwóch niezależnych grup (np. eksperymentalna vs kontrolna),
- paired-samples t test – pomiar powtarzany (przed–po u tych samych osób).
Te trzy sytuacje mają inne parametry wejściowe. Np. w teście par zależnych trzeba określić nie tylko wielkość efektu, lecz także korelację między pomiarem przed i po, bo wpływa ona na efektywne N i moc.
Konfiguracja analizy mocy dla dwóch niezależnych grup
Najczęstszy scenariusz w badaniach eksperymentalnych i quasi-eksperymentalnych to porównanie dwóch grup. W SamplePower wygląda to zwykle tak:
- W menu wyboru typu analizy wskazujesz Means > Two independent means (t test).
- W zakładce parametrów definiujesz:
- rodzaj testu: jednostronny czy dwustronny,
- poziom alfa (np. 0,05),
- wielkość efektu (np. Cohen d),
- proporcje wielkości grup (np. 1:1 czy 2:1),
- czy chcesz obliczyć wymaganą liczebność próby dla zadanej mocy, czy moc dla już zadanych N.
Przykład praktyczny: planowane jest badanie dwóch grup (trening vs brak treningu) z oczekiwanym efektem d ≈ 0,5, alfa = 0,05, moc 0,80, grupy równej wielkości. SamplePower po wprowadzeniu tych parametrów poda wymaganą liczbę osób w każdej z grup oraz całkowite N.
Wariant: t test dla prób zależnych i jego konsekwencje dla mocy
W pomiarach powtarzanych (przed–po) analiza mocy działa nieco inaczej. Kluczową rolę odgrywa korelacja pomiędzy dwoma pomiarami u tej samej osoby. Im wyższa:
- tym niższe jest zróżnicowanie różnic (post – pre),
- tym wyższa jest moc przy tej samej liczebności próby.
W SamplePower przy wyborze paired t test trzeba dodatkowo określić:
- szacowaną korelację między pomiarami (np. r = 0,5),
- wielkość efektu w jednostkach d (dla różnic),
- liczbę par (czyli osób z kompletem danych).
Dla tego samego oczekiwanego d analizę mocy dla prób zależnych możesz potraktować jak „bonus” względem wersji z grupami niezależnymi. Często okazuje się, że wystarczy mniejsze N, żeby uzyskać tę samą moc – o ile korelacja pomiędzy powtarzanymi pomiarami jest choćby umiarkowana.
Sprawdzanie, jak moc zmienia się wraz z N
Jednym z mocnych punktów SamplePower są wykresy: można zobaczyć, jak moc testu t rośnie wraz z liczebnością próby. Pozwala to:
- określić „minimalne N” dla mocy 0,80,
- porównać scenariusze dla różnych wielkości efektu (np. d = 0,3 vs 0,5 vs 0,8),
- oszacować, jaki zapas mocy zyskasz przy nieznacznie większej próbie.
W praktyce, gdy budżet lub dostęp do badanych jest ograniczony, takie wykresy pomagają znaleźć kompromis między „idealnym” a „realistycznym” N – przy zachowaniu minimalnego akceptowanego poziomu mocy.
Analiza mocy dla ANOVA i testów wielogrupowych
Jednoczynnikowa ANOVA: od Cohen f do N na grupę
Dla ANOVA jednoczynnikowej kluczową miarą jest Cohen f, powiązany z eta-kwadrat (η²). SamplePower (i G*Power) korzystają z f częściej niż z η², ale między tymi miarami istnieje proste przejście:
f = √(η² / (1 − η²))
Procedura w SamplePower (Means > One-way ANOVA) zwykle wymaga:
- liczby poziomów czynnika (np. 3 grupy),
- wielkości efektu f,
- poziomu alfa i zakładanej mocy,
- informacji, czy grupy mają być równe, czy nierówne.
Jeśli wcześniejsze badania raportują η², można go przeliczyć na f i użyć w analizie mocy. Przy braku takich danych część badaczy zakłada „standardowy” f = 0,25 (efekt średni według Cohena), jednak lepiej, gdy jest to uzasadnione konkretnymi wynikami z literatury.
ANOVA z nierównymi grupami i konsekwencje dla mocy
W idealnym świecie grupy w ANOVA są tej samej wielkości, bo to maksymalizuje moc. W praktyce często powstają nierówne liczebności (np. jedna grupa jest trudniejsza do zrekrutowania). W SamplePower da się to odwzorować, ustawiając różne N dla poszczególnych poziomów czynnika.
Porównując dwie sytuacje:
- zrównoważony projekt (np. 3 × 30 osób),
- projekt z silnie nierównymi grupami (np. 20, 35, 45 osób),
łatwo zauważyć, że dla tej samej łącznej liczby badanych drugi wariant ma niższą moc. Powodem jest mniejsza precyzja szacowania średniej w najmniejszej grupie, która „osłabia” porównania. Jeśli zależy Ci głównie na konkretnym kontraście (np. grupa eksperymentalna vs kontrolna, a trzecia to „placebo”), można w analizie mocy skupić się na konkretnym porównaniu par, a nie tylko na ogólnym F.
ANOVA wieloczynnikowa: efekty główne i interakcje
W projektach z więcej niż jednym czynnikiem (np. 2 × 2, 3 × 2) trzeba zdecydować, który efekt jest kluczowy:
- efekty główne (np. wpływ czynnika A niezależnie od B),
- interakcje (np. wpływ A zależny od poziomu B).
Moc dla interakcji bywa niższa niż dla efektów głównych przy tym samym N, bo testowana jest różnica różnic. W SamplePower można modelować konkretne efekty w ramach ANOVA, ale często prościej jest:
- oszacować f na podstawie wcześniejszych badań interakcji,
- zaplanować większe N, niż wynikałoby to z analizy mocy dla samych efektów głównych.
Jeżeli badanie ma odpowiedzieć głównie na pytanie o interakcję (np. „czy skuteczność interwencji zależy od płci?”), analiza mocy powinna być skonfigurowana z myślą właśnie o niej, a nie tylko o „ogólnym efekcie ANOVA”.
Kontrasty planowane vs porównania post-hoc
Wielogrupowe projekty często kończą się licznymi porównaniami post-hoc (Tukey, Bonferroni itp.), które obniżają ogólną moc ze względu na korektę na wielokrotne testowanie. Dwa podejścia różnią się istotnie:
- kontrasty planowane – z góry określone porównania (np. grupa eksperymentalna vs średnia z dwóch grup kontrolnych); można dla nich zaplanować oddzielną analizę mocy, często z wyższą efektywną mocą,
- porównania post-hoc – eksploracyjne; moc pojedynczego testu bywa niższa, bo alfa ulega podziałowi między wiele porównań.
Jeśli w projekcie kluczowe są 1–2 konkretne różnice między grupami, lepiej potraktować je jako kontrasty a priori i pod kątem tych testów policzyć moc i N, nawet jeśli formalna analiza danych będzie obejmowała także klasyczną ANOVA.
Korelacje i regresja: szacowanie mocy dla związków między zmiennymi
Prosta korelacja: od r do wymaganej liczebności próby
Dla analizy korelacji Pearson r parametry w SamplePower są stosunkowo proste:
- oczekiwana wartość r (np. 0,2, 0,3, 0,5),
- poziom alfa (zwykle dwustronne 0,05),
- wymagana moc (np. 0,80).
Moc zależy tu przede wszystkim od wielkości r. Niewielkie korelacje (r ≈ 0,1–0,2) wymagają dużych prób, aby zostały istotnie wykryte, zwłaszcza przy konserwatywnym alfa. W praktyce:
- dla silnych korelacji (np. r ≥ 0,5) wystarczają relatywnie małe próby,
- dla małych efektów (r < 0,2) liczebność potrzebna do mocy 0,80 może być kilkukrotnie większa.
Zanim ustalisz docelowe N, opłaca się policzyć moc dla kilku wartości r – minimalnego efektu sensownego praktycznie i efektu spodziewanego na podstawie literatury. Różnica w wymaganym N potrafi być bardzo duża.
Regresja wieloraka: liczba predyktorów a moc
W regresji wielorakiej SamplePower często operuje parametrem R² (lub przyrostem R² przy dodawaniu nowych predyktorów). Kluczowe są tu:
Jak definiować efekt w regresji: R² całkowite vs przyrostowe
W analizach regresji można liczyć moc przynajmniej na dwa sposoby:
- dla całkowitego R² – „ile wariancji wyniku wyjaśniają wszystkie predyktory łącznie?”,
- dla przyrostu R² (ΔR²) – „o ile poprawia się dopasowanie modelu po dodaniu nowej zmiennej lub bloku zmiennych?”.
W badaniach eksploracyjnych częściej interesuje R² całkowite, natomiast w projektach teorii testowane są zwykle konkretne bloki (np. najpierw zmienne socjodemograficzne, potem cechy osobowości, na końcu manipulacja eksperymentalna). W takim układzie kluczowy jest właśnie przyrost R² po dodaniu „istotnego bloku” – i pod ten przyrost sensownie liczyć moc.
SamplePower pozwala odtworzyć oba scenariusze. Dla przyrostu R² trzeba podać:
- R² modelu „bazowego” (np. same zmienne kontrolne),
- R² modelu „pełnego” (po dodaniu nowych predyktorów),
- liczbę predyktorów w każdym z modeli.
Różnica pomiędzy tymi R² jest de facto „efektem”, dla którego liczona jest moc. W praktyce im mniejszy spodziewany przyrost (np. ΔR² < 0,03), tym większego N trzeba, żeby realnie mieć szansę go wykryć jako istotny.
Liczba predyktorów a „gęstość” modelu
Regresja wieloraka ma jeszcze jeden wymiar, który odróżnia ją od prostego testu t: stosunek liczby predyktorów do N. Dwa modele o tym samym R² mogą mieć różną moc, jeśli:
- w pierwszym jest niewiele predyktorów (model „oszczędny”),
- w drugim – bardzo dużo predyktorów (model „przeładowany”).
SamplePower odzwierciedla to przez podawanie:
- liczby predyktorów testowanych (np. w nowym bloku),
- liczby predyktorów już w modelu,
- oczekiwanego R² lub ΔR².
Przy tej samej łącznej liczbie osób model z większą liczbą predyktorów ma zazwyczaj niższą moc dla pojedynczych wskaźników, a nawet dla przyrostu R². Im więcej współczynników oszacowywanych na tej samej próbie, tym mniej precyzyjnie szacowany jest każdy z nich.
W praktyce rozsądne są dwie strategie:
- ograniczyć liczbę predyktorów do tych naprawdę teoretycznie uzasadnionych i pod tę listę policzyć N,
- jeśli model ma być szeroki i eksploracyjny – świadomie założyć większe N niż w prostych kalkulacjach (lub zrezygnować z testowania niektórych współczynników jako kluczowych hipotez).
Regresja a korelacje między predyktorami (współliniowość)
Modele regresyjne w SamplePower najczęściej zakładają pewien poziom niezależności predyktorów. Tymczasem w danych społecznych i klinicznych silne korelacje pomiędzy predyktorami są raczej normą niż wyjątkiem. Silna współliniowość:
- nie musi zmniejszać mocy dla całkowitego R²,
- ale potrafi dramatycznie obniżyć moc testów dla pojedynczych współczynników regresji.
Szacując moc i wymaganą liczebność, można przyjąć dwa podejścia:
- Skupienie na R² lub ΔR²
Jeśli pytanie badawcze dotyczy głównie tego, czy blok predyktorów wnosi coś do wyjaśniania zmiennej zależnej, warto liczyć moc dla przyrostu R². Współliniowość mniej przeszkadza, bo analizuje się efekt łączny. - Skupienie na konkretnym predyktorze
Gdy priorytetem jest pojedyncza zmienna (np. wynik testu inteligencji), warto przewidzieć, że przy wysokich korelacjach z innymi predyktorami (np. pamięć robocza, wykształcenie) realna moc jej testu t nie będzie tak wysoka, jak sugeruje prosta analiza mocy. W takich sytuacjach bezpieczniej jest:
- przyjąć większe N niż wynika z minimalistycznego obliczenia,
- lub uprościć model, zmniejszając liczbę silnie skorelowanych predyktorów.
Regresja logistyczna i rzadkie zdarzenia
W SPSS do regresji logistycznej nie ma tak rozbudowanego modułu mocy, jak do klasycznych modeli liniowych. SamplePower oferuje jednak pewne opcje dla zmiennych zależnych dychotomicznych. Problem polega na tym, że moc jest tam bardzo wrażliwa na częstość zdarzenia (np. wystąpienie objawu, powrót do pracy, porzucenie terapii).
Dla tych analiz kluczowe są:
- oczekiwany odsetek przypadków (np. 15% zdiagnozowanych vs 85% bez diagnozy),
- oczekiwany iloraz szans (OR) dla danego predyktora lub kontrastu grup,
- liczba obserwacji w każdej kategorii zmiennej zależnej.
Dwie próby o tej samej wielkości N mogą mieć zupełnie inną moc, jeśli różny jest odsetek zdarzeń. Przy bardzo rzadkich zdarzeniach (np. kilka procent) często okazuje się, że potrzebne jest znacznie większe N, niż sugerowałaby intuicja wyniesiona z klasycznej regresji liniowej.
Jeżeli SPSS/SamplePower nie daje wygodnej opcji dla konkretnego modelu logistycznego, można rozważyć:
- przybliżenie analizy mocy, traktując zmienną zależną jak ciągłą (co daje raczej optymistyczny szacunek mocy),
- lub użycie zewnętrznego narzędzia wyspecjalizowanego w analizie mocy do regresji logistycznej.
Regresja hierarchiczna a planowanie mocy na etapy
Regresja hierarchiczna w praktyce łączy w sobie kilka testów: kolejne bloki predyktorów są dodawane po sobie i dla każdego z nich liczy się przyrost R². Użytkownicy SPSS często mają kilka hipotez:
- blok 1 (np. wiek, płeć) – traktowany jako kontrolny, mniej istotny teoretycznie,
- blok 2 (cechy osobowości) – główne predyktory,
- blok 3 (interakcje lub zmienne moderujące) – test dodatkowy.
Analiza mocy może być tu rozbita:
- Na główny blok – policzenie wymaganej próby dla przyrostu R² po wprowadzeniu kluczowych predyktorów (blok 2) przy założonym R² bazowym (blok 1).
- Na dodatkowe interakcje – osobna analiza mocy dla kolejnego przyrostu R² (blok 3), często przy założeniu, że efekt tych interakcji jest mały (ΔR² na poziomie kilku punktów procentowych).
Zestawienie tych dwóch analiz zwykle prowadzi do prostego wniosku: liczebność próby, która zapewnia wystarczającą moc dla głównych predyktorów, bywa zbyt mała, aby solidnie przetestować interakcje. Jeśli interakcje są kluczowe teoretycznie, kryterium mocy trzeba ustawić właśnie pod nie, nawet jeśli oznacza to „przewymiarowany” model dla efektów głównych.
Jak weryfikować założenia i ich wpływ na moc testu
Normalność rozkładu: jak daleko można ją naruszyć
Klasyczne testy parametryczne (t, ANOVA, regresja liniowa) opierają się na założeniu normalności rozkładu reszt. W kontekście mocy zwykle interesujące są dwa scenariusze:
- umiarkowane odchylenia od normalności (lekka skośność, trochę „grubsze ogony”),
- silne naruszenia (skrajna skośność, rozkład mocno „spłaszczony” lub wielomodalny).
Przy umiarkowanych odchyleniach testy parametryczne zachowują się stosunkowo dobrze: poziom alfa i moc nie odbiegają dramatycznie od zakładanych. W próbach średnich i dużych zwykle nie ma powodu, by radykalnie zmieniać plan analizy, choć:
- moc może być lekko niższa niż w „idealnym” modelu,
- warto stosować analizę odporną, np. raportować także testy nieparametryczne lub wyniki po transformacji danych.
Przy silnych naruszeniach sytuacja wygląda inaczej: test może mieć ani prawidłowego alfa, ani sensownej mocy. W SPSS da się łatwo ocenić rozkład za pomocą:
- histogramów z krzywą normalną,
- wykresów Q–Q dla normalności,
- testów formalnych (Shapiro–Wilk, Kolmogorow–Smirnow), choć w dużych próbach są one bardzo czułe.
Jeśli rozkład jest silnie skośny, pojawiają się trzy wyjścia, każde z innym wpływem na moc:
- Transformacja danych (logarytmiczna, pierwiastkowa, Box–Cox) – często stabilizuje wariancję i zbliża rozkład do normalnego, co przy tej samej liczebności zwiększa wiarygodność testu i przywraca „planowaną” moc.
- Testy nieparametryczne (np. U Manna–Whitneya, Kruskala–Wallisa) – są mniej wrażliwe na kształt rozkładu, lecz często mają mniejszą moc przy idealnie normalnych danych. Dla silnie nienormalnych danych potrafią z kolei być bardziej „wydajne” niż testy parametryczne.
- Modelowanie oparte na dystrybucjach alternatywnych (regresja Poissona, uogólnione modele liniowe) – w badaniach z danymi licznikowymi lub proporcjami może dać zarówno bardziej adekwatny model, jak i realnie wyższą moc.
Homogeniczność wariancji i jej skutki dla mocy
Drugie ważne założenie, szczególnie w testach porównujących grupy, to równość wariancji (homogeniczność). W SPSS sprawdza się ją zazwyczaj za pomocą:
- testu Levene’a dla t i ANOVA,
- wizualizacji (boxploty, wykresy rozrzutu).
Przy naruszeniu homogeniczności bez dodatkowych działań można mieć sytuację, w której:
- poziom alfa nie jest taki, jak planowano (test zbyt liberalny lub zbyt konserwatywny),
- moc jest niższa niż oczekiwana przy tej samej liczebności.
Porównując dwie strategie:
- Trzymanie się klasycznych testów t/ANOVA z założeniem homogeniczności – może prowadzić do niedokładnych wniosków przy dużej nierówności wariancji i liczebności grup.
- Wersje odporne – w SPSS dla testu t dla prób niezależnych można użyć opcji Equal variances not assumed (Welch), a w ANOVA zastosować uogólnione warianty testów F (Welch, Brown–Forsythe). Te testy radzą sobie lepiej z różnymi wariancjami, często utrzymując bardziej stabilny poziom alfa i użyteczną moc.
Z punktu widzenia planowania badania lepszą strategią jest jednak minimalizowanie ryzyka silnego zróżnicowania wariancji – np. poprzez sensowne kryteria włączenia, zbliżone warunki pomiaru, a także unikanie ekstremalnej nierówności liczebności grup (bardzo mała grupa z dużą wariancją kontra duża grupa z małą wariancją).
Niesymetryczne rozkłady i dane skośne: transformować czy zmieniać test?
W badaniach psychologicznych, medycznych czy edukacyjnych duża część zmiennych ma rozkłady:
- skośne prawostronnie (np. liczba objawów, czas reakcji),
- z „podłogą” lub „sufitem” (większość badanych ma wynik bardzo niski lub bardzo wysoki),
- z masą zer (np. liczba incydentów w danym okresie).
Porównując dwa podejścia:
- Transformacja i pozostanie przy testach parametrycznych
Zaletą jest możliwość korzystania z dobrze znanych modeli (t, ANOVA, regresja liniowa) i narzędzi do analizy mocy, takich jak SamplePower. Transformacja (np. log(x+1) przy wielu zerach) bywa zaskakująco skuteczna w stabilizowaniu wariancji i poprawianiu normalności reszt. Jeżeli rozkład po transformacji jest rozsądny, założenia stojące za obliczoną wcześniej mocą stają się bliższe realnym danym. - Zmiana modelu na nieparametryczny lub uogólniony
W przypadku zmiennych licznikowych lub mocno skośnych można przejść na:- testy rangowe (Mann–Whitney, Kruskal–Wallis) – zapewniają większą odporność, ale ich moc wobec „klasycznego” d nie jest już tak prosto powiązana z wyliczeniami w SamplePower,
- modele GLM (Poisson, binomial, negative binomial) – lepiej dopasowane do charakteru danych, ale wymagające innych narzędzi do analizy mocy (często zewnętrznych).






