Po co w ogóle CFA przy analizie skal ankietowych?
Rola CFA w ocenie, czy skala mierzy to, co ma mierzyć
Konfirmacyjna analiza czynnikowa (CFA) służy do sprawdzenia, czy zaprojektowana skala ankietowa rzeczywiście odpowiada przyjętemu modelowi teoretycznemu. Skala do pomiaru satysfakcji klienta, zaangażowania pracowników czy lęku społecznego opiera się na założeniu, że za odpowiedziami kryją się pewne ukryte czynniki. CFA pozwala zweryfikować, czy pozycje (itemy) przypisane do danego czynnika faktycznie „zachowują się” jak wskaźniki jednego konstruktu.
W praktyce oznacza to sprawdzenie dwóch rzeczy: po pierwsze, czy struktura czynników (np. 3 czynniki: „komunikacja”, „sprawność obsługi”, „zaufanie”) jest zgodna z teorią; po drugie, czy każda pozycja skali jest odpowiednio silnie powiązana z właściwym czynnikiem, a słabo z pozostałymi. Dopiero wtedy można twierdzić, że skala sensownie operacjonalizuje badany konstrukt.
CFA jest narzędziem szczególnie przydatnym, gdy trzeba udowodnić trafność strukturalną skali. Sam fakt, że pozycje mają wysokie korelacje i dają wysokie alfa Cronbacha, nie wystarcza. Możliwy jest scenariusz, w którym skala jest rzetelna (spójna wewnętrznie), ale mierzy coś innego, niż zakładano. CFA pozwala wykryć takie rozbieżności, porównując dane empiryczne z teoretycznym modelem pomiarowym.
Różnica między EFA a CFA w badaniach opartych na ankietach
Eksploracyjna analiza czynnikowa (EFA) i konfirmacyjna analiza czynnikowa (CFA) są często wrzucane do jednego worka, a pełnią inne funkcje. EFA jest metodą eksploracyjną – służy do odkrywania potencjalnej struktury czynnikowej bez silnych założeń. CFA natomiast testuje z góry założony model: ile jest czynników, które pozycje ładują na które czynniki i czy czynniki mogą być skorelowane.
W badaniach ankietowych dość typowy jest schemat: najpierw EFA na pilotażu (gdy skala jest nowa lub adaptowana), a następnie CFA na osobnej próbie, aby potwierdzić strukturę. Jeśli korzysta się ze znanej skali z literatury, często od razu przechodzi się do CFA, zakładając konstrukcję skali zgodną z wcześniejszymi badaniami.
Kluczowe pytanie brzmi: co wiemy o skali, zanim zobaczymy dane? Jeżeli istnieje mocny model teoretyczny, udokumentowana struktura czynników i jasny przydział pozycji do czynników – stosuje się CFA. Jeśli konstrukcja i struktura są niejasne lub nowatorskie, zaczyna się od EFA, a dopiero potem wchodzi w CFA.
Kiedy wystarczy prosty alfa Cronbacha, a kiedy potrzebna jest CFA
Alfa Cronbacha mierzy spójność wewnętrzną skali, ale nie mówi nic o tym, czy skala jest jednowymiarowa, czy wielowymiarowa, ani czy poszczególne pozycje układają się w sensowny model pomiarowy. W wielu prostych zastosowaniach ankietowych (np. w wewnętrznym badaniu satysfakcji pracowników w małej firmie) alfa może być wystarczającą miarą rzetelności, o ile nie buduje się na tym złożonych wniosków teoretycznych.
CFA staje się konieczna, gdy:
- skala ma wiele teoretycznie wyróżnionych wymiarów (np. 4 podskale zaangażowania),
- chodzi o publikację naukową lub pracę dyplomową, w której wymagana jest analiza konstruktu, nie tylko prosty wskaźnik,
- skala jest adaptowana kulturowo i trzeba potwierdzić, że struktura z oryginału przenosi się na nową populację,
- badany konstrukt jest kluczowy dla dalszej analizy (np. model strukturalny SEM), więc model pomiarowy musi być dobrze ugruntowany.
Przy prostym indeksie z 3–4 pozycjami, gdzie interesuje wyłącznie stabilność i spójność, alfa Cronbacha i korelacje między pozycjami często wystarczą. Gdy jednak skala ma pełnić funkcję narzędzia diagnostycznego lub teoretycznego, CFA daje znacznie pełniejszy obraz.
Typowe sytuacje badawcze: adaptacja skali, nowa skala, weryfikacja modelu teoretycznego
CFA pojawia się w trzech powtarzających się scenariuszach badawczych:
Adaptacja skali do nowego kontekstu lub języka. Przykładowo, badacz tłumaczy znaną skalę satysfakcji z pracy na język polski. Po tłumaczeniu i pilotażu trzeba sprawdzić, czy pozycje tworzą te same czynniki, co w wersji oryginalnej. CFA testuje, czy model z literatury (np. 3 czynniki) jest dopasowany do danych z nowej populacji.
Budowa nowej skali. Przy tworzeniu skali od zera, EFA służy do wygenerowania wstępnej struktury, ale dopiero CFA na kolejnej próbie pokazuje, czy ta struktura jest stabilna i czy model pomiarowy ma akceptowalne dopasowanie (CFI, RMSEA itd.). Tu CFA wspiera iteracyjny proces oczyszczania skali, usuwania słabych pozycji i dopracowywania konstruktu.
Weryfikacja rozbudowanego modelu teoretycznego. W modelach SEM (strukturalne modele równań) kluczowe jest, aby model pomiarowy był poprawny, zanim zacznie się testować ścieżki między konstruktami. CFA jest w takim przypadku pierwszym etapem: osobno ocenia się dopasowanie modelu pomiarowego, a dopiero później modelu strukturalnego.
Podstawowe pojęcia: model pomiarowy, czynnik, ładunek
Co to jest model pomiarowy skali i jak go narysować
Model pomiarowy opisuje, w jaki sposób ukryte konstrukty (czynniki) mają przejawiać się w obserwowalnych odpowiedziach na pozycje skali. Graficznie przedstawia się go jako diagram: elipsy symbolizują czynniki, prostokąty – pozycje, a strzałki – zależności między nimi.
Dla prostej, jednoczynnikowej skali z 6 pozycjami diagram będzie zawierał jedną elipsę (np. „Satysfakcja”) oraz 6 prostokątów (item1–item6), połączonych strzałkami wychodzącymi z czynnika do pozycji. Dodatkowo przy każdej pozycji jest zaznaczony błąd pomiaru (kwadratowy lub okrągły „error”), wskazujący, że część wariancji odpowiedzi nie jest wyjaśniona przez czynnik.
Taki schemat można narysować w specjalistycznym oprogramowaniu (Amos, Mplus, R/lavaan + pakiety do wizualizacji) albo odręcznie. W pracy dyplomowej czy raporcie biznesowym przejrzysty diagram pozwala odbiorcy szybko zrozumieć strukturę narzędzia, bez wchodzenia w szczegóły równań.
Latentne zmienne (czynniki) vs obserwowalne pozycje (itemy)
Podstawowym rozróżnieniem w CFA są zmienne latentne (ukryte) oraz zmienne obserwowalne. Zmienne latentne to teoretyczne konstrukty, których nie można bezpośrednio zmierzyć – np. satysfakcja, lęk, postawa wobec marki. Zmienne obserwowalne to konkretne odpowiedzi ankietowe na poszczególne pozycje, np. „Jestem zadowolony z pracy” ocenione na skali 1–5.
CFA zakłada, że każda odpowiedź jest kombinacją dwóch składników:
- części wspólnej, wyjaśnionej przez czynnik (latentną zmienną),
- części specyficznej i błędu, niezwiązanej z czynnikiem.
Dzięki temu można oddzielić wariancję wynikającą z badanego konstruktu od wariancji przypadkowej lub specyficznej dla danej pozycji. To rozdzielenie umożliwia późniejszą ocenę rzetelności i trafności skali na poziomie czynników, a nie tylko surowych sum punktów.
Ładunki czynnikowe, błędy pomiaru, kowariancje między czynnikami
Ładunek czynnikowy (factor loading) to współczynnik określający siłę i kierunek związku między czynnikiem a pozycją skali. Im wyższy ładunek, tym silniej dana pozycja „należy” do czynnika. W interpretacji praktycznej zwykle zakłada się, że ładunek powyżej 0,40–0,50 jest akceptowalny, a powyżej 0,60–0,70 – dobry, choć zależy to od dziedziny i etapu prac nad skalą.
Błąd pomiaru reprezentuje tę część wariancji pozycji, której nie wyjaśnia czynnik. W modelu CFA jest on osobnym parametrem (wariancją resztową). Wysoka wariancja błędu oznacza, że pozycja w niewielkim stopniu odzwierciedla badany konstrukt, a w dużym – czynniki uboczne lub przypadkowe fluktuacje odpowiedzi.
Kowariancje między czynnikami mówią, jak silnie poszczególne konstrukty są ze sobą powiązane. W wielu skalach psychologicznych dopuszcza się, a nawet oczekuje, dodatnich korelacji między czynnikami (np. między „zaangażowaniem” a „lojalnością”). Zbyt wysokie korelacje (bliskie 1) sygnalizują jednak, że czynniki są praktycznie nieodróżnialne i model może być przeszacowany.
Jak przełożyć teorię konstruktu psychologicznego na prosty schemat CFA
Przekład teorii na model CFA wymaga kilku uporządkowanych kroków:
- zdefiniowanie głównych wymiarów konstruktu (np. poznawczy, emocjonalny, behawioralny komponent postaw),
- przypisanie do każdego wymiaru zestawu pozycji (minimum 3–4 itemy na czynnik dla stabilnej estymacji),
- określenie, czy czynniki mogą się ze sobą korelować (najczęściej tak, w modelach czynników skorelowanych),
- przyjęcie, że na starcie nie ma ładunków krzyżowych (pozycja ładuje tylko na jeden czynnik) i że błędy są nieskorelowane.
Przykład: konstruktem jest „Satysfakcja z pracy” z trzema wymiarami: „Warunki pracy”, „Relacje z przełożonym”, „Poczucie sensu”. Każdy wymiar ma po 4 pozycje. Model CFA zawiera 3 czynniki latentne, połączone ze sobą liniami dwukierunkowymi (kowariancje) oraz 12 prostokątów z pozycjami, do których prowadzą strzałki z odpowiednich czynników.
Przygotowanie danych z ankiety do CFA
Wymagana liczebność próby i proporcja liczba badanych / liczba pozycji
Jednym z pierwszych pytań przed uruchomieniem CFA jest kwestia liczebności próby. W literaturze pojawiają się różne reguły kciuka – od „co najmniej 200 osób” po „10 respondentów na jeden parametr”. Bardziej praktyczne podejście opiera się na złożoności modelu i jakości danych.
Przy typowych skalach Likerta i niezbyt skomplikowanych modelach (kilka czynników, kilkanaście–kilkadziesiąt pozycji) często przyjmuje się, że:
- próba 100–150 osób to absolutne minimum dla stabilnych estymacji,
- 200–300 osób daje znacznie bardziej wiarygodne wyniki i konserwatywne wskaźniki dopasowania,
- przy złożonych modelach (wiele czynników, korelacje, modyfikacje) sensowne są próby powyżej 300–400 osób.
Istotniejsza od prostych proporcji jest relacja liczby obserwacji do liczby estymowanych parametrów. Im więcej parametrów (ładunki, błędy, kowariancje), tym więcej danych potrzeba do ich stabilnego oszacowania. Programy SEM mogą sygnalizować problemy z identyfikacją lub niestabilne oszacowania, gdy próba jest zbyt mała.
Sprawdzanie braków danych, rozkładów odpowiedzi, skrajnych wartości
Dane ankietowe rzadko są idealne. Zanim przejdzie się do CFA, trzeba sprawdzić:
- braki danych – czy odpowiedzi są losowo rozłożone (MCAR/MAR) czy systematyczne (np. brak odpowiedzi na wrażliwe pytania),
- rozkłady odpowiedzi – czy pozycje nie są ekstremalnie skośne (np. prawie wszyscy zaznaczają „zdecydowanie się zgadzam”),
- wartości skrajne – nietypowe wzorce odpowiedzi, np. zawsze „1” lub zawsze „5”, które mogą świadczyć o braku zaangażowania.
W praktyce stosuje się proste procedury: tabelę braków na pozycję, wykresy słupkowe rozkładów odpowiedzi, identyfikację respondentów z bardzo niską zmiennością odpowiedzi (tzw. straight-lining). Braki można uzupełnić różnymi metodami (np. FIML w SEM, imputacja wielokrotna), ale ważne jest, aby nie usuwać bezrefleksyjnie zbyt wielu obserwacji, co może zmniejszyć moc statystyczną.
Skrajne rozkłady odpowiedzi mogą wpływać na estymację, szczególnie przy założeniu normalności. Jeśli większość pozycji ma silną skośność, warto rozważyć estymatory odporne lub traktowanie skali Likerta jako porządkowej.
Charakter skali Likerta: traktowanie jako ciągła vs porządkowa
Skale Likerta (np. 1–5, 1–7) formalnie mają charakter porządkowy, ale w praktyce badawczej często są traktowane jako zmienne ciągłe i analizowane klasycznymi metodami. W CFA decyzja ta ma znaczenie dla wyboru estymatora i interpretacji wyników.
Konsekwencje wyboru traktowania skali Likerta w praktyce CFA
Decyzja, czy skale Likerta traktować jako ciągłe, czy porządkowe, przekłada się na dobór estymatora, sposób liczenia macierzy korelacji oraz interpretację parametrów. Przy typowym podejściu „ciągłym” stosuje się klasyczną macierz kowariancji i estymator ML (maximum likelihood). W podejściu „porządkowym” punktem wyjścia jest macierz korelacji polichorycznych, a estymacja opiera się na estymatorach WLS (weighted least squares), najczęściej w wersji WLSMV.
Przy kilku kategoriach odpowiedzi (np. 5–7 punktów) i umiarkowanej skośności, estymacja ML z korektami (np. MLR w lavaan) zwykle daje stabilne wyniki. Gdy odpowiedzi są mocno skupione w jednej lub dwóch kategoriach (np. skala 1–4, większość odpowiedzi „3” i „4”), lepiej reagują metody dla danych porządkowych – parametry są mniej obciążone, a błędy standardowe bliższe rzeczywistym wartościom.
Co wiemy? Estymacja „porządkowa” jest bezpieczniejsza, gdy dane odbiegają od normalności lub mają mało kategorii. Czego nie wiemy? Jak bardzo zmienią się wyniki w konkretnym zbiorze danych – to często trzeba sprawdzić empirycznie, porównując modele oszacowane na dwa sposoby.
Wstępna ocena macierzy korelacji między pozycjami
Przed budową modelu CFA dobrze jest sprawdzić, jak pozycje korelują ze sobą w klasyczny sposób. Nie zastępuje to CFA, ale daje szybki obraz tego, czy projektowana struktura ma szansę się „utrzymać”.
Praktyczny przegląd obejmuje kilka kroków:
- sprawdzenie, czy pozycje w obrębie jednego czynnika istotnie ze sobą korelują i czy korelacje nie są bliskie zeru,
- ocenę, czy pozycje z różnych czynników korelują wyraźnie słabiej niż te w obrębie tego samego wymiaru,
- identyfikację pozycji odstających – takich, które korelują podobnie ze wszystkimi innymi pytaniami lub prawie z nikim.
Jeżeli macierz korelacji jest silnie zdominowana przez jeden ogólny czynnik (wysokie korelacje prawie między wszystkimi parami pozycji), model z wieloma czynnikami może mieć problem z identyfikacją odrębnych wymiarów. Gdy korelacje są bardzo niskie, można spodziewać się słabych ładunków i niskiej rzetelności.
Specyfikacja modelu CFA dla skali
Jednoczynnikowy vs wieloczynnikowy model skali
Pierwsza decyzja dotyczy tego, czy skala ma być traktowana jako jednowymiarowa, czy wielowymiarowa. Model jednoczynnikowy zakłada, że wszystkie pozycje ładują na jednym konstrukcie. Model wieloczynnikowy – że istnieje kilka powiązanych (lub nie) wymiarów.
W analizach praktycznych często porównia się dwa scenariusze:
- model prosty – jeden czynnik, wszystkie itemy ładują na nim, bez dodatkowych powiązań,
- model teoretyczny – kilka czynników zgodnie z projektem skali, z dopuszczonymi korelacjami między nimi.
Jeżeli skala została od początku budowana jako wielowymiarowa (np. trzy podskale), testowanie wyłącznie modelu jednoczynnikowego nie odpowiada na pytanie o trafność teoretyczną. Może za to pokazać, że w danych dominuje silny czynnik ogólny – co ma konsekwencje dla tego, jak raportować wyniki (skala ogólna vs subskale).
Modele z czynnikami skorelowanymi, hierarchiczne i dwuczynnikowe (bifactor)
Poza prostym przeciwstawieniem „jeden vs kilka czynników” istnieje kilka często używanych wariantów struktury:
- model czynników skorelowanych – każdy wymiar ma własny czynnik, a między czynnikami dopuszcza się kowariancje; to najczęstsze rozwiązanie dla skal psychologicznych,
- model hierarchiczny (drugiego rzędu) – czynniki pierwszego rzędu (np. trzy komponenty motywacji) ładują na jednym czynniku wyższego rzędu (ogólna motywacja); dobrze oddaje sytuacje, w których raportuje się wynik ogólny i podskale,
- model bifactor – wszystkie pozycje ładują równocześnie na ogólny czynnik oraz na przypisany im czynnik specyficzny (grupowy); używany, gdy chcemy oddzielić wpływ „czynnika globalnego” od bardziej szczegółowych wymiarów.
Model bifactor bywa stosowany np. przy skalach dobrostanu czy depresji, gdzie pojawia się pytanie: czy mierzymy przede wszystkim jeden ogólny stan (dobrostan/depresja), czy kilka niezależnych domen (np. emocjonalną, somatyczną, poznawczą). Dobrze oszacowany model bifactor pozwala odpowiedzieć na to pytanie na poziomie parametrów, a nie tylko intuicji.
Identyfikacja modelu: ustalanie skali czynników
Model CFA musi być zidentyfikowany, czyli mieć jednoznaczne rozwiązanie. W praktyce robi się to przez „ustalenie skali” czynników. Najczęściej stosowane są dwa podejścia:
- metoda wskaźnika referencyjnego – ładunek jednej pozycji na każdym czynniku ustala się na 1; skala czynnika jest wtedy w jednostkach tej pozycji,
- ustalenie wariancji czynnika – przyjmuje się, że wariancja każdego czynnika wynosi 1; ładunki są wtedy bezpośrednio zbliżone do korelacji między czynnikiem a pozycją.
Większość programów przyjmuje któryś z tych sposobów automatycznie. Dla użytkownika ważniejszy jest wpływ na interpretację: przy ustalonej wariancji czynnika łatwiej porównywać wielkości ładunków między czynnikami, a wartości są bardziej intuicyjne.
Ograniczenia i założenia w specyfikacji modelu
Standardowy model pomiarowy zakłada kilka rzeczy, które nie zawsze są oczywiste:
- każda pozycja ładuję na jednym czynniku (brak ładunków krzyżowych),
- błędy pomiaru są nieskorelowane – reszty itemów nie są dodatkowo ze sobą powiązane,
- brak ścieżek odwrotnych – czynnik powoduje odpowiedzi na pozycje, a nie odwrotnie.
Te założenia są celowo restrykcyjne, bo umożliwiają przejrzyste przetestowanie teoretycznego modelu. Gdy w trakcie analizy pojawia się potrzeba dodania ładunków krzyżowych lub skorelowania błędów, trzeba to dobrze umotywować – zarówno statystycznie (indeksy modyfikacji), jak i teoretycznie (np. podobieństwo treściowe pozycji).

Estymacja modelu – co faktycznie jest liczone
Jakie parametry są estymowane w CFA
CFA polega na takim dopasowaniu parametrów modelu, aby modelowa macierz kowariancji (lub korelacji) jak najlepiej odtwarzała macierz obserwowaną w danych. Estymowane są przede wszystkim:
- ładunki czynnikowe – dla każdej pary (czynnik–pozycja), dla której zdefiniowano ścieżkę,
- wariancje i kowariancje czynników latentnych – określające siłę i kierunek powiązań między wymiarami,
- wariancje błędów pomiaru – resztowe składniki pozycji,
- niekiedy także średnie czynników i pozycji (w modelach z założeniem o porównywaniu grup lub przy modelowaniu na poziomie średnich).
Formalnie celem jest znalezienie takich wartości parametrów, które minimalizują różnicę między macierzą obserwowaną a tą wyliczoną z modelu. Ta różnica jest mierzona funkcją dopasowania (np. FML dla estymatora ML), której minimum daje „najlepszy” zestaw parametrów w sensie przyjętego kryterium.
Estymatory: ML, MLR, WLSMV i ich konsekwencje
Najczęściej stosowane estymatory w praktyce CFA to:
- ML (maximum likelihood) – klasyczny estymator, zakłada normalność rozkładu zmiennych i wystarczająco duże próby; daje dobre własności asymptotyczne i standardowy zestaw statystyk dopasowania,
- MLR (robust ML) – odmiana ML odporna na naruszenia normalności, z korektą błędów standardowych i statystyki chi-kwadrat; szczególnie przydatna przy skośnych rozkładach pozycji, nadal traktowanych jako ciągłe,
- WLSMV – estymator oparty na ważonych najmniejszych kwadratach, zoptymalizowany do danych porządkowych (skale Likerta z małą liczbą kategorii); korzysta z korelacji polichorycznych i daje poprawne błędy standardowe przy silnej nienormalności.
Wybór estymatora ma konsekwencje dla interpretacji wskaźników dopasowania i testów istotności. Przykładowo, przy WLSMV standardowa statystyka chi-kwadrat nie jest bezpośrednio porównywalna z tą z ML, a proste testy różnic chi-kwadrat wymagają specjalnej procedury (np. komend w Mplus czy odpowiednich funkcji w lavaan).
Algorytm estymacji i zbieżność modelu
Proces estymacji jest iteracyjny: program startuje od zestawu początkowych wartości parametrów (często prostych przybliżeń), liczy macierz modelową, porównuje ją z obserwowaną, a następnie aktualizuje parametry, by zmniejszyć różnicę. Powtarza to aż do spełnienia kryterium zbieżności (zmiany parametrów i funkcji dopasowania są minimalne).
Jeżeli model jest zbyt skomplikowany, dane słabej jakości lub liczebność próby niewystarczająca, algorytm może nie osiągnąć zbieżności. Typowe sygnały problemów to:
- komunikaty o braku zbieżności lub przekroczeniu maksymalnej liczby iteracji,
- parametry poza sensownym zakresem (np. wariancje ujemne – tzw. Heywood cases),
- bardzo wysokie błędy standardowe lub ekstremalne wartości ładunków.
W takiej sytuacji pytanie kontrolne brzmi: problem leży w modelu (np. nadmierna złożoność, słabo uzasadnione korelacje błędów) czy w danych (zbyt mała próba, zmienne o prawie zerowej wariancji)? Dopiero po tej diagnozie sensowne jest upraszczanie modelu lub korygowanie danych.
Kluczowe wskaźniki dopasowania modelu pomiarowego
Statystyka chi-kwadrat i jej ograniczenia
Podstawowym testem dopasowania jest statystyka chi-kwadrat, która sprawdza hipotezę, że macierz kowariancji implied by model nie różni się od macierzy obserwowanej. Niska, nieistotna statystyka chi-kwadrat sugeruje dobre dopasowanie.
W praktyce, przy średnich i dużych próbach, chi-kwadrat jest niemal zawsze istotny statystycznie, nawet gdy model jest rozsądnie dopasowany. Dzieje się tak, bo test jest bardzo czuły na niewielkie różnice między modelem a danymi, które w kontekście badawczym mogą być nieistotne. Chi-kwadrat lepiej traktować jako wskaźnik wyjściowy i używać go głównie do porównań modeli zagnieżdżonych (prostszy vs bardziej złożony), a ocenę ogólnego dopasowania opierać na wskaźnikach względnych.
RMSEA, CFI, TLI, SRMR – interpretacja dla skal ankietowych
Najczęściej raportowany zestaw wskaźników dopasowania obejmuje:
- RMSEA (Root Mean Square Error of Approximation) – mierzy błąd przybliżenia modelu do populacyjnej macierzy kowariancji; niższe wartości oznaczają lepsze dopasowanie. Dla skal ankietowych często przyjmuje się, że RMSEA poniżej 0,06–0,08 jest akceptowalne; dodatkowo pomocne są przedziały ufności i tzw. p-close.
- CFI (Comparative Fit Index) – porównuje dopasowanie modelu docelowego z modelem niezależnym (w którym wszystkie zmienne są niepowiązane). Wartości powyżej 0,90 uznaje się za co najmniej przyzwoite, a powyżej 0,95 za dobre, choć w krótkich skalach i przy silnej nienormalności osiągnięcie wysokiego CFI bywa trudne.
- TLI (Tucker-Lewis Index), nazywany też NNFI – podobny do CFI, ale bardziej karze za złożoność modelu. W praktyce interpretacja progów jest zbliżona: TLI powyżej 0,90–0,95 wskazuje na zadowalające dopasowanie.
- SRMR (Standardized Root Mean Square Residual) – średni błąd resztowy między korelacjami obserwowanymi a modelowymi; wartości poniżej 0,08 są zwykle uznawane za akceptowalne, a niższe wskazują na lepsze odtworzenie korelacji.
Przy interpretacji tych wskaźników liczy się kontekst: rozmiar próby, liczba pozycji, liczba czynników, rodzaj estymatora. Model z RMSEA = 0,07 i CFI = 0,93 może być całkowicie wystarczający dla skali wykorzystywanej w badaniu stosowanym, ale niewystarczający przy opracowywaniu nowego narzędzia diagnostycznego o wysokich wymaganiach trafności.
Reszty i indeksy modyfikacji jako „mapa” niedopasowania
Poza globalnymi wskaźnikami dopasowania istnieją bardziej szczegółowe narzędzia diagnostyczne:
- reszty standaryzowane – różnice między korelacjami obserwowanymi a modelowymi; wysokie bezwzględne wartości (np. > 2) wskazują pary pozycji, które model odtwarza słabo,
Indeksy modyfikacji i ich interpretacja
Indeksy modyfikacji (modification indices, MI) pokazują, o ile spadłaby statystyka chi-kwadrat, gdyby w modelu „uwolnić” dany parametr (np. dodać ładunek krzyżowy lub korelację błędów). To narzędzie pomocnicze, a nie lista zadań do odhaczenia.
W raportach programów najczęściej pojawiają się propozycje:
- dopuszczenia dodatkowego ładunku danej pozycji na innym czynniku,
- skorelowania błędów pomiędzy dwiema pozycjami,
- uwolnienia pewnych ograniczeń równości (np. równych ładunków w grupach).
Wysoki MI mówi tylko tyle, że model „zyskałby” statystycznie na dopuszczeniu danego parametru. Nie mówi, czy takie rozwiązanie ma sens teoretyczny. Pytanie kontrolne: czy proponowana zmiana da się obronić na gruncie treści skali, czy jest wyłącznie ruchem „pod dopasowanie”?
Typowy, ostrożny sposób korzystania z indeksów modyfikacji w analizie skal ankietowych obejmuje kilka kroków:
- Ustalenie progu raportowania (np. MI > 10) zamiast przeglądania dziesiątek drobnych sugestii.
- Sprawdzenie treści pozycji – czy są podobne, czy dotyczą bardzo zbliżonej sytuacji, czy mogą naturalnie dzielić wspólny składnik błędu.
- Ocena wpływu zmiany na prostotę i interpretowalność modelu (np. pojedyncza korelacja błędów vs. gęsta sieć korelacji rozmywająca model).
- Opcjonalne „przetestowanie” zmodyfikowanego modelu na innej próbie (jeśli dostępna), zamiast dopasowywania „na pamięć” do jednego zbioru danych.
Jeżeli kolejne modyfikacje generują coraz bardziej skomplikowaną strukturę, a poprawa wskaźników dopasowania jest minimalna, sygnał jest jasny: problem nie polega na braku kilku korelacji błędów, tylko na ogólnej nieadekwatności modelu do danych.
Ocena parametrów modelu: ładunki, błędy, korelacje
Jak czytać ładunki czynnikowe w praktyce
Ładunki czynnikowe to podstawowe „nośniki” informacji o tym, czy pozycja faktycznie mierzy zadeklarowany czynnik. Dla skal ankietowych istotne są trzy kwestie:
- wielkość ładunku – jak silnie pozycja wiąże się z czynnikiem,
- istotność statystyczna – czy związek można uznać za różny od zera,
- wzorzec ładunków – czy pozycja nie ładuje istotnie także na innych czynnikach (w modelach z krzyżowymi ścieżkami).
W wielu opracowaniach przyjmuje się, że ładunki rzędu 0,40–0,50 to poziom minimalny dla praktycznego wykorzystania pozycji, a 0,60 i więcej oznacza silne powiązanie z czynnikiem. Jednak próg zależy od celu: w badaniach stosowanych pojedyncza słabsza pozycja może być akceptowalna, w nowym narzędziu diagnostycznym – już niekoniecznie.
Pozycje z bardzo niskim ładunkiem (np. < 0,30) często sygnalizują problem:
- pytanie jest niejednoznaczne dla respondentów,
- treść odstaje od definicji czynnika (dryf teoretyczny),
- występuje silny efekt podłogi lub sufitu, który ogranicza wariancję.
Z technicznego punktu widzenia niski ładunek oznacza, że większa część wariancji pozycji to błąd (specyficzne resztowe czynniki), a nie wspólny czynnik. To od razu przekłada się na rzetelność całej skali.
Interpretacja wariancji błędu i przypadki Heywooda
Każda pozycja ma wariancję błędu pomiaru (residual variance). Im wyższy ładunek, tym niższy udział błędu w całkowitej wariancji itemu. W tabelach wynikowych te wariancje bywają mniej eksponowane, choć dostarczają ważnej informacji: jeśli przy pozycji dominuje składnik resztowy, jej wkład do pomiaru czynnika jest ograniczony.
Szczególną sytuacją są tzw. przypadki Heywooda, gdy estymowana wariancja błędu staje się ujemna lub bardzo bliska zeru. Statystycznie oznacza to, że model próbuje „wymusić” zbyt wysoki udział czynnika w zmienności pozycji. Z punktu widzenia użytkownika skali to czerwone światło:
- model może być przeszacowany (zbyt wiele parametrów przy małej próbie),
- pozycja jest niemal idealnie zdeterminowana przez czynnik (mało realistyczne w praktyce),
- pojawił się problem numeryczny związany z estymacją i skalowaniem czynnika.
Standardową procedurą jest sprawdzenie: czy pozycja nie jest ekstremalnie skorelowana z inną (quasi-duplikat), czy model nie zakłada zbyt wielu silnych korelacji między czynnikami oraz czy nie ma błędu w specyfikacji (np. pomylony znak przy ładunku odwróconym).
Korelacje czynników: rozróżnialność wymiarów
Korelacje między czynnikami pokazują, na ile wymiary skali faktycznie są odrębne. Korelacje dodatnie, umiarkowane (np. 0,30–0,60), są typowe przy wymiarach powiązanych koncepcyjnie. Gdy korelacje zaczynają zbliżać się do 0,90 i wyżej, pojawia się pytanie: czy mierzymy dwa czynniki, czy w praktyce jeden?
W takich sytuacjach pomocne jest porównanie:
- modelu z dwoma skorelowanymi czynnikami,
- modelu z pojedynczym czynnikiem obejmującym wszystkie pozycje.
Jeżeli dopasowanie obu modeli jest bardzo podobne, interpretacja wielu „wymiarów” może być naciągana. W opracowaniach narzędzi psychometrycznych często analizuje się też bardziej zaawansowane kryteria (np. AVE i korelacje między czynnikami) jako test rozdzielczości konstruktu.
Rzetelność i trafność skali w ujęciu CFA
Rzetelność z perspektywy modelu pomiarowego
Klasyczne wskaźniki rzetelności, takie jak alfa Cronbacha, opierają się na założeniu tau-równoważności (wszystkie pozycje mają te same ładunki). CFA pozwala odejść od tej uproszczonej wizji i oszacować rzetelność przy nierównych ładunkach.
Najczęściej wykorzystywane miary oparte na wynikach CFA to:
- rzetelność złożona (composite reliability, CR lub omega) – uwzględnia indywidualne ładunki i wariancje błędów; pokazuje, jaka część wariancji sumarycznego wyniku skali jest przypisana czynnikowi,
- średnia wariancja wyjaśniona (Average Variance Extracted, AVE) – średnia proporcja wariancji pozycji wyjaśniona przez czynnik.
Przyjmuje się, że:
- CR w okolicach 0,70 jest progiem akceptowalnym dla badań grupowych; dla zastosowań indywidualnych oczekuje się zwykle wyższych wartości,
- AVE powyżej 0,50 wskazuje, że czynnik wyjaśnia więcej niż połowę wariancji średniej pozycji.
Te wskaźniki wprost wynikają z oszacowanych ładunków i wariancji błędów. Jeśli ładunki są zróżnicowane, rzetelność złożona może mocno odbiegać od tradycyjnej alfy. Taka rozbieżność jest faktem, a nie błędem – sygnalizuje, że założenia klasycznego modelu rzetelności nie są spełnione.
Trafność zbieżna i rozbieżna na podstawie CFA
CFA umożliwia ilościową ocenę, czy pozycje dobrze reprezentują swój czynnik (trafność zbieżna) i czy czynniki są dostatecznie odróżnialne (trafność rozbieżna).
W kontekście trafności zbieżnej analizuje się przede wszystkim:
- wielkość i istotność ładunków pozycji na danym czynniku,
- wspomnianą AVE – wysoka średnia wariancja wyjaśniona wskazuje, że pozycje „spotykają się” na tym samym konstrukcie.
Dla trafności rozbieżnej stosuje się proste kryteria porównawcze, np.:
- pierwiastek z AVE danego czynnika powinien być większy niż jego korelacje z innymi czynnikami,
- korelacje między czynnikami nie powinny być bliskie jedności; można porównać model z korelacją swobodną i z korelacją ustaloną na 1 (test, czy czynniki są w praktyce nierozróżnialne).
Jeżeli trafność rozbieżna wypada słabo, powraca kluczowe pytanie: czy problem leży w teorii (czynniki są bardziej zbliżone, niż sądzono), czy w samych pozycjach (np. zbyt ogólne stwierdzenia powielające tę samą treść w kilku skalach).
Trafność kryterialna i inwariancja w logice CFA
Trafność kryterialna (związki skali z innymi zmiennymi) nie jest elementem CFA sensu stricto, ale model pomiarowy stanowi jej fundament. Jeżeli czynnik jest dobrze zdefiniowany i stabilny, można go następnie włączyć do szerszych modeli strukturalnych (SEM) i oceniać, czy zachowuje się zgodnie z przewidywaniami wobec zmiennych zewnętrznych.
Coraz częściej w analizie skal wykorzystuje się także modele inwariancji pomiarowej, porównujące strukturę czynników między grupami (np. płeć, kraj, grupa kliniczna vs kontrolna). Minimalny warunek, by porównywać średnie wyników między grupami, to przynajmniej:
- inwariancja konfiguralna – ten sam wzorzec ładunków,
- inwariancja metryczna – te same ładunki czynnikowe.
Bez spełnienia tych warunków porównania średnich skali (czy czynnikowych) mają ograniczoną interpretację, bo nie jest jasne, czy grupa A i B interpretują pozycje w ten sam sposób.
Modyfikacje modelu: kiedy poprawiać, a kiedy odrzucić
Strategie ulepszania dopasowania
Gdy model nie spełnia typowych kryteriów dopasowania, przed automatycznym odrzuceniem istnieje kilka racjonalnych kroków naprawczych. Można je uporządkować od najmniej inwazyjnych do najbardziej radykalnych.
- Weryfikacja danych i specyfikacji – sprawdzenie, czy w pliku danych nie ma błędów kodowania, czy wszystkie pozycje są skierowane w tę samą stronę (odwrócone itemy), czy model w programie odpowiada faktycznemu kluczowi skali.
- Usunięcie ewidentnie słabych pozycji – tych z bardzo niskimi ładunkami, ekstremalnymi resztami lub problemami z wariancją. Czasem jedno pytanie psuje dopasowanie całej skali.
- Dopuszczenie ograniczonej liczby korelacji błędów – jeżeli pozycje są bardzo podobne treściowo (np. różnią się tylko kontekstem „w pracy” vs „w domu”), rozsądne jest założenie wspólnego komponentu resztowego.
- Przemyślenie liczby czynników – gdy korelacje między czynnikami są skrajnie wysokie lub ładunki wskazują na strukturę bardziej ogólną niż zakładano.
Każdy z tych kroków wymaga osobnego uzasadnienia i udokumentowania. W szczególności korelacje błędów powinny być wprowadzane oszczędnie, bo szybko zmieniają przejrzysty model pomiarowy w trudną do zinterpretowania sieć powiązań.
Granice „dostrajania” pod dane
Model dopasowany „idealnie” do jednej próby może być słabo replikowalny w innej. Im więcej zmian wprowadzonych na podstawie indeksów modyfikacji, tym większe ryzyko przeuczenia (overfitting). Umiar jest szczególnie ważny przy krótkich skalach, gdzie każdy dodatkowy parametr ma relatywnie dużą wagę.
Przydatna praktyka to rozdzielenie prób: na jednej próbie szacowany jest model wstępny, a na innej – weryfikowany. Jeżeli dostępny jest tylko jeden zbiór danych, można zastosować prostszy zabieg: najpierw dopasować model ściśle teoretyczny, a dopiero potem – w oddzielnej części raportu – pokazać model „empirycznie poprawiony”, z wyraźnym oznaczeniem, które elementy wynikają z danych, a nie z pierwotnej koncepcji.
Moment, w którym lepiej odrzucić model zamiast go poprawiać, bywa sygnalizowany przez kilka objawów jednocześnie:
- niska i niestabilna rzetelność przy rozsądnych ładunkach,
- konieczność wprowadzenia wielu korelacji błędów, by osiągnąć akceptowalne CFI/TLI,
- brak jasnego uzasadnienia teoretycznego dla struktury, która „wyszła” z indeksów modyfikacji.
W takim przypadku uczciwiej jest stwierdzić, że aktualny zestaw pozycji nie wspiera postulowanej struktury, niż szukać kolejnych trików modelowych.
Przykład: decyzja o usunięciu pozycji
Najczęściej zadawane pytania (FAQ)
Po co robić CFA, skoro mam wysokie alfa Cronbacha dla skali?
Alfa Cronbacha informuje o spójności wewnętrznej pozycji, ale nie mówi, czy skala jest jednowymiarowa ani czy pozycje faktycznie mierzą zakładany konstrukt. Można mieć bardzo wysokie alfa dla skali, która w praktyce „skleja” kilka różnych zjawisk w jeden wynik.
CFA sprawdza, czy konkretna, z góry założona struktura (np. trzy czynniki: komunikacja, sprawność obsługi, zaufanie) pasuje do danych. Pokazuje, czy pozycje ładują się na właściwe czynniki, czy model jest dopasowany i czy skala rzeczywiście mierzy to, co deklarujemy w pracy dyplomowej lub artykule naukowym.
Kiedy w badaniu ankietowym użyć EFA, a kiedy CFA?
EFA stosuje się, gdy struktura skali nie jest jeszcze jasna: skala jest nowa, adaptowana lub brak solidnego modelu teoretycznego. EFA „podpowiada”, ile czynników może istnieć i które pozycje do nich należą, bez sztywnych założeń z góry.
CFA wykorzystuje się wtedy, gdy mamy już zdefiniowany model: liczbę czynników, przydział pozycji do czynników i założenia co do korelacji między czynnikami. Typowy schemat w badaniach: najpierw EFA na próbie pilotażowej, a później CFA na osobnej próbie potwierdzającej, lub od razu CFA, jeśli korzystamy z dobrze ugruntowanej skali z literatury.
Jak ocenić, czy model CFA dobrze pasuje do danych (CFI, RMSEA itp.)?
W praktyce badawczej korzysta się z kilku wskaźników dopasowania jednocześnie. Najczęściej raportowane są m.in.: CFI/TLI (porównanie modelu z modelem „bez struktury”) oraz RMSEA/SRMR (błąd przybliżenia modelu). Każdy z nich pokazuje dopasowanie z innej perspektywy.
Przyjmuje się orientacyjne progi: CFI/TLI powyżej 0,90 jako dopuszczalne, powyżej 0,95 jako dobre; RMSEA poniżej 0,08 jako akceptowalne, poniżej 0,06 jako dobre; SRMR poniżej 0,08. To nie są twarde granice, ale punkt odniesienia przy ocenie, czy model pomiarowy skali jest wystarczająco zgodny z danymi, by wyciągać dalsze wnioski.
Jak interpretować ładunki czynnikowe w CFA dla pozycji skali Likerta?
Ładunek czynnikowy pokazuje, jak silnie dana pozycja jest powiązana z czynnikiem latentnym. Im wyższy ładunek, tym bardziej odpowiedzi na tę pozycję odzwierciedlają poziom badanego konstruktu (np. satysfakcji czy lęku), a mniej szum i czynniki uboczne.
W wielu dziedzinach za minimalnie akceptowalne uznaje się ładunki rzędu 0,40–0,50, a za dobre – powyżej 0,60. Pozycje z bardzo niskimi ładunkami (np. 0,20–0,30) zwykle rozważa się do usunięcia lub przeformułowania, bo słabo „trzymają się” czynnika, który mają mierzyć.
Czy skala dwuwymiarowa może mieć jedno alfa Cronbacha, czy trzeba robić CFA?
Dla skali wielowymiarowej raportowanie jednego, globalnego alfa jest mylące. Wysokie alfa może przykrywać fakt, że w środku mamy dwie lub więcej różnych podskal, które mierzą odmienne konstrukty. W takim przypadku sensowniejsze jest liczenie osobnych alfa dla każdej podskali.
CFA pozwala formalnie sprawdzić, czy model dwuczynnikowy (np. „zadowolenie z warunków” i „zadowolenie z relacji”) rzeczywiście lepiej opisuje dane niż model jednoczynnikowy. Dopiero wtedy można zdecydować, czy raportować jeden łączny wynik, czy kilka wyników dla wyodrębnionych czynników.
Jak sprawdzić w CFA, czy adaptowana skala działa tak samo w nowej wersji językowej?
W przypadku adaptacji skali do innego języka lub kontekstu kulturowego zaczyna się zwykle od zdefiniowania modelu znanego z oryginału (np. liczba czynników, przypisanie pozycji). Następnie wykonuje się CFA w nowej próbie, testując, czy ten sam model jest dobrze dopasowany do danych.
Jeśli dopasowanie jest słabe, badacz sprawdza ładunki czynnikowe i błędy pomiaru, szuka pozycji, które „odstają”, oraz analizuje modyfikacje modelu. Przy bardziej zaawansowanych analizach (porównywanie krajów, grup) wchodzi się w testowanie inwariancji pomiaru, ale pierwszy krok pozostaje ten sam: czy podstawowy model pomiarowy skali w ogóle się w nowej populacji utrzymuje.
Jak narysować i opisać model pomiarowy skali w pracy dyplomowej?
Model pomiarowy można przedstawić jako diagram: elipsy oznaczają czynniki latentne (np. „Zaangażowanie”), prostokąty – pozycje skali (itemy), a strzałki – relacje od czynnika do pozycji. Przy każdej pozycji umieszcza się dodatkowy symbol błędu pomiaru, pokazujący niewyjaśnioną część wariancji.
W opisie tekstowym wystarczy jasno odpowiedzieć na dwa pytania: ile czynników zakładamy i które pozycje do nich należą. Przykład: „Model obejmuje trzy czynniki: Komunikacja (itemy 1–5), Sprawność obsługi (itemy 6–10) oraz Zaufanie (itemy 11–15). Czynniki mogą być ze sobą skorelowane”. Taki opis, połączony z czytelnym diagramem, ułatwia recenzentowi i czytelnikowi zrozumienie konstrukcji skali.
Najważniejsze punkty
- CFA służy do sprawdzenia, czy skala rzeczywiście mierzy zakładany konstrukt – testuje zgodność danych z przyjętym modelem teoretycznym (liczba czynników, przypisanie pozycji do czynników, powiązania między czynnikami).
- Wysokie alfa Cronbacha nie gwarantuje trafności strukturalnej skali – możliwa jest skala spójna, ale mierząca coś innego, niż zakładano; CFA pozwala wykryć takie rozbieżności.
- EFA ma charakter eksploracyjny i służy do odkrywania struktury czynników, natomiast CFA testuje z góry określony model; wybór metody zależy od tego, co już wiemy o konstrukcie i skali przed analizą danych.
- CFA jest szczególnie potrzebna przy skalach wielowymiarowych, w publikacjach naukowych, przy adaptacji narzędzia do nowej kultury/języka oraz gdy skala stanowi kluczowy element dalszego modelu (np. SEM).
- W prostych zastosowaniach, przy krótkich jednowymiarowych indeksach używanych głównie operacyjnie (np. szybka ankieta w firmie), często wystarczy alfa Cronbacha i korelacje między pozycjami zamiast pełnej CFA.
- Typowe zastosowania CFA to: potwierdzanie struktury znanej skali w nowej populacji, weryfikowanie struktury nowej skali po EFA oraz ocena modelu pomiarowego przed testowaniem modelu strukturalnego w SEM.
- Model pomiarowy przedstawia relacje między ukrytymi czynnikami a pozycjami skali (z uwzględnieniem błędów pomiaru); jego diagram – elipsy, prostokąty i strzałki – pomaga jednoznacznie pokazać, jak rozumiany jest badany konstrukt.
Źródła
- Confirmatory Factor Analysis for Applied Research. Guilford Press (2015) – Podstawy CFA, dopasowanie modelu, interpretacja wskaźników
- Structural Equation Modeling with AMOS: Basic Concepts, Applications, and Programming. Routledge (2016) – Praktyczne wprowadzenie do CFA i SEM na przykładach ankiet
- Latent Variable Modeling Using R: A Step-by-Step Guide. Springer (2019) – CFA w R (lavaan), przykłady skal Likerta i oceny dopasowania
- Applied Confirmatory Factor Analysis. SAGE Publications (1989) – Klasyczne omówienie CFA, ładunki czynnikowe, błędy pomiaru
- Psychometric Theory. McGraw-Hill (1994) – Rzetelność, alfa Cronbacha, modele czynnikowe w pomiarze psychologicznym
- Standards for Educational and Psychological Testing. American Educational Research Association (2014) – Standardy trafności i rzetelności, rola analiz czynnikowych
- Structural Equation Modeling: A Multidisciplinary Journal. Taylor & Francis – Artykuły o CFA, dopasowaniu modeli i praktyce SEM
- Multivariate Data Analysis. Pearson (2016) – Rozdziały o EFA i CFA, zastosowania w badaniach ankietowych






