Dlaczego braki danych w ankietach to realny problem analityczny
Braki danych jako norma w badaniach surveyowych
Braki danych w ankietach nie są wyjątkiem, tylko standardem. Nawet dobrze zaprojektowany kwestionariusz, poprawnie przeprowadzona rekrutacja i rzetelni ankieterzy nie gwarantują wypełnienia wszystkich pozycji. Respondenci pomijają pytania z różnych powodów: zmęczenie, brak zrozumienia, brak chęci ujawniania wrażliwych informacji, techniczne problemy w ankietach online. Traktowanie braków wyłącznie jako „błędu” prowadzi do zbyt agresywnego czyszczenia danych lub nieświadomego ich ignorowania.
W praktyce badawczej chodzi nie o to, by „pozbyć się” braków za wszelką cenę, ale by zarządzić nimi tak, aby jak najmniej zniekształcić wnioski. To oznacza konieczność zrozumienia mechanizmu powstawania braków, ich rozkładu w zbiorze danych oraz konsekwencji decyzji o usunięciu lub imputacji.
Skutki ignorowania braków danych dla wyników
Jeśli braki danych w ankietach zostaną zignorowane (czyli np. program domyślnie usuwa całe przypadki, a analityk tego nie kontroluje), problemy pojawiają się na kilku poziomach:
- Stronniczość estymatorów – średnie, korelacje, współczynniki regresji są liczone na „okrojonej” próbie, która może różnić się od pełnej. Jeśli osoby z brakami są specyficzne (np. młodsze, o niższych dochodach), wyniki przestają być reprezentatywne.
- Spadek mocy testów – mniejsza liczebność próby (N) oznacza mniejszą szansę wykrycia realnych efektów jako istotnych statystycznie. W pracy dyplomowej może to skutkować licznymi wynikami „nieistotnymi”, które w większej próbie byłyby znaczące.
- Zaburzenie struktury skal – w skalach Likerta oblicza się sumy lub średnie z wielu pozycji. Braki na pojedynczych pozycjach mogą powodować, że część respondentów zostanie wycięta z analizy rzetelności (alfa Cronbacha) czy analizy czynnikowej, co zmienia strukturę badanej skali.
W efekcie dwie osoby korzystające z tych samych surowych danych, ale różnie obchodzące się z brakami, mogą otrzymać wyraźnie odmienne wyniki opisowe i inne wnioski o istotności efektów. To realny problem metodologiczny, który trzeba jawnie opisać w raporcie lub pracy dyplomowej.
Skale Likerta i pytania zamknięte – większe ryzyko braków
W ankietach z rozbudowanymi skalami Likerta (np. 20–30 pozycji mierzących jedną cechę) ryzyko braków rośnie wraz z długością skali. Każda pozycja to dodatkowa szansa, że respondent pominie odpowiedź. Jeśli skala jest powtarzalna lub nużąca, ludzie przeskakują wybrane pytania, a czasem całe bloki.
Podobnie przy pytaniach zamkniętych wielokrotnego wyboru: jeśli lista odpowiedzi jest długa lub nie obejmuje oczywistej opcji „trudno powiedzieć”, część osób zostawi pytanie bez odpowiedzi. Dodatkowo w pytaniach wrażliwych (dochód, zdrowie psychiczne, zachowania ryzykowne) respondenci mogą świadomie unikać odpowiedzi, co prowadzi do braków o określonym mechanizmie (MNAR – o tym dalej).
Skutkiem jest nierównomierne rozłożenie braków: niektóre pozycje długiej skali są pełne, inne mają znaczące ubytki. To wpływa na obliczanie wyników skali, rzetelność, a także analizy zależności z innymi zmiennymi.
Praktyczny przykład: skala satysfakcji a kilka braków
Wyobraźmy sobie skalę satysfakcji klienta z 8 pozycjami ocenianymi w skali Likerta 1–5. Zgodnie z założeniami obliczana jest średnia z wszystkich pozycji, a następnie porównywane są grupy klientów (np. kobiety vs mężczyźni). Jeśli kilka osób ma braki na jednej lub dwóch pozycjach, domyślne ustawienie „listwise” w programie może ich całkowicie wykluczyć z porównania grup.
Jeśli osoby, które pominęły trudniejsze lub bardziej szczegółowe pozycje, są jednocześnie mniej zadowolone, w analizie zostaną głównie osoby z wyższą satysfakcją. Średnia satysfakcji będzie zawyżona, a różnice między grupami mogą się „wygładzić”. Bez jawnego opisania, jak poradzono sobie z brakami, czytelnik raportu nie ma szans ocenić, czy wyniki są stabilne.
Rodzaje braków danych: MCAR, MAR, MNAR – o co w tym chodzi
MCAR – braki całkowicie losowe
MCAR (Missing Completely At Random) oznacza, że brak odpowiedzi nie jest związany ani z obserwowanymi zmiennymi, ani z nieobserwowaną wartością tej zmiennej. Najprościej: odpowiedź jest brakująca „przez przypadek”, np. respondent przypadkowo pominął pytanie, bo przewinął ekran zbyt szybko.
Przykład z ankiety: część respondentów nie odpowiedziała na pytanie o satysfakcję z obsługi tylko dlatego, że przy wypełnianiu na telefonie okno się nie doładowało lub strona chwilowo się zawiesiła. Brak odpowiedzi nie jest związany ani z poziomem satysfakcji, ani z cechami respondentów.
Przy MCAR proste metody, jak usuwanie przypadków z brakami w analizowanych zmiennych (listwise deletion), są statystycznie poprawne – estymatory pozostają nieobciążone, choć rośnie ich wariancja (mniejsza liczebność próby).
MAR – braki zależne od obserwowanych zmiennych
MAR (Missing At Random) oznacza, że prawdopodobieństwo braku danych zależy od innych, obserwowanych zmiennych, ale – przy uwzględnieniu tych zmiennych – nie zależy od samej brakującej wartości. Formalnie to nadal „losowość warunkowa”, ale praktycznie sytuacja jest bardziej złożona.
Przykład z ankiety: pytanie o dochód częściej jest pomijane przez osoby młodsze i gorzej wykształcone. Jeśli w danych posiadamy wiek i poziom edukacji, możemy modelować mechanizm braków jako MAR – braki nie są całkowicie losowe, ale dają się opisać poprzez znane zmienne.
Dla MAR usuwanie przypadków zwykle prowadzi do stronniczości, ale zaawansowana imputacja (np. wielokrotna imputacja, FIML) może ten problem mocno zredukować, wykorzystując informacje zawarte w innych zmiennych.
MNAR – braki zależne od niezaobserwowanej wartości
MNAR (Missing Not At Random) oznacza, że prawdopodobieństwo braku odpowiedzi zależy od samej brakującej wartości lub innych nieobserwowanych zmiennych. Czyli brak nie jest „przypadkowy” nawet po uwzględnieniu tego, co wiemy z danych.
Typowy przykład z ankiet: pytanie o dochód jest częściej pomijane przez osoby o bardzo niskich lub bardzo wysokich dochodach. Mechanizmu nie opisze się w pełni na podstawie dostępnych zmiennych – sama nieodpowiedź jest informacją, że wartość mogła być „ekstremalna”. Podobnie pytania o zachowania ryzykowne (np. nadużywanie alkoholu) są częściej pomijane przez osoby, które takich zachowań doświadczają.
Przy MNAR żadna standardowa metoda imputacji nie „naprawi” danych w pełni. Potrzebne jest łączenie zaawansowanych modeli z analizą wrażliwości (sprawdzaniem, jak silnie wyniki reagują na różne założenia imputacji) i bardzo uczciwy opis ograniczeń badania.
Konsekwencje mechanizmu braków dla wyboru metody
Dobór metody obsługi braków danych jest silnie związany z mechanizmem braków:
- Przy MCAR proste usuwanie (listwise) jest akceptowalne, o ile odsetek braków nie jest duży i N pozostaje wystarczające.
- Przy MAR usuwanie zwykle zniekształca wyniki – lepiej stosować imputację wykorzystującą inne zmienne (np. wielokrotna imputacja, regresja predykcyjna).
- Przy MNAR standardowe procedury (usuwanie, prosta imputacja) dają obciążone wyniki; kluczowe staje się testowanie różnych scenariuszy i opisanie niepewności.
W praktyce mechanizmu braków nie da się „udowodnić” w sensie ścisłym. Można go jedynie uprawdopodobnić, korzystając z analizy danych, znajomości kontekstu badania i zdrowego rozsądku.

Diagnostyka braków danych w praktyce: zanim zaczniesz imputować
Podstawowe statystyki braków na poziomie zmiennych i respondentów
Pierwszy krok to policzenie odsetka braków dla:
- każdej zmiennej (pytania, pozycji skali),
- każdego respondenta (jaki procent pytań pominął).
W większości pakietów (SPSS, R, Jamovi) można uzyskać tabelę z liczbą i procentem braków na zmienną. To pozwala szybko zidentyfikować „problematyczne” pozycje, które mają np. 15–30% braków, podczas gdy większość pytań ma 0–3% braków.
Warto też policzyć, ilu respondentów ma bardzo dużo braków (np. >30% pytań bez odpowiedzi). Tacy respondenci często są „pół-wypełnieni” i rozważne jest ich usunięcie z analizy, szczególnie jeśli wiemy, że ankieta została przerwana w połowie.
Wzorce braków: macierze, wykresy, heatmapy
Sama liczba braków to za mało. Kluczowy jest wzorzec ich występowania. Dwie sytuacje mogą mieć ten sam procent braków, ale zupełnie inną strukturę: losowo rozproszone vs skupione w konkretnych blokach pytań.
Pomocne narzędzia diagnostyczne:
- Macierz braków – tabela, w której wiersze to respondenci, kolumny to zmienne, a komórki oznaczają brak/dane. Już na oko widać, czy braki pojawiają się całymi „pasmami” (np. wszyscy pomijają blok o zdrowiu) czy losowo.
- Heatmapa braków – graficzna wersja macierzy, często z kolorami dla „dane” i „brak”. W R pakiety typu naniar czy VIM pozwalają tworzyć takie wizualizacje.
- Wykresy brakujące vs niebrakujące – np. porównanie rozkładu wieku dla osób, które odpowiedziały / nie odpowiedziały na pytanie o dochód. Jeśli różnice są wyraźne, mechanizm braków raczej nie jest MCAR.
Takie narzędzia nie tylko pomagają dobrać metodę imputacji, ale także dostarczają materiału do opisu jakości danych i ograniczeń badania.
Test MCAR Little’a – co mówi i czego nie mówi
Test Little’a (Little’s MCAR test) to standardowy test statystyczny sprawdzający hipotezę, że braki danych są MCAR. Jest dostępny m.in. w SPSS (Missing Value Analysis), R (pakiet BaylorEdPsych, nortest – w zależności od implementacji) i innych narzędziach.
Wynik testu:
- p > 0,05 – brak podstaw do odrzucenia hipotezy MCAR (braki mogą być traktowane jako zgodne z MCAR),
- p ≤ 0,05 – odrzucenie MCAR (braki nie są całkowicie losowe).
Interpretacja musi być ostrożna. Test ma swoje ograniczenia: jest wrażliwy na liczebność próby i rozkłady zmiennych. Brak istotności nie oznacza, że braki są na pewno MCAR, tylko że na podstawie danych nie widać wyraźnego odstępstwa. Istotność z kolei sugeruje, że mechanizm jest raczej MAR lub MNAR.
Sprawdzanie związku braków z innymi zmiennymi
Prosty, ale bardzo użyteczny krok: dla każdej zmiennej z brakami tworzy się binarną zmienną brak / nie brak (0/1), a następnie sprawdza się jej związki z innymi zmiennymi:
- testy chi-kwadrat – brak vs płeć, brak vs poziom edukacji, brak vs grupa badana,
- testy t lub U Manna-Whitneya – brak vs wiek (porównanie wieku osób z i bez braków),
- prosta regresja logistyczna – zmienna „brak” jako zmienna zależna, inne zmienne jako predyktory.
Jeśli brak odpowiedzi na dane pytanie jest silnie związany z określonym profilem respondenta (np. brak odpowiedzi na dochód u młodszych osób), jest mało prawdopodobne, że braki są MCAR. Bardziej realistyczne jest MAR, co powinno kierować w stronę imputacji wykorzystującej te zmienne.
Praktyczna checklista diagnostyczna
Przed decyzją o imputacji lub usuwaniu przydaje się krótka checklista:
- Oblicz procent braków na poziomie każdej zmiennej i każdego respondenta.
- Zidentyfikuj pozycje i sekcje z najwyższym odsetkiem braków.
- Obejrzyj wzorce braków: macierz/heatmapa, czy braki są skupione w blokach.
- Wykonaj test Little’a MCAR (jeśli dostępny).
- Sprawdź związki „brak vs nie brak” z kluczowymi zmiennymi demograficznymi.
- Zapisz najważniejsze obserwacje – przydadzą się w rozdziale o metodach i ograniczeniach.
Strategia ogólna: kiedy usuwać, kiedy imputować, a kiedy zostawić
Kluczowe pytania przed wyborem metody
Ocena wpływu braków na cele analizy
Zanim przejdziesz do konkretnych metod, trzeba jasno określić, co dokładnie ma być analizowane i jak braki mogą to zaburzać. Inne podejście będzie przy:
- szacowaniu prostych proporcji/średnich (np. średnia satysfakcja, odsetek poparcia),
- budowaniu modeli predykcyjnych (np. regresje, drzewa, modele mieszane),
- analizie struktur latentnych (np. analizy czynnikowe, modele IRT, SEM),
- analizach porównawczych (np. grupy eksperymentalne vs kontrolne, porównanie lat badań).
To, że jakaś zmienna ma sporo braków, nie zawsze jest krytyczne. Jeśli jest marginalna dla twojego pytania badawczego, możesz ją pominąć bez wielkiego żalu. Jeśli natomiast jest kluczową zmienną wynikową (np. główna skala efektu interwencji), trzeba rozważyć bardziej złożone podejście, nawet gdy odsetek braków jest umiarkowany.
Balans między prostotą a poprawnością
Obsługa braków to zwykle kompromis między:
- prostotą i przejrzystością (łatwo to wytłumaczyć recenzentowi, klientowi, samemu sobie za rok),
- statystyczną poprawnością (minimalizacja obciążenia estymatorów, efektywne wykorzystanie informacji),
- kosztem implementacji (czas, narzędzia, kompetencje zespołu).
Jeśli masz mało braków (np. 1–3% w kluczowych zmiennych) i mechanizm jest bliski MCAR, proste listwise deletion może być w pełni wystarczające. Jeśli jednak analizujesz złożony model z wieloma zmiennymi, przy MAR i 10–20% braków w części wskaźników, sens ma przejście na wielokrotną imputację lub FIML, nawet kosztem dodatkowej pracy.
Prosty schemat decyzyjny (myślowy, nie dogmatyczny)
Praktyczny sposób myślenia o brakach:
- Jak dużo braków?
Niewielkie odsetki (np. <5%) w większości zmiennych i respondentów – można rozważać usuwanie. Większe odsetki wymagają diagnozy mechanizmu i zwykle bardziej zaawansowanych metod. - Jak ważne są zmienne z brakami?
Zmienne peryferyjne można czasem odłożyć lub potraktować prościej. Zmienne kluczowe – nie. - Jaki mechanizm braków jest najbardziej realistyczny?
Przy przybliżonym MCAR: usuwanie bywa akceptowalne. Przy MAR: myślenie w kategoriach imputacji, modeli z pełną informacją. Przy MNAR: analiza wrażliwości, ostrożne wnioski. - Jak zaawansowane są późniejsze analizy?
Im bardziej złożone modele, tym bardziej opłaca się „dopieszczona” obsługa braków, bo kumuluje się złożoność błędów.
Ten schemat nie zastępuje myślenia, ale pozwala szybko odsiać skrajne pomysły (np. „zawsze imputuj średnią” albo „zawsze usuwaj wszystko z brakiem”).
Kiedy lepiej niczego nie imputować
Są sytuacje, w których imputacja przyniesie więcej szkody niż pożytku:
- Bardzo duży odsetek braków w całej zmiennej (np. >40–50%).
Taka zmienna jest słabo poinformowana. Imputacja wypełni ją „domysłami” opartymi na małej liczbie obserwacji. Czasem uczciwiej jest z niej zrezygnować lub ograniczyć analizy do podpróby z odpowiedzią. - Ekstremalne MNAR (np. pytania wysoce wrażliwe, z wyraźnym unikaniem odpowiedzi przez konkretne osoby).
Wypełnianie takich braków jakimiś średnimi czy nawet modelem regresyjnym często tworzy pozory precyzji. Lepsze może być opisanie wzorca braków i analiza na danych kompletnych + analiza wrażliwości. - Bardzo proste, opisowe raporty bez statystycznych testów i modeli.
Jeśli robisz jedynie tabelki opisowe dla klienta, a odsetek braków jest mały, dodatkowe komplikowanie raportu imputacją może być nieadekwatne do celu. Wystarczy czytelna informacja o liczbie dostępnych obserwacji (N) przy każdej tabeli.
Łączenie metod: miks usuwania, imputacji i pozostawienia braków
W jednym projekcie ankietowym często stosuje się kilka różnych strategii jednocześnie, zależnie od roli zmiennych:
- Usuwanie całych przypadków z ekstremalnie dużą liczbą braków (np. niedokończone ankiety),
- Imputacja dla kluczowych wskaźników wynikowych i predyktorów, gdy mechanizm jest bliski MAR,
- Pozostawienie braków w mniej istotnych zmiennych, przy jednoczesnym raportowaniu, że taka zmienna miała określony odsetek braków i była analizowana na mniejszej podpróbie.
Tip: przed startem analiz przygotuj krótki „protokół braków” – jedno miejsce, gdzie zapiszesz decyzje: które zmienne imputujesz, którą metodą, które przypadki usuwasz, które zmienne zostają z brakami. To bardzo ułatwia replikację i tłumaczenie się przed recenzentem lub klientem.

Usuwanie obserwacji (casewise, listwise, pairwise): kiedy to ma sens
Usuwanie listwise (listwise deletion)
Listwise deletion (czasem nazywane też complete-case analysis) polega na tym, że do danej analizy wchodzą tylko respondenci mający komplet danych we wszystkich analizowanych zmiennych. Jeśli brakuje choć jednej, cały przypadek wypada z analizy.
Zalety:
- prosta implementacja i interpretacja,
- brak komplikacji w szacowaniu błędów standardowych – analizy są prowadzone na „pełnej” macierzy danych,
- przy MCAR estymatory są nieobciążone.
Wady:
- utrata liczebności – im więcej zmiennych w modelu, tym większa szansa, że ktoś ma brak gdzieś,
- przy MAR/MNAR – ryzyko systematycznego zniekształcenia próby (np. pozostają osoby starsze i lepiej wykształcone),
- różne analizy mogą być wykonywane na innych podzbiorach przypadków, jeśli program domyślnie stosuje listwise dla każdej analizy oddzielnie (co komplikuje porównania).
Listwise deletion ma sens głównie wtedy, gdy:
- odsetek braków w każdej z kluczowych zmiennych jest mały,
- mechanizm braków jest zbliżony do MCAR (lub przynajmniej brak silnych przesłanek przeciwko),
- liczebność próby jest na tyle duża, że utrata części przypadków nie ograniczy mocy analizy.
Usuwanie casewise na poziomie sekcji lub analizy
Czasem stosuje się podejście „lokalne”: usuwanie przypadków tylko dla konkretnej analizy (często i tak tak to działa technicznie). Przykład: inna liczba przypadków w tabeli opisowej skali A, inna w modelu regresji, jeszcze inna w analizie czynnikowej. Formalnie to nadal listwise, ale „relative to” konkretnego podzbioru zmiennych.
Ten styl ma dwie konsekwencje:
- zwiększa wykorzystanie dostępnych danych (każda analiza korzysta z maksymalnej liczby przypadków, które mają komplet danych właśnie dla niej),
- utrudnia porównywanie wyników między analizami, bo każda jest oparta na trochę innej próbie.
Praktyczny kompromis: dla kluczowych wniosków (np. główne modele regresji) zachować spójną definicję próby – np. filtrować próbę raz, a potem stosować ją konsekwentnie we wszystkich głównych analizach, zamiast polegać na domyślnym automatycznym usuwaniu w każdym kroku.
Usuwanie pairwise (pairwise deletion)
Pairwise deletion polega na tym, że dla każdej pary zmiennych w analizie korelacji/regresji używa się maksymalnej liczby przypadków, które mają dane dla tej konkretnej pary. To często domyślna opcja w pakietach przy liczeniu macierzy korelacji.
Zalety:
- maksymalne wykorzystanie dostępnych danych dla poszczególnych relacji między zmiennymi,
- może istotnie zwiększać N przy obliczaniu pojedynczych korelacji w porównaniu z listwise deletion.
Wady:
- różne korelacje oparte są na różnych podzbiorach przypadków,
- może prowadzić do niespójnych macierzy korelacji (nie dodatnio określonych), co jest problemem dla dalszych analiz (np. analiza czynnikowa, SEM),
- utrudnia interpretację i replikację wyników – trudno powiedzieć, jaka jest faktyczna „efektywna próba”.
Pairwise deletion bywa użyteczne pomocniczo, do wstępnej eksploracji związków. Do finalnych modeli bazujących na pełnej macierzy korelacji lepiej stosować spójniejsze podejścia (pełna informacja, imputacja, listwise na jasno zdefiniowanej próbie).
Usuwanie respondentów z dużą liczbą braków
Osobny przypadek to usuwanie całych ankiet, w których liczba braków przekracza określony próg (np. >30–40% pytań bez odpowiedzi). Tacy respondenci zwykle nie dostarczają stabilnych informacji, a jednocześnie komplikują imputację (brak „kotwic” w danych).
Typowa procedura:
- obliczenie procentu wypełnionych odpowiedzi dla każdego respondenta,
- ustalenie sensownego progu odcięcia (np. na podstawie histogramu, widocznego „odłamu” skrajnie niekompletnych ankiet),
- oznaczenie takich przypadków i wykluczenie ich z dalszych analiz (czasem tylko z części analiz).
Uwaga: jeśli wiele ankiet jest częściowo wypełnionych z powodu błędu narzędzia (np. awaria modułu online dla konkretnego bloku pytań), bezrefleksyjne usuwanie takich przypadków może wprowadzić silną stronniczość. Zanim zrobisz „twardy cut-off”, sprawdź, czy brak nie jest powiązany z czymś technicznym lub organizacyjnym.
Wpływ usuwania na moc statystyczną i interpretację
Każde usunięcie obserwacji zmniejsza efektywne N, co:
- obniża moc testów statystycznych (większe ryzyko błędu II rodzaju – nie wykryjesz istniejącego efektu),
- zwiększa niepewność estymacji (szersze przedziały ufności),
- może zmienić strukturę próby (inny rozkład wieku, płci, wykształcenia).
Dlatego przy większych stratach próby warto jawnie pokazać różnice między:
- pełną próbą startową (N0),
- próbą po wykluczeniach technicznych (N1),
- próbą analizową po usunięciu braków (N2),
i np. porównać podstawowe charakterystyki demograficzne między N0 a N2. Jeśli widać wyraźne różnice, trzeba to odnotować jako potencjalne źródło biasu.
Najprostsze formy imputacji: średnia, mediana, „środek skali”, hot-deck
Imputacja średnią (mean imputation)
Imputacja średnią to najprostsza i jednocześnie jedna z najbardziej problematycznych metod. Polega na zastąpieniu braków w danej zmiennej jej średnią obliczoną z dostępnych obserwacji.
Zalety:
- łatwa do zrozumienia,
- szybka do wdrożenia w dowolnym programie,
- utrzymuje pierwotną średnią zmiennej (przy założeniu, że braki nie są skrajnie zlokalizowane).
Wady (kluczowe):
- zaniżenie wariancji – wszystkie imputowane wartości są takie same, więc zmienna staje się „bardziej skupiona” wokół średniej,
- zaniżenie korelacji z innymi zmiennymi – wprowadzenie stałej wartości dla braków działa jak „szum” bez struktury współzmienności,
- ignorowanie informacji zawartej w innych zmiennych (imputacja jest „jednowymiarowa”).
Imputacja średnią bywa jeszcze jako-tako do obrony w pojedynczych pozycjach skali przy niskim odsetku braków (np. 1 brak na 10 pozycji u niewielkiej części respondentów), ale w poważniejszych analizach lepiej z niej zrezygnować na rzecz bardziej sensownych metod.
Imputacja medianą lub „środkiem skali”
W przypadku zmiennych porządkowych (skale Likerta) zamiennikiem średniej jest zwykle:
- mediana – statystyka odporna na wartości skrajne,
- „środek skali” – np. odpowiedź 3 w skali 1–5 typu „ani zgadzam się, ani nie zgadzam się”.
Konsekwencje imputacji medianą / środkiem skali
Na papierze mediana czy „środek skali” wyglądają rozsądniej niż średnia, bo lepiej pasują do charakteru danych porządkowych. Problem statystyczny pozostaje jednak bardzo podobny.
Skutki są zbliżone:
- spłaszczenie rozkładu – zwiększa się częstość najczęstszej kategorii (często właśnie środka),
- zaniżenie wariancji – zwłaszcza jeśli imputacja dotyczy wielu braków w tej samej skali,
- zaburzenie korelacji – zwłaszcza dla pozycji o skośnym rozkładzie odpowiedzi (np. większość mocno się zgadza lub mocno nie zgadza).
Jeśli imputujesz pojedyncze braki w dłuższej skali (np. 1 pozycja na 15) i robisz to na poziomie pozycji, przy niewielkim odsetku braków globalny wpływ na wynik sumaryczny bywa mały. Gorzej, gdy:
- braki koncentrują się w konkretnych grupach (np. starsi respondenci częściej omijają pytania o technologię),
- brakuje całych bloków pozycji (np. ostatnia strona ankiety online).
Imputacja środkiem skali ma też konsekwencje interpretacyjne. W praktyce „ani się zgadzam, ani nie zgadzam” jest często realną postawą, a nie tylko kodem technicznym. Podstawienie tej kategorii jako wartości domyślnej miesza postawy „neutralne” z „nieznanymi”.
Imputacja na poziomie skali (np. średnia z istniejących pozycji)
Bardziej użyteczne podejście w badaniach ankietowych to imputacja na poziomie wyniku skali, a nie pojedynczych pozycji. Klasyczny wariant: jeśli respondent odpowiedział na większość pozycji danej skali (np. ≥50–80%), a brakuje kilku, to:
- liczysz średnią z posiadanych pozycji dla tego respondenta,
- imputujesz nią brakujące pozycje (lub od razu używasz tej średniej jako wyniku skali).
Mechanizm: zakładasz, że odpowiedzi na brakujące pozycje byłyby podobne do odpowiedzi na pozostałe pozycje tej samej skali. To już wykorzystuje informację indywidualną (w obrębie respondenta), a nie globalną średnią z całej próby.
Typowy schemat decyzyjny:
- skala złożona z wielu podobnych pozycji (np. 10–20 itemów o tym samym konstrukcie),
- brak ≤20–30% pozycji u danego respondenta,
- brak imputacji, jeśli ktoś odpowiedział na zbyt mało pozycji (np. <50%).
Plusy:
- lepsza reprezentacja indywidualnego profilu niż imputacja globalną średnią,
- mniejsze zniekształcenie wariancji wyniku skali niż przy imputowaniu każdej pozycji jedną stałą dla całej próby.
Minusy:
- założenie względnej jednorodności skali (pozycje mierzą to samo i są w miarę równoległe),
- przy mocno wielowymiarowej skali (kilka ukrytych czynników) ta metoda może maskować różnice między podwymiarami.
Przykład praktyczny: w skali dobrostanu emocjonalnego brakuje u respondenta dwóch pozycji na dziesięć. Odpowiedzi na pozostałych ośmiu są spójne, bez dziwnych przeskoków, a RIT (korelacje pozycji z sumą skali) są wysokie. Imputacja średnią z tych ośmiu pozycji jest zwykle bardziej sensowna niż usuwanie całego wyniku skali.
Hot-deck: imputacja „podobnym respondentem”
Hot-deck imputacja to prosty, ale już wielowymiarowy sposób na wykorzystanie innych zmiennych przy uzupełnianiu braków. Zamiast wstawiać średnią czy medianę, przypisujesz odpowiedź konkretnej, podobnej osoby (dawcy, ang. donor).
Ogólna idea:
- dzielisz próbę na „szufladki” (klastry) według kilku dostępnych zmiennych – np. płeć, wiek, wykształcenie, poziom dochodu,
- dla respondenta z brakującą wartością wyszukujesz innego respondenta bez braków w tej zmiennej z tej samej szufladki,
- imputujesz wartość dawcy (czasem losowo wybierając jednego z kilku kandydatów).
Plusy:
- zachowujesz realistyczne wartości (nie wprowadzasz wartości „średnich”, tylko faktyczne odpowiedzi z próby),
- łatwo zachować rozkład zmiennej (np. rozkład kategorii odpowiedzi, rozkład płac),
- przy dobrym doborze szufladek imputacja uwzględnia związek brakującej zmiennej z innymi zmiennymi.
Minusy:
- jeśli szufladki są zbyt „ciasne” (dużo kryteriów) i próba nie jest duża, możesz nie znaleźć sensownego dawcy,
- jeśli są zbyt „luźne” (mało kryteriów), imputacja staje się zbyt podobna do losowania z całej próby – traci dopasowanie,
- standardowe błędy po imputacji hot-deck są trudniejsze do oszacowania, jeśli nie stosujesz bardziej zaawansowanych wariantów (np. wielokrotny hot-deck).
Typowe zastosowania to ankiety społeczno-ekonomiczne, gdzie imputuje się np. brakujące informacje o dochodach, liczbie dzieci, statusie zatrudnienia. Dający i biorcy są dopasowywani np. po regionie, płci, wieku i poziomie wykształcenia.
Odmiany hot-deck w praktyce ankietowej
Hot-deck to rodzina metod. W praktyce badawczej używa się kilku wariantów:
- nearest neighbor hot-deck – dawca wybierany jest jako „najbliższy sąsiad” w przestrzeni kilku zmiennych (np. minimalna odległość euklidesowa lub rankowa),
- random hot-deck – dawca losowany jest spośród wszystkich pasujących kandydatów w szufladce (nie wprowadzasz dodatkowej struktury, zmniejszasz ryzyko systematycznego biasu od pojedynczych obserwacji),
- sequential hot-deck – szukasz dawcy wśród respondentów podobnych, ale dodatkowo bliskich w kolejności zbierania danych (np. ten sam dzień, to samo miejsce rekrutacji) – użyteczne w badaniach terenowych.
Uwaga: hot-deck może „przepompować” w dół lub w górę wariancję, zależnie od konstrukcji szufladek. Jeżeli różnice między szufladkami są bardzo duże, a w środku małe, to imputacja będzie zachowywać różnice między grupami, ale może lekko zaniżać różnice wewnątrz grup. Gdy szufladki są zbyt szerokie, odwrotnie – zwiększasz losowość w obrębie grup, co może rozmywać efekty.
Prosty algorytm hot-deck krok po kroku
Przy ręcznej implementacji w R/Pythonie można zastosować bardzo prosty schemat:
- Wybierz zmienne do tworzenia szufladek (np. płeć, kategorie wiekowe, poziom wykształcenia).
- Podziel dane na dwie części:
- z kompletną informacją w imputowanej zmiennej (dawcy),
- z brakami w imputowanej zmiennej (biorcy).
- Dla każdego biorcy:
- znajdź podzbiór dawców w tej samej szufladce,
- jeśli nie ma kandydatów – rozszerzanie kryteriów (np. łączysz sąsiednie kategorie wieku),
- wylosuj jednego dawcę z tego podzbioru i przepisz jego wartość.
Tip: w logu przetwarzania zapisz, ile przypadków imputowałeś w trybie „awaryjnego rozszerzania szufladek” – to są potencjalne punkty wrażliwe analizy.
Ograniczenia prostych metod imputacji w modelowaniu
Średnia, mediana, środek skali i prosty hot-deck są kuszące, bo nie wymagają rozbudowanych narzędzi. W modelowaniu statystycznym ich ograniczenia stają się jednak szybko widoczne:
- niedoszacowanie niepewności – zachowujesz jeden „wypełniony” zbiór danych, jakby imputowane wartości były pewne; błędy standardowe nie obejmują niepewności związanej z imputacją,
- zniekształcenie relacji między zmiennymi – zaniżone korelacje, zmienione nachylenia regresji, szczególnie gdy imputujesz predyktory lub zmienne zależne w modelach regresyjnych/SEM,
- problemy z testami hipotez – statystyki testowe (np. t, F, chi-kwadrat) zakładają, że dane są „prawdziwymi” obserwacjami; masowa imputacja jedną wartością łamie to założenie.
W prostych analizach opisowych (np. raporty częstotliwości czy średnich na poziomie grup) szkody bywają akceptowalne, szczególnie przy niskim odsetku braków. W złożonych modelach (wielowymiarowa regresja, analiza czynnikowa, modele wzrostu) proste metody często są już zbyt prymitywne. To miejsce, gdzie sensownie jest sięgnąć po bardziej zaawansowane narzędzia.
Bardziej zaawansowane podejścia: imputacja wielokrotna i FIML
Imputacja wielokrotna (Multiple Imputation, MI)
Imputacja wielokrotna to obecnie jeden z głównych standardów radzenia sobie z brakami danych przy założeniu MAR (czasem akceptowalny również przy łagodnym MNAR). Zamiast tworzyć jeden wypełniony zbiór danych, generujesz ich kilka lub kilkanaście, a następnie łączysz wyniki analiz.
Mechanizm w skrócie:
- Budujesz model imputacji, tj. określasz, jakie zmienne i zależności wykorzystujesz do przewidywania brakujących wartości (np. modele regresyjne, drzewa, chained equations).
- Generujesz M kompletów danych (np. M=20), w których braki są wypełnione losowymi wartościami zgodnymi z rozkładem warunkowym z modelu.
- Dla każdego kompletnego zbioru osobno uruchamiasz docelową analizę (regresje, modele SEM, itp.).
- Łączysz wyniki według reguł Rubina (średnie współczynniki + uwzględnienie wariancji międzyimputacyjnej w błędach standardowych).
Kluczowa różnica względem prostych metod: imputacja wielokrotna modeluje niepewność. Nie przypisuje jednej „sztywnej” wartości, tylko rodzinę możliwych wartości, a późniejsza analiza widzi rozrzut między tymi scenariuszami.
Konstruowanie modelu imputacji
Jakość imputacji wielokrotnej zależy bezpośrednio od jakości modelu imputacji. Kilka zasad praktycznych:
- uwzględnij w modelu imputacji wszystkie zmienne, które:
- występują w docelowych modelach (predyktory, zmienne zależne),
- są powiązane z mechanizmem braków (np. wiek, płeć, kanał wypełnienia ankiety).
- Staraj się, aby model imputacji był „bogatszy” niż docelowe modele – może zawierać więcej zmiennych pośredniczących, które pomagają przewidywać brakujące wartości.
- Dla różnego typu zmiennych stosuj adekwatne podmodele:
- dla zmiennych ciągłych – regresja liniowa lub modele oparte na rozkładach ciągłych,
- dla zmiennych dychotomicznych – regresja logistyczna,
- dla zmiennych porządkowych – modele porządkowe (np. proportional odds),
- dla nominalnych wielokategorialnych – np. multinomial logit.
Tip: jeśli korzystasz z popularnych implementacji (np. mice w R, mi/ice w Stacie, pakiety MI w SPSS), domyślne ustawienia są zwykle rozsądnym punktem startu, ale nie zwalniają z myślenia o tym, czy w modelu imputacji jest wszystko, co wiemy o mechanizmie braków.
Łączenie wyników po imputacji wielokrotnej
Po wygenerowaniu M zbiorów każdy współczynnik (np. beta w regresji) ma:
- średnią wartość oszacowania po wszystkich imputacjach,
- dwie składowe wariancji:
- wewnątrzimputacyjną – przeciętny błąd standardowy wewnątrz pojedynczej analizy,
- międzyimputacyjną – zróżnicowanie współczynników między zbiorami.
Reguły Rubina mówią, jak z tych dwóch wariancji złożyć końcowy błąd standardowy, przedziały ufności i testy istotności. Większa niepewność imputacji (duże różnice między zbiorami) zwiększa błędy standardowe – co jest pożądane, bo odzwierciedla brak informacji w danych.
FIML (Full Information Maximum Likelihood)
Najczęściej zadawane pytania (FAQ)
Co to są braki danych w ankietach i dlaczego są problemem w analizie?
Braki danych w ankietach to pytania, na które respondent nie udzielił odpowiedzi (puste komórki w arkuszu danych). Mogą dotyczyć pojedynczych pozycji skali Likerta, całych pytań lub nawet bloków pytań. W badaniach surveyowych są normą, a nie wyjątkiem – pojawiają się z powodów technicznych, z powodu zmęczenia, braku zrozumienia pytania lub niechęci do ujawniania informacji wrażliwych.
Problem zaczyna się na etapie analizy. Jeśli program statystyczny „po cichu” usuwa przypadki z brakami, średnie, korelacje i wyniki testów są liczone na okrojonej, potencjalnie niereprezentatywnej próbie. Prowadzi to do stronniczych estymatorów, spadku mocy testów oraz zaburzenia struktury skal (np. przy liczeniu alfa Cronbacha czy analizie czynnikowej).
Jak braki danych wpływają na wyniki skal Likerta i analizę rzetelności?
W skalach Likerta wynik najczęściej powstaje jako suma lub średnia z wielu pozycji. Jeśli respondent pominie choć jedną z nich, część programów automatycznie wyklucza cały jego wynik z dalszej analizy (tzw. listwise deletion). Przy długich skalach (20–30 pozycji) wystarczy kilka braków, aby liczebność efektywnej próby mocno spadła.
To wpływa na:
- oszacowanie rzetelności (alfa Cronbacha) – obliczane jest na innej, mniejszej grupie niż reszta analiz,
- strukturę czynnikową – przy analizie czynnikowej z danymi „przyciętymi” przez braki skala może wyglądać na jedno- lub wieloczynnikową inaczej, niż gdyby dane były kompletne,
- porównania grup – jeśli np. mniej zadowoleni klienci częściej pomijają trudne pozycje, średnia satysfakcji będzie zawyżona.
Najbezpieczniej jest świadomie zdefiniować zasady: ile braków w skali dopuszczasz i jak liczysz wynik (np. średnia z dostępnych pozycji, dopuszczając maksymalnie 1–2 braki).
Czym różnią się MCAR, MAR i MNAR w brakach danych w ankietach?
To trzy podstawowe mechanizmy braków danych:
- MCAR (Missing Completely At Random) – brak odpowiedzi jest całkowicie losowy, niezależny od wartości zmiennej i innych cech respondenta. Przykład: pytanie nie załadowało się na telefonie.
- MAR (Missing At Random) – brak odpowiedzi zależy od innych, obserwowanych zmiennych, ale przy ich uwzględnieniu nie zależy już od samej brakującej wartości. Przykład: pytanie o dochód częściej pomijają osoby młodsze i gorzej wykształcone.
- MNAR (Missing Not At Random) – brak odpowiedzi zależy od samej brakującej wartości lub nieobserwowanych czynników. Przykład: pytanie o dochód częściej pomijają osoby z bardzo niskimi lub bardzo wysokimi dochodami.
Mechanizm braków determinuje, jakie metody obsługi danych są jeszcze w miarę bezpieczne, a które generują poważne zniekształcenia.
Kiedy można bezpiecznie usuwać przypadki z brakami (listwise deletion)?
Usuwanie całych przypadków z brakami w analizowanych zmiennych jest statystycznie akceptowalne głównie wtedy, gdy braki są zbliżone do MCAR i odsetek braków jest niski. W takiej sytuacji estymatory pozostają nieobciążone, choć tracisz moc statystyczną z powodu mniejszej liczebności próby.
Jeśli:
- braki kumulują się w konkretnych grupach (np. młodsi częściej pomijają dochód),
- braków jest sporo na kluczowych zmiennych,
- lub różnią się istotnie osoby z brakami i bez braków,
proste usuwanie przypadków zaczyna zniekształcać wyniki. Tip: zawsze policz odsetek braków per zmienna i per respondent oraz sprawdź, czy osoby z brakami różnią się od reszty pod względem kluczowych cech (wiek, płeć, wykształcenie).
Jakie metody imputacji braków danych w ankietach są najczęściej stosowane?
Imputacja polega na „uzupełnieniu” braków danymi szacowanymi na podstawie dostępnych informacji. W praktyce surveyowej spotyka się m.in.:
- proste metody: podstawienie średniej, mediany lub modusu – szybkie, ale spłaszczają wariancję i zaniżają korelacje,
- imputacja regresyjna (predykcyjna) – brakująca wartość jest przewidywana na podstawie innych zmiennych,
- wielokrotna imputacja (Multiple Imputation) – generuje kilka kompletnych zbiorów z losowym składnikiem, analizuje każdy z nich, a wyniki łączy zgodnie z regułami Rubina,
- metody oparte na modelach (np. FIML w modelach SEM) – estymacja parametrów z wykorzystaniem pełnej informacji z dostępnych danych.
Do prac dyplomowych i raportów praktycznych najczęściej rekomenduje się wielokrotną imputację, o ile liczebność próby i liczba zmiennych na to pozwala.
Jak rozpoznać, czy braki w mojej ankiecie są MCAR, MAR czy MNAR?
Mechanizmu braków nie da się formalnie „udowodnić”, można go jedynie uprawdopodobnić. W praktyce stosuje się kombinację:
- prostych testów statystycznych (porównywanie osób z brakami i bez braków na innych zmiennych),
- analizy wzorców braków (które pytania są najczęściej puste, u jakich grup),
- znajomości kontekstu – np. pytania o dochód, zdrowie psychiczne czy zachowania ryzykowne rzadko mają braki MCAR.
Jeśli widzisz, że braki skupiają się w konkretnych grupach lub na wrażliwych pozycjach, zakładanie MCAR jest naiwne. Często realistyczne jest MAR, a w pytaniach bardzo wrażliwych – scenariusz MNAR, który trzeba uwzględnić w interpretacji wyników.
Jak opisać w pracy dyplomowej lub raporcie sposób postępowania z brakami danych?
Opis powinien być konkretny i odtwarzalny. Minimum to:
- informacja o odsetku braków dla kluczowych zmiennych (np. „braki na poziomie 3–5% w pozycjach skali X”),
- opis przyjętej strategii (np. „dla braków MCAR zastosowano listwise deletion; dla zmiennych z brakami MAR – wielokrotną imputację”),
- kryteria wykluczeń (np. „respondenci z brakami na ponad 50% pozycji skali zostali wyłączeni z analizy tej skali”).
Dobrą praktyką jest też krótka uwaga o potencjalnym wpływie braków na wyniki (np. możliwe zaniżenie wariancji, zawyżenie średnich) oraz informacja, czy przeprowadzono analizy wrażliwości – np. porównanie wyników przed i po imputacji.






