SPSS’te Eksik Veri (Missing Data) Nasıl İşlenir? 5 Farklı Yöntem
Veri setinizde boş hücreler gördüğünüzde panik yapmayın! Bu rehber, SPSS’te eksik veriyle başa çıkmanın profesyonel yöntemlerini adım adım anlatıyor.
Giriş: Eksik Veri Neden Bu Kadar Önemli?
Araştırmanızı yürütürken karşılaştığınız en yaygın sorunlardan biri eksik veridir. Bir anket uyguladınız ama bazı katılımcılar soruları boş bıraktı. Laboratuvar verilerinizde ölçüm hataları var. Ya da tarihsel verilerde kayıtlar eksik…
İstatistiksel gerçek: Eksik veriyle yanlış başa çıkmak, sonuçlarınızı ciddi şekilde çarpıtabilir ve araştırmanızın geçerliliğini tehlikeye atabilir.
Eksik Veri Türlerini Anlamak: MCAR, MAR ve MNAR
Eksik veriyi işlemeden önce, neden eksik olduğunu anlamamız gerekir. İstatistikte üç temel eksik veri türü vardır:
1. MCAR (Missing Completely At Random)
Tanım: Veri tamamen rastgele eksiktir – hiçbir değişkenle ilişkisi yoktur.
Örnek: Laboratuvar cihazının rastgele arızalanması sonucu bazı ölçümlerin kaybolması.
Test etme: Little’s MCAR testi kullanılır (SPSS’te mevcuttur).
2. MAR (Missing At Random)
Tanım: Eksiklik, gözlenen diğer değişkenlerle ilişkilidir ama eksik olan değişkenin kendisiyle değil.
Örnek: Yaşlı katılımcıların teknoloji kullanımı sorularını daha çok boş bırakması (yaş biliniyor, teknoloji kullanımı eksik).
3. MNAR (Missing Not At Random)
Tanım: Eksiklik, eksik olan değişkenin kendisiyle ilişkilidir.
Örnek: Yüksek gelirli kişilerin gelir sorularını cevaplamaması.
SPSS’te Eksik Veri İşleme: 5 Farklı Yöntem
Yöntem 1: Listwise Deletion (Tüm Kaydı Silme)
Ne yapar: Eksik verisi olan tüm katılımcıları analizden çıkarır.
SPSS’te nasıl:
- Analyze → Descriptive Statistics → Frequencies
- Options → Exclude cases listwise
Avantajlar:
- Basit ve hızlı
- Standart istatistiksel yöntemlerle uyumlu
- Sonuçlar temiz
Dezavantajlar:
- Örneklem büyüklüğünde ciddi kayıp
- MCAR değilse yanlı sonuçlar
- Güç kaybı (statistical power)
Ne zaman kullanın: Eksik veri oranı %5’in altında ve MCAR olduğunda.
Yöntem 2: Pairwise Deletion (İkili Silme)
Ne yapar: Her analiz için sadece o analizde kullanılan değişkenlerde eksik verisi olmayan kayıtları kullanır.
SPSS’te nasıl:
- Analyze → Correlate → Bivariate
- Options → Exclude cases pairwise
Avantajlar:
- Daha fazla veri korunur
- Her analiz için maksimum örneklem kullanır
Dezavantajlar:
- Farklı analizlerde farklı örneklem büyüklükleri
- Korelasyon matrisinde tutarsızlıklar
Ne zaman kullanın: Keşifsel analizlerde ve korelasyon çalışmalarında.
Yöntem 3: Mean Substitution (Ortalama ile Doldurma)
Ne yapar: Eksik değerleri o değişkenin ortalamasıyla doldurur.
SPSS’te nasıl:
- Transform → Replace Missing Values
- Method seçin: “Series mean”
Adım adım uygulama:
1. Data View'da değişkeninizi seçin
2. Transform → Replace Missing Values
3. New Variable Name: (örn: gelir_imputed)
4. Method: Series mean
5. OK
Avantajlar:
- Örneklem büyüklüğü korunur
- Ortalama değişmez
- Basit ve hızlı
Dezavantajlar:
- Varyans azalır (ciddi problem!)
- Korelasyonlar zayıflar
- Dağılım şekli değişir
Ne zaman kullanın: Sadece eksik veri oranı çok düşükse (%2-3) ve keşifsel analizlerde.
Yöntem 4: Regression Imputation (Regresyon ile Doldurma)
Ne yapar: Diğer değişkenleri kullanarak eksik değerleri tahmin eder.
SPSS’te nasıl:
- Transform → Replace Missing Values
- Method: “Linear trend at point” veya “Linear interpolation”
Gelişmiş regresyon imputation için:
- Analyze → Regression → Linear
- Eksik olmayan veriyle model kurun
- Bu modeli eksik verilere uygulayın
Avantajlar:
- Değişkenler arası ilişkileri korur
- Mean substitution’dan daha gerçekçi
- Örneklem büyüklüğü korunur
Dezavantajlar:
- Varyans hala azalır
- Çok güçlü korelasyonlar yaratabilir
- Modelleme varsayımları gerekir
Ne zaman kullanın: Değişkenler arası güçlü ilişki olduğunda ve MAR durumunda.
Yöntem 5: Multiple Imputation (Çoklu Atama) – En İyi Yöntem
Ne yapar: Eksik değerler için birden fazla makul değer üretir, analizleri her sette yapar ve sonuçları birleştirir.
SPSS’te nasıl:
- Analyze → Multiple Imputation → Impute Missing Data Values
- Variables to impute: Eksik verisi olan değişkenleri seçin
- Predictor variables: Tahmin için kullanılacak değişkenleri seçin
- Number of imputations: 5-10 arası (varsayılan 5)
Adım adım multiple imputation:
1. Adım – Imputation:
Analyze → Multiple Imputation → Impute Missing Data Values
- Method: Automatic (SPSS otomatik seçer)
- Constraints: Gerekirse (örn: yaş 0-100 arası)
- Output: Imputed datasets kaydet
2. Adım – Analiz:
Analyze → Multiple Imputation → Analyze Patterns
Her imputed dataset'te analizinizi yapın
3. Adım – Birleştirme:
Analyze → Multiple Imputation → Pool Results
Sonuçları birleştirin
Avantajlar:
- İstatistiksel olarak en doğru yöntem
- Varyansı korur
- Standart hataları doğru hesaplar
- MAR varsayımı altında yansız tahminler
Dezavantajlar:
- Daha karmaşık
- Daha fazla zaman alır
- MNAR durumunda sorunlu olabilir
Ne zaman kullanın: Eksik veri oranı %5’in üstünde ve ciddi araştırmalarda.
Hangi Yöntemi Ne Zaman Seçmelisiniz?
Eksik Veri Oranına Göre Karar Ağacı:
%0-2 Eksik Veri:
- Listwise deletion güvenli
- Mean substitution kabul edilebilir
%2-10 Eksik Veri:
- MCAR ise: Listwise deletion
- MAR ise: Multiple imputation (önerilen)
- Hızlı analiz için: Regression imputation
%10-30 Eksik Veri:
- Kesinlikle multiple imputation
- Eksiklik mekanizmasını mutlaka test edin
- Sensitivity analysis yapın
%30+ Eksik Veri:
- Veri toplama sürecini gözden geçirin
- Multiple imputation (dikkatli)
- Uzman istatistikçi danışmanlığı
Praktik Uygulama: Adım Adım Rehber
Senaryo: Müşteri Memnuniyeti Anketi
Elimizde 500 kişilik müşteri memnuniyeti anketimiz var. Yaş, gelir ve memnuniyet skorları eksik.
1. Eksiklik Durumunu İnceleme:
Analyze → Descriptive Statistics → Frequencies
Statistics → Values are missing
2. Eksiklik Kalıbını Analiz Etme:
Analyze → Multiple Imputation → Analyze Patterns
Pattern Analysis çalıştırın
3. MCAR Testini Yapma:
Analyze → Multiple Imputation → Analyze Patterns
Little's MCAR test'i inceleyin
p > 0.05 ise MCAR
4. Uygun Yöntemi Seçme:
- Eksik veri %8, Little’s test p=0.15 → MCAR
- Multiple imputation veya listwise deletion seçenekler
- Güç analizi için multiple imputation tercih
5. Multiple Imputation Uygulama:
Analyze → Multiple Imputation → Impute Missing Data Values
Variables: yas, gelir, memnuniyet
Predictors: cinsiyet, egitim, bolge (eksik olmayan)
Imputations: 5
Yaygın Hatalar ve Çözümleri
Hata 1: “Eksik veri az, önemli değil” Düşüncesi
Neden yanlış: %5 eksik veri bile yanlı sonuçlara yol açabilir. Çözüm: Her eksik veriyi ciddiye alın ve mekanizmasını anlayın.
Hata 2: Her Durumda Mean Substitution Kullanma
Neden yanlış: Varyansı ciddi şekilde azaltır. Çözüm: Sadece çok düşük eksiklik oranlarında kullanın.
Hata 3: Multiple Imputation Sonrası Tek Dataset Kullanma
Neden yanlış: Yöntemin mantığına aykırı. Çözüm: Mutlaka pooled results kullanın.
Hata 4: Eksiklik Mekanizmasını Test Etmeme
Neden yanlış: Yanlış yöntem seçimi yapabilirsiniz. Çözüm: Little’s MCAR testini her zaman yapın.
Sonuç ve Öneriler
Eksik veri analizi, modern istatistiğin en önemli konularından biridir. Doğru yaklaşım:
✅ Yapmanız Gerekenler:
- Her zaman eksiklik mekanizmasını test edin
- Multiple imputation’ı öğrenin ve kullanın
- Sensitivity analysis yapın (farklı yöntemleri karşılaştırın)
- Sonuçlarınızda eksik veri yönteminizi belirtin
❌ Yapmamanız Gerekenler:
- Eksik veriyi görmezden gelmeyin
- Her durumda aynı yöntemi kullanmayın
- Mean substitution’a aşırı güvenmeyin
- Metodoloji bölümünde eksik veri yönteminizi belirtmeyi unutmayın
Son Tavsiye:
Eksik veri analizi, istatistiksel analiz sürecinizin kritik bir parçasıdır. Zaman ayırın, doğru yöntemi seçin ve araştırmanızın kalitesini artırın.
Sonraki makalede: “SPSS ile Cronbach Alpha Güvenilirlik Analizi” konusunu ele alacağız. Ölçek geliştirme süreçlerinde güvenilirlik nasıl test edilir, adım adım öğreneceksiniz.
Sorularınız mı var? Yorumlarda eksik veri ile ilgili karşılaştığınız spesifik durumları paylaşın, birlikte çözelim!
