Veri Temizliği ve
Kalite Kontrol

Metodolojik
Aşama

"Analitik Mükemmelliğin Temel Taşı"

Her türlü ampirik araştırmanın, pazar simülasyonunun ve makine öğrenimi modelinin geçerliliği, doğrudan temel alınan verinin yapısal bütünlüğüne bağlıdır. Datametri olarak biz, veri temizliğini sadece hatalı satırların silinmesi olarak değil; verisetinin istatistiksel algoritmaların temel varsayımlarını karşılayacak şekilde, akademik literatüre ve endüstri standartlarına uygun olarak optimize edilmesi süreci olarak ele alıyoruz. Bu türden kalite kontrol sistemleri, ham veriyi güvenilir bir istatistiksel temelle dönüştürerek, verinin içerdiği bilginin dışına taşmasına, yanlış sonuçlar elde edilmesini de engeller. Bu anlamda veri kalite kontrol süreçlerimizi iki ana analitik disiplin altında yürütüyoruz:

I. Davranışsal Kalite Kontrol ve Katılımcı Validasyonu

Logical Consistency Alluvial Analysis

▼

Özellikle anket tabanlı pazar araştırmalarında ve sosyal bilimler projelerinde, insan faktöründen (respondent) kaynaklanan hata varyansının izole edilmesi kritik bir aşamadır. Gelişen veri toplama teknolojileri ve platform içi algoritmalar sayesinde;

Katılımcıların bilişsel yükten kaçınmak için sorulara hep aynı yanıtı vermesi (Sıfır Varyans / Straightlining),
Anketin okuma ve algılama biyolojik sınırlarının altında bir sürede tamamlanması (Hızlı Yanıtlayıcı / Speeder tespiti),
Açık uçlu sorulara botlar veya dikkatsiz katılımcılar tarafından girilen anlamsız metinlerin tespiti (Gibberish / NLP Kontrolü)

gibi temel düzeydeki davranışsal anormallikler, entegre scriptler aracılığıyla veri toplama aşamasında rahatça filtrelenebilmektedir artık. Bu nedenle datametri.com olarak biz, standart yazılımların tespit edemediği, çok daha derin ve istatistiksel modelleme gerektiren deterministik tutarsızlıklara daha çok odaklanıyoruz.

1. Deterministik Tutarsızlık ve Algoritmik Çapraz Doğrulama (Logical Consistency Checks)

"Katılımcılarınızın Mantıksal Bütünlüğünü, Akışı Algoritmalarla Test Ediyoruz"

Standart platformların gözden kaçırdığı en büyük risk, katılımcının birbiriyle mantıksal olarak ilişkili veya birbirini dışlayan (mutually exclusive) sorulara verdiği koşullu çelişkilerdir. Kurduğumuz deterministik algoritmalar ve koşullu olasılık matrisleri ile veri seti içerisindeki mantıksal kırılmalar saptanarak, anketin genel geçerliliği puanlanır ve güvenilmez gözlemler izole edilir.

Bu Analiz Hangi Sorularınıza Cevap Verir?

Katılımcılar araştırma kurgusunu gerçekten anlayarak mı yanıtlıyor, yoksa soruları okumadan stratejik mi ilerliyor?
Veri setimde, genel analiz sonuçlarını manipüle edecek düzeyde içsel çelişkiye sahip ne kadar katılımcı var?

Araştırmacıya Sağlayacağı Ek Fayda Ne Olabilir?

Pazar dinamiklerini okurken veya yeni bir ürün konumlandırırken, birbiriyle çelişen tüketici beyanları üzerinden alınan stratejik kararların maliyeti çok yüksektir. Bu analiz, içgörülerinizi (insights) yalnızca kendi içinde %100 mantıksal tutarlılığa sahip, doğrulanmış "gerçek" hedef kitle verisi üzerine inşa etmenizi sağlar; araştırma bütçenizin getirisini (ROI) korur.

Görselde sunulan Alluvial (akış) diyagramı, katılımcıların birbiriyle mantıksal bağımlılığı bulunan (mutually dependent) iki değişken arasındaki geçiş (transition) frekanslarını haritalandırmaktadır. Katılımcıların yanıt paternleri koşullu kurallar (conditional rules) üzerinden sınanmış olup; örneğin, "Ehliyeti Yok" beyanında bulunan bir alt grubun, takip eden aşamada "Araç Kullanıyor" seçeneğine yönelmesi algoritmik olarak saptanmıştır. Bu deterministik kuralı ihlal eden 45 gözlem, diyagram üzerinde kırmızı akış bandı (flagged stream) ile izole edilerek ifşa edilmiştir. Mavi akışlar (strata) mantıksal olarak tutarlı kitleyi temsil ederken; bu görselleştirme, veri setindeki mantıksal tutarsızlık yükünü ve araştırma örnekleminin güvenilirlik sınırlarını net bir şekilde ortaya koymaktadır.

II. Yapısal ve İstatistiksel Kalite Kontrol

MICE Imputation Outlier Detection SMOTE

▼

Davranışsal olarak doğrulanan veri setinin, ileri istatistiksel analizlerin ve makine öğrenimi modellerinin matematiksel varsayımlarına (normallik, homojenlik, doğrusallık) uygun hale getirilmesi aşamasıdır.

1. Eksik Veri Patern Analizi ve İleri Atama (Missing Data Imputation)

"Kayıp Verilerin İstatistiksel Anatomisini Çözün"

Verisetindeki eksik gözlemlerin rastgelelik durumu (MCAR, MAR, MNAR) istatistiksel testlerle (örneğin Little'ın MCAR Testi) değerlendirilir. Veri kaybı, geleneksel ortalama atama gibi varyansı bozan yöntemler yerine, veri setinin çok değişkenli kovaryans yapısını koruyan algoritmalar (MICE, Random Forest) kullanılarak bilimsel bir şekilde tamamlanır.

Bu Analiz Hangi Sorularınıza Cevap Verir?

Veri kaybım tesadüfi mi gelişmiştir, yoksa araştırma veya ölçüm sürecindeki sistematik bir hatanın (bias) yansıması mıdır?
Eksik satırları tamamen silmek, istatistiksel gücümüzü (statistical power) düşürüp sonuçları manipüle eder mi?
Katılımcıların bir soruyu boş bırakması, spesifik başka bir soruyu da gizleme eğiliminde olduklarını gösterir mi? (Örn: Gelirini beyan etmeyen müşteriler, memnuniyet skorunu da mı saklıyor?)

Araştırmacıya Sağlayacağı Ek Fayda Peki?

Bilimsel Geçerlilik: Eksik verilerin doğru yöntemle tamamlanması, kurumsal raporların ve pazar analizlerinin bilimsel platformlarda (veya yönetim kurullarında) itiraz edilemez bir sağlamlığa sahip olmasını sağlar.
Örneklem Tasarrufu: Zor ve maliyetli toplanan saha verilerinde (örneğin müşteri anketleri veya klinik veriler), eksik yanıtlar yüzünden tüm anketin iptal edilmesini engelleyerek veri toplama yatırım getirisini (ROI) korur.

Sunulan çok değişkenli eksik veri görselinde; sol panel, değişkenler bazındaki veri kaybı oranlarını (% olarak) özetleyen bir çubuk grafiğidir (örneğin Gelir Skoru'ndaki %17.5'lik kayıp). Sağ paneldeki 'Gözlem Bazlı Patern Matrisi' (Tile Plot) ise eksik verilerin satır bazlı (observation-level) topografyasını ortaya koyar. Açık mavi alanlar mevcut veriyi, koyu kırmızı yatay bloklar ise eksik (NA) değerleri temsil eder. Kırmızı hücrelerin belirli gözlemlerde (örneğin hem Gelir Skoru hem de Memnuniyet Endeksi'nin aynı satırlarda eksik olması) eşzamanlı kümelenmesi, veri kaybının tamamen rastgele (MCAR) olmadığını, birbiriyle istatistiksel bir bağımlılığa (MAR/MNAR) sahip olduğunu kanıtlar. Bu gizli örüntünün tespiti, eksik satırları tamamen silmek (listwise deletion) yerine neden çok değişkenli yapıyı koruyan algoritmik atama (MICE) modellerini kullanmamız gerektiğini matematiksel olarakta aslında bize dikte eder.

2. Çok Değişkenli Aykırı Değer Tespiti (Multivariate Outlier Detection)

"Verideki Gizli Anomalileri Kesin Bir Doğrulukla İzole Edin"

Tek değişkenli aykırı değer analizlerinin (örneğin Boxplot) yetersiz kaldığı kompleks, çok boyutlu verisetlerinde, değişkenler arası korelasyonları hesaba katan algoritmalar ile yapısal anomaliler tespit edilir ve izole edilir.

Bu Analiz Hangi Sorularınıza Cevap Verir?

Verisetimde, ortalamaları ve regresyon katsayılarını tek başına manipüle edebilecek güce sahip uç değerler hangileridir?
Sensörlerden veya satış kanallarından gelen verilerde anomali/sahtekarlık (fraud) sinyali taşıyan spesifik kayıtlar var mı?

Sağlayacağı Ek Fayda Nedir?

Model Optimizasyonu: Regresyon ve makine öğrenimi modellerinin varyansının lüzumsuz yere şişmesini engelleyerek, tahmin performansının (predictive accuracy) dramatik şekilde artmasını sağlar.
Risk İzolasyonu: Hatalı veri girişlerinden veya sıra dışı pazar koşullarından kaynaklanan gürültüyü (noise) filtreleyerek, stratejik kararların yanıltıcı metrikler üzerine inşa edilmesini önler.

Scatter plot veya Chi-square Q-Q plot üzerindeki noktaların dağılımı gözlemleri temsil eder. Mahalanobis uzaklığı hesaplanarak çizilen elipsoid sınırların dışında kalan (kırmızı ile işaretlenmiş) noktalar, çok değişkenli uzayda istatistiksel merkeze tehlikeli derecede uzak olan "aykırı değerleri" gösterir.

3. İstatistiksel Dağılım ve Varyans Homojenliği Analizleri

"Algoritmalarınızın Temel Varsayımlarını Matematiksel Olarak Güvence Altına Alın"

Parametrik testlerin ve doğrusal modellerin temel varsayımı olan normal dağılımın incelenmesi ve normallikten sapan verilerin ileri istatistiksel dönüşümler (Box-Cox, Yeo-Johnson) ile modellere uygun hale getirilmesi sürecidir.

Bu Analiz Hangi Sorularınıza Cevap Verir?

Sahip olduğumuz veri seti, kurgulamayı planladığımız ileri analitik modellerin matematiksel gereksinimlerini karşılıyor mu?
Hedef değişkenimiz (örneğin gelir veya müşteri yaşı) asimetrik bir dağılım mı sergiliyor, dönüştürülmeye ihtiyacı var mı?

İşletmenize Sağlayacağı Ek Fayda Ne Olabilir?

Metodolojik Doğruluk: Verinin yapısına uygun olmayan (non-parametrik yerine parametrik) testlerin kullanımından doğacak Tip I (Yanlış Pozitif) veya Tip II (Yanlış Negatif) istatistiksel hataları kaynağında çözer.

Görselin sol panelinde yer alan yoğunluk (density) eğrisi, verinin ampirik dağılımını teorik normal dağılım (kırmızı kesikli çan eğrisi) ile karşılaştırmaktadır. Eş zamanlı olarak sunulan sağ paneldeki Q-Q (Quantile-Quantile) grafiğinde ise, kırmızı diyagonal referans çizgisi etrafında konumlandırılan gri gölgeli alan, dağılımın %95 noktasal güven aralığını (pointwise confidence band) temsil etmektedir. Örneklem kantillerinin (mavi noktalar) diyagonal hatta sıkıca sarılması normallik varsayımını desteklerken; noktaların bu güven bandının dışına taşması, verinin teorik normal dağılımdan istatistiksel olarak anlamlı bir şekilde saptığını kanıtlar. Özellikle kuyruklarda gözlemlenen ve güven aralığını ihlal eden bu sapmalar, verisetindeki çarpıklığın (skewness) veya basıklığın (kurtosis) matematiksel bir belgesidir.

4. Ölçek Güvenilirliği ve İç Tutarlılık Ölçümleri (Scale Reliability)

"Ölçüm Araçlarınızın Hassasiyetini ve Tutarlılığını Kanıtlayın"

Özellikle anket verilerinde, kurumsal performans karnelerinde ve psikometrik ölçümlerde, toplanan verinin kendi içindeki tutarlılığının, alt boyutlarının ve raterlar arası (değerlendiriciler arası) objektifliğinin ölçülmesidir.

Bu Analiz Hangi Sorularınıza Cevap Verir?

Müşteri memnuniyetini veya çalışan bağlılığını ölçmek için kullandığımız anket soruları, hedeflenen yapıyı tutarlı bir şekilde ölçüyor mu? (Cronbach's Alpha / McDonald's Omega değerlerimiz yeterli mi?)
Birden fazla uzmanın/yöneticinin yaptığı değerlendirmelerde (örneğin performans notları) raterlar arası uyum (ICC, Cohen's Kappa) istatistiksel olarak anlamlı mıdır?

Araştırmacıya Sağlayacağı Ek Fayda Ne Olabilir?

Anket/Ölçüm Optimizasyonu: Kurumsal ölçüm araçlarındaki "çalışmayan" veya hedef kitle tarafından "yanlış anlaşılan" soruları saptayarak, gelecekteki araştırmaların daha kısa, net ve yüksek kaliteli olmasını sağlar.

Madde-toplam korelasyonlarını gösteren ağ grafiği (network plot), bir ölçeği veya KPI setini oluşturan alt maddelerin birbiriyle olan ilişkisel bağlarını bize gösterir. Mavi çizgiler ilgili maddelerin aynı yapısal kavramı aynı yönde ölçtüğünü (yakınsak geçerlilik) gösterirken, kırmızı çizgiler birbirlerine zıt kutuplarda hareket eden veya ters kodlanmış (negatif korelasyon) değişkenleri istatistiksel olarak bize gösterir.

5. Veri Sınıf Dengesizliği ve Yapay Gözlem Üretimi (Class Imbalance & SMOTE)

"Nadir Olayları Tahmin Etmek İçin Veri Setinizi Eğitime Hazırlayın"

Özellikle müşteri kaybı (churn), kredi temerrüdü veya nadir hastalıklar gibi olayların incelendiği durumlarda karşılaşılan "sınıf dengesizliği" probleminin (örneğin %95 başarılı, %5 başarısız işlem), sentetik veri üretimi (SMOTE, ROSE algoritmaları) ile dengelenmesi işlemidir.

Bu Analiz Hangi Sorularınıza Cevap Verir?

Geliştireceğimiz tahmin (predictive) modelleri, çoğunluk sınıfına aşırı uyum (overfitting) gösterip nadir ama kritik olayları kaçırma eğiliminde mi?
Nadir görülen "kurumsal risk" veya "fırsat" senaryolarını modelleyebilecek yeterli "örneklem büyüklüğüne" sahip miyiz?

Sağlayacağı Ek Fayda Ne Olabilir?

Yapay Zeka Hazırlığı: Makine öğrenimi algoritmalarında sıkça yaşanan "Doğruluk Paradoksu"nu (Accuracy Paradox) önler. Yani, sistemin sadece "genel eğilimi" değil, kuruma en çok zarar verebilecek "nadir ve riskli olayları" da yüksek isabetle tahmin etmesini güvence altına alır.

Orijinal veri dağılımında (sol panel) azınlık sınıfının veri havuzunda ne kadar baskılandığı görülmektedir. Sentetik genişletme (oversampling) işlemi sonrası (sağ panel), azınlık sınıfının bilgi yapısı korunarak veri seti dengeli bir forma kavuşturulmuştur. Bu durum, model eğitiminin sağlıklı yapılması için kritik bir ön şarttır.

Datametri Veri Kalite Perspektifi

"Çöp içeri, çöp dışarı" (Garbage In, Garbage Out) prensibiyle, veri temizliğini sadece hatalı satırların silinmesi olarak değil; verinin modellemeye hazırlanması adına analitik bir mükemmellik sanatı (Data Preprocessing) olarak görüyoruz.

Davranışsal İzolasyon

Mantıksal tutarsızlıklar ve koşullu olasılık ihlallerini tespit eden algoritmalarımızla, insan faktöründen (respondent bias) kaynaklanan "gürültülü" ve güvenilmez gözlemleri anında izole ediyoruz.

Matematiksel Stabilizasyon

Eksik verileri silmek yerine çok değişkenli MICE algoritmalarıyla tamamlıyor, uç değerleri Mahalanobis mesafesiyle teşhis ederek modelinizin istatistiksel gücünü (statistical power) maksimize ediyoruz.

Algoritmik Ön Hazırlık

Normallik varsayımlarını Q-Q grafikleriyle denetliyor ve SMOTE gibi sentetik genişletme teknikleriyle sınıf dengesizliklerini çözerek, verinizi makine öğrenimi modelleri için "kalkışa hazır" hale getiriyoruz.

Veri Temizliği veKalite Kontrol

1. Deterministik Tutarsızlık ve Algoritmik Çapraz Doğrulama (Logical Consistency Checks)

1. Eksik Veri Patern Analizi ve İleri Atama (Missing Data Imputation)

2. Çok Değişkenli Aykırı Değer Tespiti (Multivariate Outlier Detection)

3. İstatistiksel Dağılım ve Varyans Homojenliği Analizleri

4. Ölçek Güvenilirliği ve İç Tutarlılık Ölçümleri (Scale Reliability)

5. Veri Sınıf Dengesizliği ve Yapay Gözlem Üretimi (Class Imbalance & SMOTE)

Datametri Veri Kalite Perspektifi

Davranışsal İzolasyon

Matematiksel Stabilizasyon

Algoritmik Ön Hazırlık

Veri Setinizi Makine Öğrenimine Hazırlayalım

Veri Temizliği ve
Kalite Kontrol