Kolmogorov testi - Smirnoff (K-S)

İçindekiler:

Kolmogorov testi - Smirnoff (K-S)
Kolmogorov testi - Smirnoff (K-S)
Anonim

Kolmogorov-Smirnoff (K-S) testi, iki farklı veri setinin frekansının ortalamaları etrafında aynı dağılımı izleyip izlemediğini belirlemeyi amaçlayan parametrik olmayan bir testtir.

Başka bir deyişle Kolmogorov-Smirnoff (K-S) testi, verilerin şekline uyum sağlayan ve iki farklı örneğin aynı dağılımı izleyip izlemediğini kontrol etmek için kullanılan bir testtir.

Neden parametrik olmayan bir testtir?

“Parametrik olmayan” özelliğin güzelliği, verilere ve dolayısıyla verilerin frekansını takip edebilen dağılımlara uymasıdır. Ayrıca bu özellik bizi üstlenmek zorunda kalmaktan kurtarıyor. Önsel örnek hangi dağılımı izler.

K-S testinin önemi

Kaç kez iki örnek verildi ve iki kez düşünmeden Pearson korelasyon katsayısını hesapladık? Başka bir deyişle, iki veri seti arasındaki doğrusal ilişkiyi görmek istiyorsak, korelasyonu hesaplamak adil olur, değil mi?

Bu kesinti, iki örneğin dağılımları normal bir dağılım izliyorsa doğru olacaktır. Korelasyon katsayısı dağılımların normal olduğunu varsayar, bu varsayımı atlarsak korelasyon katsayısının sonucu yanlış olur. Hipotez testleri ve güven aralıkları için ayrıca popülasyonun normal bir dağılımla dağıldığını varsayıyoruz.

İstatistik içeren tüm hipotez testleri gibi, istatistiksel olarak anlamlı sonuçlar elde etmek için büyük miktarda veriye sahip olmak önemlidir. Örneklem küçük olduğu için bir boş hipotezi yanlışlıkla reddedebiliriz. Ayrıca, bu örneğin bazı uç durumlara sahip olması da önemlidir (aykırı değerler, İngilizce) test sonucuna tutarlılık kazandırmak için.

Test prosedürü

Sonraki adımların prosedürü.

Hipotez

İlk adım, her iki numunenin de aynı dağılıma sahip olup olmadığını kontrol etmek olacaktır. Bunu yapmak için, farklı oldukları alternatif hipotezine karşı her iki örneğin aynı dağılıma sahip olduğunu varsayarak bir hipotez testi yaparız.

istatistiksel

İki örneğin kümülatif dağılım fonksiyonlarıyla çalışıyoruz, F1(x) ve F2(x):

Panik yapma! Yukarıdaki formülü sakince analiz ediyoruz:

  • Formülün önemli kısmı, fark işareti (-). Dağılımlarda dikey farklılıklar arıyoruz. Böylece, her iki kümülatif dağılım fonksiyonunu da çıkaracağız.
  • operatör "maks". İki dağılımın ne kadar farklı olabileceğini görmek için en büyük veya maksimum farkı bulmakla ilgileniyoruz.
  • mutlak değer. Operatörlerin sırasının sonucu değiştirmemesi için mutlak değeri kullanırız. Başka bir deyişle, hangi F(x)'in eksi işaretli olduğu önemli değildir:

Kritik değer

Büyük örnekler için, önem düzeyine (%) bağlı olarak K-S için kritik değere bir yaklaşım vardır:

Nerede1 ve n2 F örneği için örnek boyutu1(x) ve F2(x) sırasıyla.

Hesaplanan bazı kritik değerler:

reddetme kuralı

Uygulama

Tahmin senaryoları oluşturmak istediğimizde (iki örnekle çalışıyoruz) veya hangi dağılımın verilere en uygun olduğunu değerlendirmek istediğimizde (yalnızca bir örnekle çalışıyoruz) iki dağılımın birbirinden yeterince farklı olup olmadığını test etmek isteriz.