Aykırı değer, istatistiksel bir örneklemde veya zaman serilerinde, parametrelerinin tahminini potansiyel olarak etkileyebilecek anormal ve aşırı bir gözlemdir.
Daha basit bir deyişle, aykırı değer, bir örnek içindeki bir gözlem veya geri kalanıyla tutarlı olmayan bir veri zaman serisi olacaktır. Örneğin, bir sınıftaki öğrencilerin boyunu ölçtüğümüzü hayal edin.
10 öğrenciden oluşan bir örnek düşünelim. Her birinin yüksekliği aşağıdaki gibidir:
Örnek 1 | |
Öğrenci | Metre cinsinden yükseklik |
1 | 1,65 |
2 | 1,80 |
3 | 1,72 |
4 | 1,68 |
5 | 1,75 |
6 | 1,85 |
7 | 1,62 |
8 | 1,79 |
9 | 1,82 |
10 | 1,69 |
Sınıfın ortalama yüksekliği 1.73 olacaktır. Maksimum yüksekliği (1.85) ve minimum yüksekliği (1.62) ve bunların ortalamaya olan mesafesini hesaba katarsak, sırasıyla 0.113 ve 0.117 olduğunu görürüz. Gördüğümüz gibi, ortalama yaklaşık olarak aralığın ortasındadır ve oldukça iyi bir tahmin olarak kabul edilebilir.
aykırı etki
Şimdi başka bir 10 öğrenci örneğini düşünelim, boyları aşağıdaki gibidir:
Örnek 1 | |
Öğrenci | Metre cinsinden yükseklik |
1 | 1,65 |
2 | 1,80 |
3 | 1,72 |
4 | 1,68 |
5 | 2,18 |
6 | 2,20 |
7 | 1,62 |
8 | 1,79 |
9 | 1,75 |
10 | 1,69 |
Bu durumda sınıfın ortalama yüksekliği 1.81 olacaktır. Şimdi maksimum yüksekliğe (2.20) ve minimum yüksekliğe (1.62) ve bunların ortalamaya olan uzaklığına bakarsak sırasıyla 0.39 ve 0.18 olduğunu görüyoruz. Bu durumda ortalama artık yaklaşık olarak aralığın ortasında değildir.
En uç 2 gözlemin (2.18 ve 2.20) etkisi, aritmetik ortalamanın dağılımın maksimum değerine doğru kaymasına neden olmuştur.
Bu örnekle, aykırı değerlerin etkisini ve ortalama hesaplamasını nasıl bozabileceklerini görüyoruz.
Aykırı değerler nasıl tespit edilir?Aykırı değerlerin etkisi nasıl düzeltilir?
Diğerlerinden önemli ölçüde farklı anormal değerlerin olduğu bu gibi durumlarda, medyan, hangi noktada daha fazla sayıda gözlemin yoğunlaştığını bilmek için daha iyi bir tahmindir.
Her iki dağılım durumunda ve çift sayıda değere sahip olduğumuz için, medyanı hesaplamak için dağılımın yarısını tam olarak alan değeri alamayız. Değerleri en düşükten en yükseğe sıraladıktan sonra beşinci ve altıncı gözlemi alırdık (her ikisi de her iki tarafta 4 gözlem bırakır) ve medyanı aşağıdaki gibi hesaplardık:
Örnek 1:
1,75+1,72/2 = 1,73
Örnek 2:
1,79+1,71/2 = 1,75
Gördüğümüz gibi, 1 numaralı örnekte, aykırı veya anormal gözlem olmadığı göz önüne alındığında, medyan 1,73'tür ve ortalama ile örtüşmektedir. Aksine, 2. örnek için ortalama 1.75'tir. Gördüğümüz gibi, bu değer 1.81 olan ortalama yükseklikten daha uzaktadır ve bize daha fazla sayıda gözlemin hangi noktada yoğunlaştığını yaklaşık olarak bilmek için daha yüksek kaliteli bir nokta tahmini verir.
Nokta tahmini