Normal dağılımı kullanarak aykırı değerleri tespit edin
Normal dağılım üzerinden aykırı değerlerin tespiti, bir standart sapma eşiğinin tanımlanmasını içeren ve bir örneğin uç değerlerinin bulunmasının amaçlandığı bir işlemdir.
Başka bir deyişle, normal dağılım yoluyla aykırı değerleri tespit etmek, standartlaştırılmış normal formül aracılığıyla bir veri kümesinin uç değerlerini bulmaktır.
- Değerler aşırı uçlar arandı aykırı değerler İngilizcede.
- Değerler iç arandı içerdekiler İngilizcede.
Çok az veriye sahip olduğunuzda aykırı değerleri görsel olarak tespit etmek bir seçenek olabilir. Veritabanlarıyla çalışırken, aykırı değerleri manuel olarak bulmak çok pratik değildir. Bu sorunu çözmek için, bir sapma eşiği ile karşılaştırarak aşırı kabul edilen değerlerin hangileri olduğunu hesaplayabiliriz.
Normal dağılım durumunda, ortalamadan 3 standart sapma uzakta olan bir değer aşırı olarak kabul edilir. Normal dağılımın 2 kuyruğu olduğu için hem negatif hem de pozitif yönden uzaklaştırılabileceğini hesaba katmalıyız.
Normal dağılımı kullanarak aykırı değerleri tespit etmek için formül

Bir dizi gözlem önceki şekilde ifade edilebilir; burada x, değerlerin üzerinde salındığı ortalama değerdir ve söz konusu değerlerin salınımının dağılımını sigmalar. Başka bir deyişle sigma, gözlemlerin ortalama değere olan uzaklığıdır.
Çarpım faktörü, bunun bir aykırı değer mi yoksa içeriden mi olduğunu belirler. z, 3 veya -3 değerlerini alırsa, normal dağılıma göre, y gözlemi bir aykırı değer olacaktır.
değerini bilmek için z önceki denklemi kullanırız:

- z> = 3 veya z = <-3 ise, normal dağılıma göre şunu söyleyebiliriz: Y aşırı bir değer veya aykırı değerdir.
- z <3 veya z <-3 ise normal dağılıma göre şunu söyleyebiliriz. Y dahili bir değer veya içeriden bilgidir.
Normal standart
Yukarıdaki denklem tanıdık geldi mi?
Tam olarak, standartlaştırıldıktan veya tipikleştirildikten sonra normal bir dağılımı izleyen bir gözlemin ifadesidir. Bu şekilde adlandırılır çünkü standart veya standart sapmaya bölünürken pay farkı sapma cinsinden ifade edilir.
Bu nedenle sapma değerlerini şu şekilde ilişkilendirebiliriz: z ve böylece 3 sapma eşiği ile satın alabileceksiniz.
Misal
Aşağıdaki gözlemlerin uç değerlerini normal dağılıma göre bulunuz:

Gözlemleri bir grafikte temsil ediyoruz:

En başından itibaren, diğerlerinden en uzak olan değerin büyük olasılıkla bir aykırı değer olabileceğini görebiliriz.
İlk önce ortalamayı ve standart sapmayı hesaplıyoruz:
x = ortalama = 5,8
sigma = standart sapma = 10.51
Daha sonra değerleri formüle yerleştirip değerini hesaplıyoruz. z her gözlem için:

Yukarıdaki değerler sigmanın çarpımsal faktörleridir, yani, z. 3'ten büyük veya -3'ten küçük olan her şey aşırı bir değer olacaktır.

değerinin olduğunu görebiliriz. z 3 standart sapmayı aşan gözlem 49'a karşılık gelendir.
Bu nedenle, veri kümesinin uç veya aykırı değeri 49 olacaktır.