Örneklemin Standart Sapmasının Hesaplanması

Örneklem standart sapması ve popülasyon standart sapmasının hesaplanmasındaki farkı açıkladık.

İlk başta herkesin anlayabileceği şekilde yazmaya çalıştım fakat konu çok dağıldı. Bu yüzden olasılık ve istatistik alan birinin anlayabileceği şekilde anlatmaya karar verdim. Bu dersleri alan adam zaten konuyu biliyor diyebilirsiniz ama öyle değil. Bir örneklemin standart sapması hesaplanırken paydayı örneklemin genişliğine(n) değil de (n-1)’e neden böldüğümüzü çok az öğrenci biliyordur tahminimce. Ufuk açması açısından ve istatistiğin temelindeki bir konuyu anlamamız açısından çok faydalı olacağını düşündüğüm bir yazı diyebilirim.

Standart Sapma Nedir ve Nasıl Hesaplanır?

Elinizde bir deneyle alakalı farklı zamanlarla alınmış veriler var. Genelde bir sayıya yakın çıkıyor ama hep aynı sayı çıkmıyor. İşte bu farklılığa standart sapma deniyor. Mesela deneyi 100 defa yaptık. Varyansının formülü de şöyle oluyor;

Varyans demek standart sapmanın karesi demektir. Yani bunun kökünü aldığınızda standart sapmayı bulursunuz. Burada herhangi bir sorun yok fakat bu deney popülasyonunun değil de buradan aldığımız bir örneklemin standart sapmasını hesaplamaya çalışırsak formül biraz farklı oluyor. Mesela örneklem için 10 tane deney sonucu alalım. Örneklemin varyans formülü;

10 tane deney alıyoruz ama 9’a bölüyoruz. Bunu hiçbir zaman anlayamadım. Hayat ve dersler bana bunu anlamam ve sorgulamam için vakit bırakmadı. Geçenlerde araştırdım.

Bessel’s Correction

Sayı ile ifade ettiğim için karışıklık olur mu bilmiyorum ama şöyle anlatayım. Eğer gerçek veri kümenizden n tane olay içeren bir örneklem aldıysanız standart sapma hesaplarken (n-1)’e bölüyorsunuz. Bunun (n-1)’e bölünmesine Bessel’in düzeltmesi diyorlar ki adam iyi de yapmış. Grafikle göstermeye çalışacağım.

Mesela bir olay için 100 gözlem yaptık ve elimizde 100 veri var. Gözlem değeri sayı olarak en az 0 ve en çok 4.000.000 çıkıyor. Ortalaması da 999.999 oluyor. Standart sapmanın mantığını anlamak için bir doğruda bu deney sonuçlarını gösterip 10 tane örneklem alalım.

Birinci doğruda 100 tane nokta düşünün. Bunların hepsinden ortalama çıkartılıp(büyük turuncu nokta) kareleri alınıyor. İkinci grafikte ise 10 tane örnek alınıp(küçük kırmızı nokta) ortalaması alınıyor(büyük kırmızı nokta) ve aradaki mesafeler bulunuyor. İşte burada şunu görüyoruz. Popülasyon yani tüm gözlemlerin olduğu doğruda bu mesafeler genişliyor(Okların mesafelerine bakabilirsiniz). Çünkü popülasyonda ortalamaya uzak değerler var yani dağılma fazla. Yukarıdaki oklarda olduğu gibi 100 deney içinde bu mesafelerin karelerini alıp toplasak ve 100’e bölsek standart sapmayı buluyoruz. Fakat bunu örneklem için yaptığımızda mesafeler kısa olduğu için eğer örneğimizde olduğu gibi 10 tane örnek aldıysak ve 10’a bölersek popülasyonun standart sapmasından daha küçük bir standart sapma buluyoruz. Çünkü bizim örneklem verimiz daha derli toplu. Daha derli toplu olunca da daha küçük sapmalar meydana geliyor. İşte bu yüzden örneklemin standart sapmasını popülasyon standart sapması gibi hesaplarsak bu hesapladığımız standart sapmadan beklediğimiz değer popülasyon standart sapmasıyla uyumlu olmuyor. Peki bunun çözümü ne?

Çözüm

Bir popülasyonu tahmin etmek için kullanılan örneklem verisine estimator(tahmin edici) deniyor. Ve bunun beklenen değeri(Expected Value) popülasyonun verisine eşit olmak zorunda. Mesela yukarıdaki örnekte örneklemim ortalamasını buldunuz(büyük kırmızı nokta).Eğer siz bu 100 deneyden 10’ar 10’ar örneklemler alsanız ve her birinin ortalamalarını bulsanız. Bu ortalamaların ortalamasının popülasyonun ortalamasına eşit olması beklenir. (Turuncu büyük nokta) Formül olarak;

Bu formülden yola çıkarak örneklemin varyansının(standart sapmanın karesi) beklenen değerinin de popülasyonun varyansına eşit olması lazımdır. Yani;

Şimdi örneklemin varyasyonunu n’e bölerek hesaplayalım. Eğer bu hesabın beklenen değeri popülasyon varyasyonuna eşit çıkmazsa bir şeyleri değiştirmek gerekecek.

Beklenen değer hesaplarken sabit sayıları parantez dışına alabiliriz.

Toplama sembolü ve beklenen değer parantezi parçalara ayrılabilir.

Buraya kadar kolay anladım ama sonrasında biraz karıştırdığım için numaralandırdığım ifadeleri detaylı anlatacağım. 1 numaralı ifadeden başlayalım. Burada örneklemdeki verilerin karelerinin toplamının beklenen değeri soruluyor. Her verinin karesinin beklenen değeri eşit olduğu için bu ifade n tane beklenen değer toplamına eşit olur.

2 numaralı ifadeyi biraz daha açıklıyorum.

2.1 numaralı eşitlikten şunu anlamalıyız; Örneklemin ortalaması örneklem içinde hep aynı olacağı için toplam sembolünde sabit gibi davranır ve dışarı çıkarabiliriz. Fakat bunun beklenen değeri örneklemden örnekleme değişeceği için beklenen değer parantezinden çıkamaz.

2.2 numaralı ifade çok kolay anlaşılabilir. Örneklemdeki verilerin toplamı örneklem ortalamasıyla örneklemdeki veri sayısının çarpımına eşittir.

2.3 numaralı ifade ise önceki iki ifadeyi birleştirip sabit olan n’i beklenen değer parantezinden dışarı alıyoruz.

Sonrasında 1,2 ve 3 numaralı denklemlerin yerine basitleştirilmiş hallerini yerleştiriyoruz. Ve ortaya aşağıdaki tablo çıkıyor.

Şimdi burada hatırlamamız gereken iki formül var. Aşağıya yazıyorum bunları ve bunlar varyansın tanımından geliyor. Yukarıdaki son denklemimizdeki beklenen değerler yerine aşağıdaki ifadeleri yerleştiriyoruz.

Ve şöyle bir ifade karşımıza çıkıyor;

Burada karşımıza çıkan ifadeleri birazda olsa tanıyoruz. Sadeleştirmek için şu formüllerle yer değiştiriyorum.

Örneklemin varyansı popülasyonun varyansının n’e bölünmesiyle ortaya çıkıyor.

Burada gördüğünüz sadeleştirmeleri yaptığınızda karşınıza sonuç çıkıyor.

Gördüğünüz gibi eşitliği sağlamadı ve bizim varsayarak koyduğumuz kırmızı n eşitliğin solunda kaldı. Ve pay (n-1) olarak gözüktü. Eğer kırmızı n’i ilk yazdığımız denklemi n ile çarpıp (n-1)’e bölersek doğru ifadeyi yakalayacağız demektir. Bu da aslında standart sapma hesaplarken örneklemdeki veri sayısına değil de bunun 1 eksiğine bölmek demektir. Formül olarak vermek gerekirse;

Elimden geldiğince açıklamaya çalıştım. Benim de anlayamadığım bazı noktalar var fakat yine de bazı şeyleri açıklığa kavuşturmak açısından faydalı olabileceğini düşünüyorum. Derslerde genelde bu konu n’e değil (n-1)’e bölüyoruz diyerek geçiliyor. Vize ve final geçmek yerine temellerini anlamak insanı daha çok tatmin ediyor.Görseldeki karikatürde Einstein zamanın paraya eşit olduğunu buluyor. 🙂

Benzer yazılar

PTT'ye Gitmeden e-Devlet Şifresi Nasıl Alınır?

PTT’ye Gitmeden e-Devlet Şifresi Nasıl Alınır?

e-Devlet artık hayatımızın bir parçası hâline geldi. Hâl böyle olunca da özellikle evlerde olduğumuz şu dönemde birçok işi halletmemize yardımcı oluyor. Peki, her şeyi evden hallettik ama ya daha önce e-Devlet şifresi almadıysak… Aklımıza ilk gelen çözüm PTT’den yeni bir e-Devlet şifresi almak olacaktır. Ama durun benim daha iyi bir çözümüm var. Size çok pratik […]

.com.tr alan adı nasıl kaydedilir

.com.tr Alan Adı Nasıl Kaydedilir?

Başlık her ne kadar .com.tr olarak atılsa da bu yazıda aslında .tr uzantısıyla biten tüm alan adları için geçerli olan kayıt sürecinden bahsedeceğiz. Başlığı bu şekilde atma sebebimiz ise Türkiye’de hâlâ yalnızca .tr olarak alan adı kaydı yapılmamasıydı. (nic.tr ve tsk.tr istisnalar arasında) Attığımız başlık yanlış anlaşılmasın diye böyle attık. Neyse bu uzunca giriş faslından […]

13 yorum

  1. Popülasyonun standart sapmasını hesaplarken kişi sayısına bölüyoruz, örneklemini hesaplarken bir eksiğine bölüyoruz. Burda hiç sorun yok, tamam ama popülasyon dediğimiz şey de sonuçta (henüz hesaplanmış, verileri toplanmış olmasa da) daha büyük bir kümenin örneklemi değil mi? Sonuçta her zaman daha büyük bir veri aralığı vardır. O zaman onu da n-1 e bölmek gerekir gibi geliyor bana. Anlamadım o kısmı.

  2. Evet, dediğiniz doğru ama mesela bu işlemi bir fabrikada üretilen 10.000 parçanın kalitesini hesaplamak için kullanıyorlar fakat dünyada o parçadan belki de milyonlarca üretiliyor. Fabrikada dışında üretilen parçalar fabrikadakilerin umrunda olmaz 🙂 Onların amacı kendilerinin ürettiği parçaları değerlendirmek. Yani siz neyle ilgileniyorsanız popülasyonunuz o oluyor.

  3. Peki örneklemle ilgilenirken neden evren umrumuzda oluyor 🤔 Örneklemi kullanma sebebimiz, 10000 parçanın hepsiyle tek tek uğraşmayıp 10000 parçanın geneli hakkında kısa yoldan bilgiye ulaşmak di mi? Örneklem, tamamen bizim zamandan ve efordan kazanmak için oluşturduğumuz bir grup yani, doğru mu anlıyorum? Kafam karıştı da 😅

    1. Doğru anlıyorsunuz da küçük bir yerde detayı atlıyorsunuz. Evet, hepsiyle uğraşmayalım diye daha az parça seçiyoruz ama bu seçilen parçalar o büyük popülasyonu temsil etsin diye seçiliyor. Temsil ederken standart sapma hesaplanırken daha iyi temsil etmesi için n’e değil de (n-1) bölünüyor. Yazıda niye (n-1)’e böldüğümüz anlatılıyor. Turuncu ve kırmızı noktaların olduğu doğrulara ve altındaki paragrafa bir kere daha bakmanızı tavsiye ederim bunu anlamak için. Yazının önemli kısmı burayı anlamak.

  4. Evreni temsil ettiğini anlamıştım aslında, onu demek istemiştim zaten yani. Ama kafam karışmıştı yine de, emin olmak istemiştim. Teşekkür ederim açıklamalarınız için, çok yararlı bir site bu 😊

  5. Anakütle ve örneklem standart sapması hesaplanırken kullanılan formüllerin paydasında sırasıyla “n” ve “n-1” nede kullanılmaktadır ? Açıklar mısınız ?

    1. Niye standart sapma hesaplarken n’e bölüyoruz diye soruyorsanız şöyle düşünün, her bir noktanın sapmasını buluyor ve topluyorsunuz. Ortalama standart sapmayı bulmak için de n’e bölüyorsunuz. Fakat niye birinde n diğerinde (n-1)’e bölüyoruz diye soruyorsanız yazıyı bir kere daha okuyun. Orada cevap veriliyor.

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir