Betimleyici İstatistik
İnceleme sonucu ile elde edilen ham verilerin istatistiksel yöntemler(korelasyon, merkezi dağılım, tablolar,grafikler,merkezi eğilim) ile özetlenmesidir.
Seri : Ham verilerden oluşan kümedir.
İlkel seri: Küçükten büyüğe sıralanmış veri kümesidir.
Frekans Tabloları
Bir verinin ne kadar tekrar ettiğini göstermek amacıyla kullanılır ve az sayıdaki veriler için uygundur.
Sınıf Frekans Tabloları
Çok sayıda değer söz konusu ise kullanılır. Belli sınıflara ayırma yapılır.
Frekans Tablolarının Hazırlanması
- Ham veriler sınıflandırılır.
- Dağılım sınırları belirlenir. Min ve max değerler bulunur.
- Dağılım genişliği veya açıklık belirlenir. DG=Max-Min
- Sınıf sayısı belirlenir. K=1+3.3logN, N veri sayısıdır. Eşit veya yakın değerler sınıf olarak belirlenir. Sınıf aralığı © belirlenir. Art arda gelen iki sınıf için alt ve üst sınırların farkıdır. c=DG/k
- Frekans(f) hesaplanır, bir sınıfta yer alan veri sayısıdır. //görsel
- Göreli frekanslar(p) hesaplanır. Her sınıfa düşen yeri veri sayısının toplam veri sayısına göre yüzdesidir. pi=fi/N //görsel
- Sınıf ortalama değeri m hesaplanır. Bir sınıfın alt ve üst değerlerinin aritmetik ortalamasıdır.
Grafikler
Betimleyici grafik için kullanılan yöntemlerdir.
Ayrıca Kök-Yaprak grafiği, küçük ve orta ölçekli veri kümeleri için her bir veri kök ve yaprak olmak üzere iki kısım ayrılır. Sayısal veriler bir tabloda şekilsel olarak bir sütun olarak verilir. Örnek olarak 62 ve 67 sayısı için kök 6 ve yapraklar 2 ile 7’dir.
Merkezi Dağılım Ölçüleri
Gözlenen verinin düzenlenerek çizelgelerle, grafiklerle sunulması bazı durumlarda istenen ayrıntıları veremez. Bazı ölçüler gereklidir. Karşılaştırma, yorumlama ve genelleme yapma imkanı verir.
Aritmetik Ortalama
Gözlenen tüm değerler toplanır ve gözlem sayısız bölünür.
Aritmetik Ortalama Özellikleri
- Her veri eşit öneme sahiptir.
- Her verinin ortalamadan farkları toplamı sıfıra eşittir.
- Her bir verinin aritmetik ortalamadan farklarının karelerinin toplamı minimum a herhangi bir değer olmak üzere aşağıdaki görselde anlatılmıştır.
2. Madde için formül:
Merkezi Ağırlıklı Ortalama
Her veri belirli bir oranda öneme sahiptir.
Yukarıda yer alan X kümesine ait her bir değer W kümesi içinde yer alan değerler ile çarpılır ve toplanır. Toplam sonucu ise W kümesinin toplam değerlerine bölünür. X kümesinin her bir değeri, ortalama sonucunda belli bir düzeyde yer almak için ağırlıklar dediğimiz W kümesinin elemanları ile çarpılmaktadır. Bir X değeri büyük bir W ile çarpılırsa ağırlıklı ortalamada o kadar büyüklükte etki etmektedir.
Geometrik Ortalama
Büyük veri fazla, küçük veri az etkili ve aritmetik ortalamaya göre daha etkilidir. Belirli süreçteki üretim/satış miktarı hesaplanmasında kullanılır.
Eğer verilerden biri 0 veya negatif ise logaritmik geometrik ortalama kullanılır. Ayrıca çok fazla veri ise kullanılır.
Harmonik Ortalama
Değişkenlerin biri sabit, diğerleri değişken yapıdadır. Veriler uyumsuzdur ve düzensiz ilişkileri vardır.
Yukarıdaki tabloda her bir X değeri 1 sayısını bölmektedir ve toplanmaktadır. Bu değerlerin toplamı ise toplam X sayısını bölmektedir.
Medyan(Ortanca)
Veriler sıralı ise, kümeyi tam ortadan bölen değerdir. Sıra uzunluğu değeri:
- tek ise = (n+1)/2
- çift ise (n/2+(n/2)+1)/2 = ortalama.
Veri kümesi büyük ise aritmetik ortalamaya göre daha iyidir ve yığın merkez eğilimi bulunur.
Mod(Tepe) Değeri
Bir küme içinde en çok tekrar eden frekans değeridir. Örnek olarak bir topluluk için yaşlara göre frekanslar belirlediniz. Bu topluluk içinde en çok 40 yaşında yer alan insanlar var ise bu topluluğun en çok tekrar eden frekansı, modu(tepe değeri) 40’tır.
Yukarıdaki tabloda ise en çok tekrar eden 47 sayısıdır ve bu ilgili kümenin modudur.
Merkez Dağılım Ölçüleri
Merkezi eğilim ölçülerini yorumlamak ve birden fazla veri seti için dağılımlar arası kıyaslama yapmak için kullanılır. Dağılım Genişliği(Değişim Genişliği), varyans ve standart sapma olarak üç alt başlığı vardır.
Dağılım Genişliği
Veri seti içindeki en büyük ve en küçük değerin birbirinden çıkarılmasıdır. DG=EB-EK
Varyans
- Yığın ve örnek için her bir değeri, ortalama değerden çıkar ve karesini al.
- Daha sonra sırası ile tüm değerler ile tekrar ederken yapılan işlem sonuçlarını topla.
- Toplanan sonuçları ise değer sayısına böl.
Varyans(Cebirsel Özdeşlik)
Standart Sapma
Varyans değerinin pozitif kareköküne denir. Fiziksel olarak bir büyüklük ve verilerin birbirine olan uzaklığıdır.
Dağılım Ölçüleri
Bir testin aritmetik ortalaması, modu, medyanı, standart sapması belirlenir. Bu değerler üzerinden dağılım bulunur. Normal dağılım, çarpıklık, basıklık olmak üzere üç çeşidir vardır.
Normal Dağılım
Histogram, örnek ortancasından zirveye ulaşan ve bu noktanın her iki yanından çan biçimli simetrik bir tarzda dağılım türüdür.
Çarpıklık
Örnek ortancası(medyan) civarında yaklaşık simetrik olmayan bir veri kümesine denir.
Basıklık
Normal dağılım eğrisinin ne kadar dik ya da basık olduğunu gösterir.
Y4 > 0 ise sivri, Y4 = 0 ise noröal, Y4 < 0 ise basık demektir.
Dağılım Yorumlanması
Bir veri kümesi ortalamasına ve s’esahip yaklaşık normal dağılım sahip ise aşağıdaki bilgiler doğrudur.
- Verilerin %68’i ortalama + s veya ortalama – s komşuluğunda
- %95’i ortalama + 2s veya ortalama – 2s komşuluğunda
- %99,7’si ortalama + 3s veya ortalama -3s komşuluğunda
yer aldığını gösterir.
Yüzde Birlikler
Veri sayısının toplam veri sayısına oranı olarak yüzde birlik denir. Örnek olarak 200 verinin içindeki 20 veriyi seçtiniz. Bu 20 veri ise (20/200)*100 =10 olmak üzere %10’luk yüzde birlik değerine sahiptir.
Kutu Grafiği
Kartillerin hesaplanma amacı, doğru yorumlamayı veri kümesi üzerinde yapmaktır.
Korelasyon
Sıklıkla birbiri ile bazı ilişkilere sahip değer çiftlerinden oluşan küme ile ilgilidir. Her biri eleman x ve y değerine sahip ise i.’nci veri noktası(xi,yi) çiftiyle temsil edilir. X ve Y değerleri x-y serpme diyagram grafiği ile gösterilir. İki veri türü arasındaki ilişki gösterilebilir. Büyük x’ler büyük veya küçük y’ler ile mi eşleşiyor sorusu önemlidir.
Korelasyon Katsayısı
Eşleştirilmiş iki veri seti arasındaki ilişkinin istatistiğidir. X ve Y’leri anlamak için her bir x değerini, x kümesi ortalaması ile çıkarmak; her bir y değerini, y kümesinin ortalaması ile çıkarmak ile gerçekleştirilirken ortaya çıkan bu iki değeri birbiri ile çarpmak ile yapılmaktadır. Örnek için r ve yığın için p ile gösterir.
|r| , x ve y ile doğrusal bir ilişki vardır.
- |r| = 1 ise tam doğrusal
- |r| = 0.3 ise zayıf doğrusal
- r >0 ise büyük/küçük x’ler ile – büyük/küçük y’lere karşılık ise
- r<0 ise büyük/küçük x’ler – küçük/büyük y’lere karşılık ise
-1<=1<=1 ise:
y=ax+b şeklinde bir doğru oluşturulmaya çalışılır.
Bu doğru veri çiftleri arasındaki ilişkiyi yaklaşık olarak tanımlar.