19 Ocak 2016 Salı

Rassal Değişken ve Binom Dağılımı

Rassal Değişken

        Bir deney ya da gözlemin şansa bağlı sonucu bir değişkenin aldığı sonuç olarak düşünülürse, olasılık ve istatistikte böyle bir değişkene rassal değişken denir. Rassal değişkenler Kesikli ve Sürekli olmak üzere ikiye ayrılır.

Kesikli Rassal Değişken

     Eğer rassal değişkenin sonuçları, tamsayı olarak listelenebiliyorsa (Örneğin; 0,1,2,3....,10) bu rassal değişken kesikli rassal değişkendir.

Sürekli Rassal Değişken

     Eğer rassal değişkenin sonuçları, reel sayılar aralığı olarak tanımlanıyorsa bu rassal değişken sürekli rassal değişkendir..Örneğin; 0 ile 10 arasındaki tüm reel sayılar.


Olasılık Dağılımı
         

         Kesikli bir rassal değişkenin tüm olası değerlerini gösteren fonksiyona veya listeye Olasılık Dağılımı adı verilir p(x). Örneğin bir zar attığımızda olası sonuçlarımız 1,2,3,4,5 ve 6’dır, her birinin gelme olasılığı ise 1/6 ‘dır.(Eğer zar hilesizse). x=1, p(x) = p(1) = 1/6 . Diğer bir örnek, kiracıların %40 nın evde bir köpek, %7sinin 2 köpek, %3 nün 3 köpek beslediğini ve %50 sinin köpek beslemediğini varsayalım. Bu durumda X =Köpek besleyenlerin, olasılık dağılımı,aşağıdaki örnekte verilmiştir.

Binom Dağılımı



   En çok bilinen ve sevilen kesikli rassal değişken binomdur.Binom’un anlamını ‘iki terim’’ olarak söyleyebiliriz çünkü binom iki sonuca sahiptir.Örnek vermek gerekirse, başarılı/başarısız veya evet/hayır gibi.

   Aşağıda sıralanmış olan 4 durumla karşılaşırsanız rassal değişkeninizin binom olduğunu söyleyebilirsiniz.



1.Denemeler sabit numaralardan oluşuyorsa (n)
2.Her deneme sadece 2 ihtimale sahip ise (başarılı/başarısız)
3.Başarılı olma ihtimali (p) her deneme için aynı ise                                                                              
4.Denemeler birbirinden bağımsız ise, yani bir denemenin sonucu diğerlerini etkilemiyorsa.

      X, n demede toplam başarılı olma sayısı olmak üzere, eğer bu 4 durumla karşılaşırsak X her bir denemenin başarılı olma ihtimali ile binom dağılımına sahip diyebiliriz.

Binom Olma Durumunun Adım Adım Kontrolü

    Şimdi bir madeni parayı 10 kez atalım ve yazıları sayalım (X ) , X acaba Binom Dağılımına sahip olur mu inceleyelim.


1.Denemeler sabit sayılardan oluşuyor mu?
Parayı sabit sayılardan oluşan 10 kez atıyoruz. n=10

2.Her bir deneme sadece 2 ihtimale sahip mi?
Her bir atışın sonucu yazı veya tura, yani sadece iki tane ihtimalimiz var. Eğer tura gelmesini istiyorsak bu durumda; Başarılı Olma Durumu : Tura , Başarısız Olma Durumu : Yazıdır.

3.Başarılı olma olasılığı her bir deneme için aynı mı?
Bozuk paranın hilesiz olması durumunda , her bir deneme için başarılı olma ihtimalimiz p=1/2 ‘ dir.

4.Denemeler birbirinden bağımısız mı?
Eğer bozuk paranın her atışta aynı yolla atıldığını farz edersek, bu sonrasında gelen sonuçların ilk atışlardan etkilenmeyeceği anlamına gelir. Yani bağımsızdır.

 - Bozuk para atma deneyemiz Binom’un bütün özelliklerini taşıdığı için bu deney için Binom Dağılımına sahiptir denilebilir


Denemelerin Sayılabilir Olması Durumu:

   Eğer X turalar için sayılabilir değilse, yani denemlerimiz Kesikli bir şekilde (1,2,3,4,...) şeklinde gitmiyorsa. Saydığımız durumlardan 1.siyle karşılaşılmamış olur , bu vakada X Binom Dağılımına sahip değildir deriz.


İkiden Daha Fazla İhtimale Sahipsek : 

     Şimdi bir zarı 10 kez attığımızı düşünelim, yani n=10 bu kısımda 1. durumla karşılaştık. Tekrar 2. durum için inceleme yaparsak; sonuçlarımız (1,2,3,4...,6) şeklinde, yani tam 6 tane ihtimalimiz var 2 değil, bu nedenle zar atma deneyi binom dağılımına sahip değil. 2. durumla karşılaşılmadı.

    Yinede Binom dağılımı bu kısımda neleri kaydettiğimize dayalıdır. Yani eğer biz bu zar deneyinde tekrar 10 kez atıp bu sefer sadece 1 gelenleri kaydedersek bu dağılım Binom Dağılıma sahip olur. Çünkü eğer 1 gelirse Başarılı diğer rakamlar gelirse Başarısız sayılacak. Yani sadece iki ihtimale düşmüş olacaktır.


Denemeler Bağımsız Değil ise : 

     Buradaki bağımsızlık durumu eğer bir denemenin sonucu diğer bir denemeden etkileniyorsa bozulmuş olur. Şimdi bir şehirdeki yetişkin insaların Casino’larda vakit geçirmeyi iyi bulup bulmadıkları konusunda bir anket düzenleğimizi düşünelim ve 100 kişilik bir örneklem oluşturalım. Rasgele örneklem almak yerine, bu anketi 50 tane evli çifte sorarsak, yüksek bir olasılıkla çiftlerin cevapları birbirinden etkilencektir, yani gözlemler birbirinden bağımsız olmayacaktır. Bu durumda 4. durumla karşılaşılmaz.

Her bir Denemenin Başarılı Olma İhtimali (p) Aynı Değil ise : 

     Şimdi bir torbanın içinde siyah ve beyaz olmak üzere 10 tane bilye olduğunu düşünelim. Bunların 6’sı siyah ve 4’ü beyaz.Bu torbanın içinden ilk denemede beyaz bilye çekme ihtimalim 4/10, fakat ikinci denemede beyaz bilye çekme ihtimalim aynı olmayacaktır, çünkü torabadan zaten bir çektim ve bilye sayısı şu anda 9 ve çektiğim bilyenin de beyaz olduğunu varsayarsak, ikinci denemde beyaz çekme olasılığım 3/9 olacaktır. Yani başaralı olma ihtimalim değişti ve 3. durumla karşılaşılmadı.


Binom Formülü İle Olasılık Hesabı



X’in Binom Dağılımına sahip olduğunu tanımladıktan sonra büyük ihtimalle bu X rassal değişkenin olasılıklarını bulmak isteyeceksiniz.İyi haber bu olasılıkların hepsini sil baştan bulmanıza gerek yok, n ve p değerleri ile kurulmuş olan binom formülünü kullanabilirsiniz.
P(x) :  





ÖRNEK:


    İşe giderken geçmek zorunda olduğun 3 tane trafik ışığı olduğunu varsayalım. X de senin yolunda olan kırmızı ışıkların sayısı olsun .Kaçtane durumda 2 tane kırmızı ışığa denk gelebilirsin? İhtimalleri değerlendirmeye başlayalım, ilk ışıkda yeşil diğer ikisinde kırmızı, oratadakinde yeşil diğerlerinde kırmızı veya ilk ikisi kırmızı sonra yeşil.
Şimdi Kırmızı=K ve Yeşilde=Y olsun budurmda karşılaşabileceğimiz 3 ihtimal;

YKK      -      KYK      -      KKY


  Buna göre ‘’ Denemeler ‘’ toplam 3 adet trafik ışığı n=3 ve ‘’başarılı olma ‘’ 2 tane kırmızı ışığa denk gelme x=2 ‘dir. x


   Şimdi ilk önce kombinasyonumuzdan başlayalım.Yani bu bilgiler doğrultusunda kaç farklı durumla karşılaşırız onu bulalım. Aslında az önce YKK,KYK,KKY olarak bulduğumuz 3 durumu kombinasyon formülü ile bulacağız.


   Bu sonuca göre 2 tane kırmızı ışığa yakalanmak için 3 tane farklı durmumuz bulunmaktadır.

   Şimdi Binom hesaplamalarına başlamadan önce adım adım bu deney binom Dağılımına uyar mı onu inceleyelim:

1.3 tane denememiz bulunmakta (n=3)
2.Her bir denmeye iki ihtimale sahip başarılı(kırmız) ve başarısız(sarı ve yeşil)
3.Denemeler bir birinden bağımsızlar
4.Ve her bir tarfik ışığı zamanın %30’unda kırmızı yanmakta yani p=0.30. 

  Yani X = Kırmızı yanan trafik ışıkları normal dağılıma sahip. Ve 1 – p = kırmızı ışık yanmama olasılığı = 1 – 0.30 = 0.70  


- p(x) binom formülünü kullandığımızda x = 0,1,2,3 kırmızı yanan trafik ışığının olasılıkllarını buluruz.




 Son olarak X’in binom dağılımı aşağıdaki tabloda gösterilmektedir.



Binom - Koşullu Olasılıklar




     Az önceki Trafik Işığı örneğinde olası X’in olasılığı o’dan n’e kadar olan herhangi bir değere eşitti.Bu kısmda aradığımız olasılığın küçük, büyük veya arasında olması durumundan bahsedeceğim.



Örneğin; azönceki örnekte bulduğumuz 4 tane olasılık vardı :
1.Hiç kırmızı ışığa denk gelmeme : p(0) = 0.343
2.1 kırmızı ışığa denk gelme : p(1) = 0.441
3.2 kırmızı ışığa denk gelme : p(2) = 0.189
4.3 kırmızı ışığa denk gelme : p(3) = 0.027




   Şimdi p(x > 1) olasılığını bulalım.Yani 2 kırmızı ışığa veya 3 kırmızı ışığa denk gelme olasılığımız.

    Bu olasılığı p(2) + p(3) toplamına eşittir. 0.216



P(1≤x≤3) olasılığmız ise = 0.441 + 0.189 + 0.027 = 0.657

Binom Ortalama ve Standart Sapma

  Eğer X n sayıda deneme ile Binom Dağılımına ve her bir deneme için p olasılığına sahip ise;



  Örneğin; 100 kez madeni para atıyoruz ve X turaların sayısı olsun. X ; n=100 ve p=0.50 olmak üzere normal dağılıma sahiptir.


1.Ortalaması : : μ=np=100.(0.50)=50 Yazı

2.Varyansı : σ^2=np(1-p)=100(0.50)(1-0.50)=25

3.Standart Sapma : σ=√(np(1-p))=√(100(0.50)(1-0.50) )=5






11 Ocak 2016 Pazartesi

Grafikler

Kategorik Verilerde Grafik

     Veri setlerinin sergilemek için, özellikle tablolar ve grafikler akla gelebilecek her türlü alanda kullanılmaktadır. Anlık bilgilerin aktığı, herkesin sonuçları ve detaylara ayrılmış bilgileri hızlıca almak istediği bir toplumda yaşamaktayız ve bu durumda grafikler bizlerin vazgeçilmezi olmakta.
    
     Bu kısımda sizlere kategorik verilerle nasıl grafik oluşturulacağından bahsedeceğim.

Pasta Grafiği

   Pasta grafik veri setinde her bir gruba düşen yüzdeliklere göre verilemizi parçalara (dilimlere) ayırır. Tüm dilimlerin toplamı %100’dür.


Siparişlerin Pasta Grafiği

     Anketler üzerinde inceleme yaparken pasta grafiğini kullanmak da önemlidir. Örneğin; bu çalışmada |Dışarıdan en çok yemek sipariş edilen gün| anketinden yola çıkacağız.
    
     Pasta grafiğinde en önemli nokta eğer örneklem büyüklüğünü bilmiyorsak sonuçlar hakkında kesin bir bilgi veremeyiz. Çünkü aşağıdaki örneği incelediğimizde Perşembe günleri %5 lik bir kısımın dışarıdan yemek sipariş ettiğini görmekteyiz. Ama eğer örneklem büyüklüğünü bilmiyorsak bu %5 lik kısım 5 kişi 500 kişi veya 5000 kişide olabilir.



    Pasta grafikler sıklıkla toplam örneklem büyüklüğünü içermediği için, sizin sürekli örneklem büyüklüğünü incelemeniz gerekecektir, özellikle sonuçlar sizin için çok önemliyse.


Bar Grafiği  

   Bar grafiği belki de medyada kullanılmaya en çok alışılmış grafik türü. Aynı pasta grafiği gibi bar grafiğinde verilerimizi de gözlemleri kategorik gruplara ayırarak inceleme yapmamıza olanak sağlar. Pasta grafiğinden farklı olarak bu gözlemleri farklı boylarda çubuklar kullanarak sergiler. Pasta grafik her gruba düşen yüzdeliği gösterirken, bar grafik her gruba düşen gözlemlerin sayısal değerlerini kullanır. ( frekans da denilebilir)


Örnek; Ulaşım harcamalarının Bar Grafik ile Karşılaştırılması ;
    Gelirlerine göre Amerikida yaşan insanlar evden işe, işten eve giderken ulaşım için ne kadar para harcarlar? Ulaşım İstatistikleri Bürosu böyle bir araştırma yapmış ve sonuçları bar grafik halinde sergilemiştir.

   Bu bar grafiği yıllık farklı hane gelir gruplarının ulaşım için ne kadar para harcadığını göstermektedir.



USA Piyango Ödemeleri Bar Grafiği

Nümerik Verilerde Grafik

Histogram Grafiği

    Histogram grafiği nümerik verilerin gruplandırılması için kullandığımız özel bir grafik çeşididir. Örneğin; bir yaş grubu mesela 10-20,21-30,31-40. Histogram grafiğindeki barlar çubuk grafiğinden farklı olarak bu yaş grupları arasında bağlantı kurarlar. Histogram grafiğinde veri setimizdeki her bir birey bir çubuğa denk gelmektedir.

Örnek; Oscar Ödülü Kazanan Oyuncuların Yaşları


   Bu örnekte 1928-2009 arası ödül kazanan oyuncuların yaşlarına histogram grafiği ile görselleştirme yapacağız. Ödül kazanan oyuncuların çoğunlukla gençmi , yaşlımı yoksa arasında mı, yaşları arasında bir yayılım varmı veya birbirine benzermi vb. sonuçları inceleyeceğiz.




     Burdaki yaş değişkenimiz veri setimiz için nümerik bir veri , yani histogram grafiğini bu veri seti için kullanabiliriz.



      Histogram grafiğini incelediğimiz zaman x ekseninde 5 yıl aralıklarla yaş grupları yer almaktadır. Belirli yaş grubuna düşen yüzdelikler ( veya göreceli sıklık) y ekseninde yer almaktadır. Örneğin %27 lik bir kısımda yaşı 30-35 arası olan oyuncular bulunmaktadır. Yine grafiği incelediğimizde oscar ödülü alan oyuncuların çocuğunun 25-40 yaş arasında olduğunu söyleyebiliriz.

     Betimsel istatistikler olarak, veri setinin merkezini veya değişimi sadece histogram grafiğinden yararlanarak hesaplayamayız, çünkü; kesin olarak verilerimizin değerlerini bilmiyoruz. Bulgularımıza ayrıntı eklemek için, her zaman betimsel istatistikselerimizi hesaplamamız gerekmektedir.
    Az önceki Oscar alan oyuncuların yaşlarının histogram grafiğinde yaşların sağa çarpık olarak dağıldığını görebiliriz. Ve ardından aşağıdaki Betimsel İstatistikler çıktısından medyanı 33 ve ortalamayı 35.69 olarak görmekteyiz.


 - Yaşaların sağa çarpık şekilde dağıldığını söyledik, hatırlarsanız bir önceki bölümde eğer ortalama medyandan büyükse örneklemimiz sağa çarpıktır demiştik ve bu örnekte de bunu görmekteyiz.

Box Plot Grafiği

    Boxplot nümerik verilerin 5-sayısal değeri(en küçük gözlem, birinci çeyrek, ortanca,3. çeyrek, en büyük gözlem) görselleştirmek için kullandığımız tek yönlü grafiktir. Bu 5 betimsel istatistik değeri aslında veri setimizinde her %25 düşen kısımları içermektedir.


Boxplot Grafiği Çizilirken İzlenilen Adımlar


1.Yukarıda söylediğimiz gibi 5 betimsel istatistik değeri bulunur.
2.Bulduğumuz 5 değeri içeren düşey sayı doğrusu kurulur.
3.Bulduğumuz 5 betimsel istatistiksel değerinin sayı doğrusu üzerindeki yerleri yukarısına denk gelen    yerlere işaretlenir.
4.25. yüzdelik ve 75. yüzdelik arasına bir kutu çizilir.
5.Medyanın olduğu kısıma bir doğru çizilir.
6.Aykırı değerler saptanır
7.Eğer aykırı değer yoksa , veri setimizin minimum değerinden maximum değerine uzanan bir doğru      çizilir.
8.Eğer aykırı değerler varsa , konumu ‘’ * ‘’ işareti ile belirtilir. (Aykırı değerlerin olduğu kısıma          doğru çizilmez)





   Adımlarımızı izleyerek oluşturduğumuz boxplot grafiğini incelediğimiz zaman . Oscar ödülü alan oyuncuların çoğunluk 25 ile 40 yaşları arasında olduğunu görürüz (Q1 veQ3 arası). Medyanımız 30 ile 35 yaş arasında olduğunu ve sağ tarafta bir kaç aykırı değerimiz olduğunu gözlemleyebiliriz.

ØBoxplot grafiğini sadece yatay değil, dikey şekilde de çizebiliriz.


Zaman Serisi Grafiği (Çizgi grafiği)

    Zaman serisi grafiğine aynı zamanda çizgi grafiği de denilir. Veri setimizdeki değerlerin zaman içindeki yükseliş ve alçalışını gösterir. Zaman serisi grafiğinde x ekseninde zaman, y ekseninde ise ölçülen değişkenimizin değerleri yer alır. Zaman serisi grafiğindeki her bir nokta belirli zamandaki toplanan verimizin özetini gösterir. Örneğin, şubat ayındaki ortalama biber fiyatı yada 2010 yılındaki toplam kazanç gibi.


    Bu grafiği az önce üzerinde çalıştığımız oscar ödülü alan oyuncular üzerinde uyguladığımız zaman. Bize yıllara göre hangi yaş aralığındaki oyuncuların ödül aldığını ve yıllara göre değişen ödül alan oyuncuların yaş artış ve azalışını çizgilerle göstermektedir.













1 Ocak 2016 Cuma

Temel İstatistikler

ORTALAMA



   Ortalama, veya başka bir ifadeyle veri setinin aritmetik ortalaması, X ̅  ifadesiyle gösterilir ve
Formülü şu şekildedir;


- Örneğin 13 tane 2010 NBA Las Angeles Lakers oyuncusunun ortalama aldığı ücretlerini bulalım.






      Daha öncede söylediğimiz gibi ortalama aykırı değerlerden çok etkilenir. Mesela burada Kobe Bryant’ın ödemesinin 23 milyon dolar civarında olduğunu görüyoruz ve diğerleriyle arasında büyük bir fark bulunuyor. Ve ortalamayı Kobe Brynat’ı çıkartıp hesapladığımızda 5 695 307 ortalama elde ederiz ve bunun ilk bulduğumuz ortalamayla arasında yaklaşık 1.3 milyon dolar fark vardır.

Medyan (Median)


        Ortaokul zamanlarında sınavlarda büyük bir kısım öğrenci düşük not alırken , bir kaç çalışkan
öğrencide sınavlardan sürekli 100 ve 100’e yakın notlar aldığı olurdu ve öğretmenler bunu sınıf geneline kötü performans olarak yansıtmazdı. Çünkü onlar muhtemelen genel ortalama için aritmetik ortalamayı kullanıyorlardı ve aritmetik ortalama aslında her zaman bu gibi durumlarda istatistikçilerin öğrenci notlarının merkezini bulmak için kullandıkları ölçüm yönetimi değildir. Çünkü daha öncede dediğimiz gibi aykırı değerlerden etkilenir.


    Peki aritmetik ortalamadan farklı olarak tipik bir NBA oyuncusunun aldığı ödemeyi veya bir sınıfta tipik bir öğrencinin sınavda ne kadar alabileceği notu nasıl hesaplarız? Verinin merkez değerini bulmak için kullanılan diğer istatistikte Medyandır. Medyan hala istatistikte tanınmayan bir kahraman aslında,insanlar medyanı kullanılması gerektiği kadar kullanmamakta.

Şimdi adım adım medyanı nasıl bulacağımıza bakalım ;



1- Verimizdeki numaraları küçükten büyüğe doğru sıralıyoruz.

2- Eğer veri setimizin gözlem sayısı tek sayı ise, tam olarak ortadaki sayımız medyanımız olur

3- Eğer veri setimizin gözlem sayısı çift sayı ise, veri setimiz ortasında 2 tane sayımız kalacak ve medyan için bu ortada kalan iki sayının ortalamasını almamız gerekecektir.




      Bu işlemleri NBA Los A. Lakers oyuncularının ödemelerini gösteren tabloya uyguladığımız zaman medyanımız 7.oyuncu DEREK FİSHER’in ödemesi olan 5 048 milyon dolar olduğunu görürüz.


Ortalama ve Medyanın Karşılaştırılması : HİSTOGRAM

    Veri setinizin şeklini sergileyebileceğimiz (Örneğin; ne kadar değer ortalamaya yakın/uzak, verinin merkezi ve ne kadar aykırı değere sahibiz) grafiklerden biride Histogram grafiğidir. Basitçe Histogram grafiği verinizin gruplarını, sayı veya yüzdelik olarak hangi grupta yer aldığını , organize eden ve görselleyen bir grafiktir.




- Eğer hist. grafiğinde verilerinizin çoğu sol tarafta ve bir kaç yüksek değer sağ tarafta ise buna sağ çarpıklık (skewed to the right.) denir. Bu durumda ortalama medyandan büyüktür
- Eğer hist. grafiğinde verilerinizin çoğu sağ tarafta ve bir kaç düşük değer sol tarafta ise buna sola çarpıklık (skewed to the left. ) denir. Bu durumda ortalama medyandan küçüktür.
- Eğer his.grafiğinde verileriniz sağ ve sola eşit ölçüde yayıldıysa bu durumda veriniz simetriktir.

Sağa Çarpıklık, Sola Çarpıklık ve Simetrik Olma Durumları - HİSTOGRAM



Değişim Hesaplamaları – Standart sapma
     Veri setinizde ne tür bir ölçüm yaparsanız yapın değişim her zaman vardır, çünkü her gözlem her değişkende aynı kesin değere sahip olmayacaktır. Örneğin, ev fiyatları, evden eve, yıldan yıla ve şehirden şehire değişim gösterir.
    Alışılmış en yaygın değişimi ölçme tekniği standart sapmadır. Standart sapma veri setimizin aritmetik ortalama etrafında ne kadar yoğunlaştığını ölçmektedir.

Hesaplanması ; 

Bir örneklem için standart sapmanın (s) formülü aşağıdaki gibidir ;






1.Veri setimizin ortalaması

2.Veri setimizdeki her sayının ortalamadan farkı ve bunun karelerilerinin toplamı 

3.Ve bulduğumuz sonucu gözlem sayısının bir eksiğine bölümü ardından sonucun kare kökü

4.Standart sapmanın kareside bize Varyansı verir.


Standart Sapma’nın Özellikleri;

Standart sapma hiç bir zaman negatif olmaz. Çünkü standart sapma bir nevi mesafe ölçer ve bunun negatif çıkması imkansızdır.

- Çok küçük bir ihtimalle Standart sapma ‘’0‘’ olabilir, ki böyle bir sonuç veri setinizdeki sayılar tam olarak aynı ise meydana gelir, yani değişim yoksa.

- Standart sapma aykırı değerlerden etkilenir (çok küçük veya çok büyük değerlerden). Çünkü standart sapma ortalamaya olan uzaklığı kapsar ve ortalama aykırı değerlerden etkilendiği için, standart sapmada aykırı değerlerden etkilenir.- Standart sapma veri setiyle aynı birime sahibidir.

Açıklık (range)


    Veri setindeki çeşitliliği ölçmek için kullanılan bir diğer ölçüm yöntemi de Açıklıktır. Açıklık veri setindeki en küçük değer ile veri setindeki en büyük değer arasındaki farktır. Oldukça basittir sadece yapmamız gereken bütün veri setinin sıraya koymak ve basit bir çıkarma işlemi.

Ampirik Kural(Empirical Rules)



Ampirik kuralda, eğer bir popülasyon normal dağılıyorsa ve aritmetik ortama μ , standart sapma σ ise

- Popülasyonun %68 lik kısmı ortalamadan ±1 standart sapma içine yayılmaktadır. ( Başka bir diyişle; ortalamanın 1 stardant sapma eksiğinin ve ortalamanın 1 standart sapma fazlasının arasındadır) İstatistiksel olarak notasyonunu şu şekilde gösteririz; μ±1σ

- Popülasyonun %95 lik kısmı ortalamadan ±2 satandart sapma içine yayılmaktadır. ( Başka bir diyişle; ortalamanın 2 standart sapma eksiğinin ve ortalamanın 2 standart sapma fazlasının arasındadır) İstatistiksel olarak notasyonunu şu şekilde gösteririz; μ±2σ

- Popülasyonun %99.7 lik kısmı ortalamadan ±3 satandard sapma içine yayılmaktadır. ( Başka bir diyişle; ortalamanın 3 stardant sapma eksiğinin ve ortalamanın 3 standart sapma fazlasının arasındadır) İstatistiksel olarak notasyonunu şu şekilde gösteririz; μ±3σ




















 

31 Aralık 2015 Perşembe

İstatistikte Bilmemiz Gereken Terimler

Veri

   Veriler ölçüm, sayım, deney, gözlem ya da araştırma yolu ile elde edilmektedir. Ölçüm ya da sayım yolu ile toplanan ve sayısal bir değer bildiren veriler nicel veriler, sayısal bir değer bildirmeyen veriler de nitel veriler olarak adlandırılmaktadır.

Nümerik Veriler



Veriler ölçüm, sayım, deney, gözlem ya da araştırma yolu ile elde edilmektedir. Ölçüm ya da sayım yolu ile toplanan ve sayısal bir değer bildiren veriler nicel veriler, sayısal bir değer
bildirmeyen veriler de nitel veriler olarak adlandırılmaktadır.Örnek olarak, yan taraftaki veri setinde; ofislere göre gelirler gösterilmiştir. Bu kısımda gelir nümerik bir veridir.

Nominal (Kategorik) Veriler



Kategorik bir veri çeşidir. “Daha fazla” ifadesi ile kullanılmazlar.

İkiye ayrılır:

a)  Dikotom Veriler : Var-Yok, Kadın-Erkek, Hasta-Sağlıklı

b)  İkiden Çok Kategorili : Medeni Durum-Renk-Irk-Şehir, İsim, Forma Numarası

Örneğin forma numarası oyuncunun seviyesi ile ilgili bir bilgi içermez.Yine aynı veri setimizdeki, ofis kısmı nominal verilerden oluşmaktadır.

Ordinal Veriler

     

     Ordinal veriler de yine kategorik veri türündendir. Fakat değerleri arasında sıralı bir ilişki bulunmaktadır. “Daha fazla” ifadesi ile kullanılabilirler ancak nekadar daha fazla olduğunun ölçüsünü veremezler. Örneğin: Eğitim Düzeyi, Sosyo ekonomik ölçek skorları gibi. Nominal veriler, ordinal verilere daha az bilgi taşırlar.







Interval (aralıklı) veriler

  Nesnelerin sıralanmasında kullanılır. Eşit aralıkların eşit mesafelerini temsil ettiği bir ölçek türüdür. Ordinal ölçümün bütün özelliklerini taşır. Nesneler arasındaki farkın mukayesesine imkan tanır. Başlangıç noktası sorunu vardır. Araştırmacı kendi yaptığı çalışmaya göre bir başlangıç noktası belirler. Sıfır noktası sabit olmadığı için başlangıç noktası görecelidir. Sıfır noktası sayısallaştırmayı kolaylaştıran bir başlangıç noktasıdır. Örneklere bakalım; tansiyon ölçümleri (küçük ve büyük tansiyon belirlenerek kişinin tansiyonunun bu değerler arasında olacağı açıklanır), kan pH’ı 7.1 ile 7.5 arasında olması, vücut sıcaklığını ölçmek için kullanılan termometreler, likert ölçeği (tutum ve davranışları ölçmek için 1 ile 5 arasında değer vermek gibi, ya da kötü—harika tarzı anlamsal dizilimler).


Ratio (Oransal) Veriler

  Interval,ordinal ve nominal ölçüm türünün özelliklerini taşır. Aynı zamanda mutlak sıfır noktasına da sahiptir. En üst ölçüm tekniğidir, her türlü istatiksel ve matematik işleme imkan tanımaktadır. Cevaplayıcı sıfırdan herhangi bir sayıya kadar cevap verebilir. Oransallık söz konusudur. Örnek vermemiz gerekirse; yıllık kazancınız ne kadar, kaç çocuğunuz var, sağlık alanında ağırlık ölçümü, boy ölçümü, fizik bilimindeki ölçümler ağırlık, alan, hacim gibi, ölen hastalanan yaralanan hakkındaki veriler vb.

DEĞİŞKEN (Variable)

• Bir değişken karakteristik veya nümerik değer olabilir bu deneyden deneye değişir.
• Bir değişken size bir sayımı (Örneğin; sahip oludğun evcil hayvanların sayısı) veya bir ölçümü yansıtabilir (Örneğin; sabahları uyanma saatlerinizin ölçümü).
• Veya değişkenler her bireyin belirli ölçütlere göre gruplandığı katagorik verilerden oluşablirler (Örneğin; politik görüş, ırk ya da medeni durum) .
• Gözlem bilgilerinin, üzerine kaydedilen gerçek veri parçalarıdır.

Örnekleme ve Raslantısal Seçim

      Bir çorbadan örnek alırken ne yaparsınız? Çorbanın tamammını içmektense ilk önce çorbayı karıştırır ardından tencerenin içinden bir kaşık yardımıyla çorbadan biraz alarak onu tadarsınız. Ve sonra bütün bir çorbayla alakalı bir yorum yapabilirsiniz. Eğer dürüst bir yolla alınmışsa, yani çorbanın sadece iyi yerlerleri alınmamışsa, çorba hakkında iyi bir fikir oluştarabilirsiniz.İşte İstatistikte raslantısal örnek seçimide aynı bu şekilde olmaktadır. Bir popülasyonu çorba olarak kabul edersek o çorbayı çok iyi karıştırıp öyle örnek seçmemiz gerekir ki doğru sonuca daha yakın olabilme şansımız olsun.

Parametre (Parameter)

         İstatistik örnek verilere dayanır, popülasyon verilerine değil. Eğer verimizi tüm populasyondan toplamışsak, bu toplama işlemine sayım denir. Eğer biz bu sayımı sayıyla bir değişken üzerinden özetliyorsak , bu sayı istatistik değil parametre olur.

       Ortalama (Average or Mean)

       Ortalama istatistikçilerce nümerik verilerdeki , bir ölçümün merkezi veya oratasını bulmak için
kullanılmaktadır. Aritmetik ortalama bütün değerlerin toplamının, değer sayısına bölünmesiyle
bulunmaktadır. Ortalama her zaman gerçeği yansıtmayabilir, çünkü ortalama aykırı değerlerden
kolayca etkilenebilmektedir. (Aykırı değer : Çok küçük veya çok büyük değerler)

       Medyan (Median)

     Medyan veri setinin merkezini ölçmek için kullanılan diğer bir yoldur. Basitçe bir veri grubu küçükten büyüğe doğru sıralandığında, ortada bulunan veri ortanca değer (medyan) olarak adlandırılır.


Standart Sapma (Standard deviation)

   

Bir istatistiksel çalışma yaparken beklediğimiz kesin sonuç normalin üstünde veya altında bulunabilir. Zamanla insanlar bu durumu standartlaştıkmak istemişler ve bunun için standart sapmayı bulmuşlar. Bu sayede Satandart Sapma , yaptığımız çalışmanın sonuçlarının ortalamanın ne kadar üstüne ve altına sapabilceğini hesaplamamıza olanak sağlanmıştır.Formülize edersek;





Standart sapma istatistikçilelerin değişim tutarını ölçmek için kullanıdığı bir ölçüdür.

Dağılım ve Normal Dağılım (Distribution and normal distribution)



    Dağılım bir veri setinin olası değerler listesidir veya tüm olası değerleri veya ne sıklıkla meydana geleceğini gösteren fonksiyondur.

   En çok bilinen dağılımlardan biride normal dağılımdır. Normal dağılım olası değerlerin reel sayılar hattına uzanması halinde oluşur ve verinin çoğu (%68 civarı) merkezde ortalama civarindadır. Daha ileri hareket ettiğimiz zaman küçük değerler karşımıza çıkar. 




     Ortalama her zaman normal dağılımda orta kısımdadır ve standart sapma ortalamadan büküm noktalarına olan uzaklık ölçülerek bulunur (Büküm noktaları ; iç bükeylikten dış bükeyliğe geçişinolduğu noktalar) Bu grafikte ortalama 0 ve standart sapma 1 dir.







Merkezi Limit Teoremi (Central Limit Theorem)


    N tane birbirinden bağımsız rassal değişkenin (random variable) toplamı olan bir rassal değişkenin n sonsuza giderken ortalama değeri etrafında normal dağılıma sahip olacağını söyler. Daha basit bir ifadeyle birbirinden bağımsız pek çok faktörün etki ettiği bir olayın normal dağılıma yakın davranacağını söyleyebiliriz. Bu sayade anakütle dağılımı bilinmeyen değişkenler için, örneklemler oluşturarak normal dağılımı kullanabiliriz.


Z- Değerleri (Z-values)

    Eğer veri setimiz normal dağılıma sahip ise ve bu tüm veri setini bir standart skora standardize ettiğimizde elde edilen skor veri setimiz için bulduğumuz Z-değeri olur. Başka bir tabirle Z skoru ortalamadan kaç standart sapma uzakta olduğumuzu belirtir. Tüm Z değerleri Standar Normal Dağılım olarak bilinen dağılımdan çıkar ve Standard Normal Dağılım’da ortalama 0’a Standart Sapma is 1’e eşittir.

Yanılma Payı (Margin of Error)

   Muhtemelen şu sözü duymuşsunuzdur: ‘’Bu analizde yüzde %05 yanılma payı vardır‘’ Peki nedir
bu yanılma payı? Hatasız bir test yapamayacağımız için her testte bir miktar yanılma riskimiz vardır. Bunu 0,05 ; 0,01 ; 0,005 ; 0,0001;... gibi bir düzey olarak benimseyebiliriz. Yanılma payımız küçüldükçe, teste olan güven düzeyimiz yükselir. O nedenle istatistikçiler olabildiğince az yanılma ile test yapmak isterler. Yine de α =0,05 ve α=0,01 düzeyleri en çok kullanılanlardır.


Güven Aralıkları (Confidence interval)

    Şimdi Türkiye geneli hane geliri araştırması yaptığımızı düşünelim. Bunun için popülasyonumuz 
‘’Tüm Türkiye’nin hane geliri ‘’ ve parametremizi ‘’ Ortalama Hane Gelir ‘’olarak varsayalım. Başlarken populasyondan bir örneklem aldık (Örneğin Türkiye hanelerinden 1000 tanesi) Ve sonra bu örnekleme ilişkin istatistiklerimizi bulduk. Eğer tüm bir popülasyon hakkında bir yorum yapmak istiyorsak bunun sonrasında bulduğumuz değerlere basit bir tabirle ekleme veya çıkartma yapmamız gerekir çünkü örnekten örneğe değişim görülebilir. Bu ekleme ve çıkama, örneklem istatisğinin tahmini amacıyla eklediğimiz parametrenin yanılma payıdır. Ve bunun sonucunda güven aralığımızı elde ederiz. Basit bir Örnekle evden işe 30 dkda gidiyorsunuz ama bu bazen 5 dk erken bazen 5 dk geç oluyor burdaki 5 dk sizin yanılma payınız ve güven aralığınız ise 25 ve 35 arasındadır.


Hipotez Testi (Hypothesis testing)


Hipotez kısaca doğruluğu bir araştırma ya da deney ile test edilmeye çalışılan öngörülere, denencelere denir.

Hipotez testleri bir örneklem ortalaması ile bu örneklemin çekilmiş olduğunu düşündüğümüz ortalaması etrafındaki farkın anlamlı olup olmadığını (yani önemli bir fark olup olmadığını) araştırmamızı sağlayan testlerdir.

Örneğin; Bir pizza şirketi ortalama siparişlerini adreslere 30 dakikada teslim ediyor ve bize bunu test etmemiz isteniyor. Bunun için tüm sipariş sürelerini içeren ana kütleden rastgele örneklem seçimi yaprak ortalama sürenin ortalama periyodun dışına çıkıp çıkmadığını kontrol edip bu iddianın anlamlı olup olmadığını test ederiz. Ayrıca bulduğumuz sonuçlar örneklemden örnekleme farklılık gösterebilceğinden bu hesap değerlerinide dikkate alınmalıdır.





p – Değeri ve Anlamlılık (p-values)


    Hipotez testi popülasyon hakkında yapılmış olan iddianın gerçekliğini test etmek için kullanılır. Bu denemede olan iddiaya sıfır hipotezi dersek ve bu hipotezin asılsız sonuca varılması durumunda inanacağımız diğer hipotez ise alternatif hipotez olur. Hipotez testlerinin doğruluğunun gücünü ölçmek için p – değerini kullanırız. P değeri 0 ile 1 arasında olan bir numaradır.
  

    Örneğin biraz önceki örnekten gidelim; bir Pizza şirketi siparişlerini evlere ortalama en fazla 30 dakikada getirdiğini söylüyor, bizde buna inanmıyoruz ve 30 dakikadan fazla olduğunu iddia ediyoruz.Buna göre hipotezimiz;


  Rastgele eve servis sürelerinden örneklem seçtik ve hipotez testi kanalıyla verimizde gerekli işlemleri yaptık ve p-değerimiz 0,001 olarak çıktı. Ve bu değer 0.05 den küçük. Bu durumda sıfır hipotezini reddettik ve alternatif hipotezi kabul ettik. Yani iddiamızın doğruluğunu kanıtlamış olduk.

İstatistik ve Araçları

İstatistik Nedir?

  • Belirli bir amaç için veri toplama,
  • Tablo ve grafiklerle özetlenmesi sonuçları yorumlama,
  • Sonuçların güven derecelerini açıklama,
  • Örneklerden elde edilen sonuçları kitle için genelleme,
  • Özellikler arasındaki ilişkiyi araştırma,
  • Çeşitli konularda geleceğe ilişkin tahmin yapma,
  • Deney düzenleme ve gözlem ilkelerini kapsayan bir bilimdir.

Başlarken Bilmemiz Gerekenler

İstatistik belirli bir amal için verilerin toplanması, sınıflandırılması, çözümlenmesi ve sonuçların yorumlanması esasına dayanır.

İstatistiği öğrenmedeki amaç, bir araştırmada elde edilen verilerin uygun istatistiksel yöntemler kullanılarak yorumlanacağını bilmektir
İstatistiksel yöntemleri toplanmış verilerin özetlenmesi veya açıklanması amacıyla kullanılır. Bu tür bir yaklaşım betimsel istatistik adını alır.
İstatistiğin diğer bölümlerle olan ilişkilerinde doğan kavramlar şu şekilde gösterilebilir; - - Ekonomi+İstatistik  = Ekonometri
Psikoloji+İstatistik = Psikometri
Tıp+İstatistik            = Biyoistatistik
Sosyoloji+istatistik  = Sosyometri
Tarih+İstatistik        = Kliometri


Tablolar ve Grafikler

 Verimizin özetinin görselleştirilmesi için kullanılan yöntem,tablolar ve grafiklerdir. Bu araçlar size verinin çizilmiş resmini vermektedir veya tespit edilen sonuca yakınlaşan görüntüler verir. Bilginin çok hızlı aktığı bu dünyada grafikler ve tablolar olmassa olmaz hale gelmiş durumdadır.

Katogerik verilerde daha çok pasta, çubuk gibi girafikler kullanılmaktadır.  




 Nümerik verilerde örneğin; yükseklik,genişlik,tutar gibi verilerde  daha çok histogram,boxplot  gibi girafikler kullanılmaktadır.








Veri Seçimi ve İyi Örneklem !

  
  Bir çalışma dizayn edildikten sonra, bu çalışmada yer alıcak bireyler veya deneysel gözlemlerin
dikkatli bir şekilde seçilmesi gerekmektedir. Bu veri toplamanın en önemli kısmıdır. Bu kısımda
yapılacak hatalar araştırmanızın sonunda sizi yanlış yönlendirebilir. İstatistikçiler bunun için
‘’Döküntü giren döküntü çıkar ‘’ (Garbage in equals garbage out)’ der.

Örneklem Seçimi


Örneklem, belli kurallara göre, belli bir evrenden seçilmiş ve seçildiği evreni temsil yeterliği kabul edilen küçük kümedir. Araştırmalar çoğunlukla örneklem kümeler üzerinde yapılır ve elde edilen sonuçlar ilgili evrenlere genellenir
•  Örneklem seçilirken, örneklemin temsil yeteneği taşımasına ve yeterli büyüklükte olmasına dikkat etmek gerekir.
•  Örnekleme yapılırken, öncelikle araştırmanın amaçları doğrultusunda sonuçların genellenmek istendiği evrenin sınırlandırılıp çalışma evreninin tanımlanması gerekir.

Betimsel İstatistikler (Descriptive Statistics)

Betimsel istatistikler tabirince bir veri setinin önemli özelliklerini açıklayan numaralardır.



Örnekte gördüğümüz; bir veri setine ait olan betimsel istatistikler çıktısıdır.







    Betimsel istatistiksellerde en iyi sonucu veren opsiyonlar veri setimize göre değişebilir. Örneğin;bir veri setinin ortası için her zaman ortalama en iyisi olmayabilir sıklıkla yerine medyan tercih edilebilir, veya standart sapma (Std. Deviation) değişim için en iyi ölçek olmayabilir onun yerine çekyekler - quarter (interquartile range)’de tercih edilebilir.

Doğru Analizin Seçilmesi

  Verimizi seçtikten sonra ve gerekli betimsel sonuçları elde ettikten sonra araştırmamızın, kara kutusu olarak sayılabilecek istatistiksel analizimizi seçmeye sıra geliyor.



   Bir çok tür analiz bulumaktadır ve doğru durum için doğru analizi seçmek çok kritiktir. Bu bağlamda başkalarının yaptığı analizleri incelemek bizim için her zaman faydalı olacaktır. Üzerindeçalıştığımız bir deney için yanlış bir analiz seçmemiz o araştırmadan yanlış sonuçlar elde etmemize sebebiyet verebilir. Bu kısım için istatistiğin en önemli kısmı diyebiliriz.