31 Aralık 2015 Perşembe

İstatistikte Bilmemiz Gereken Terimler

Veri

   Veriler ölçüm, sayım, deney, gözlem ya da araştırma yolu ile elde edilmektedir. Ölçüm ya da sayım yolu ile toplanan ve sayısal bir değer bildiren veriler nicel veriler, sayısal bir değer bildirmeyen veriler de nitel veriler olarak adlandırılmaktadır.

Nümerik Veriler



Veriler ölçüm, sayım, deney, gözlem ya da araştırma yolu ile elde edilmektedir. Ölçüm ya da sayım yolu ile toplanan ve sayısal bir değer bildiren veriler nicel veriler, sayısal bir değer
bildirmeyen veriler de nitel veriler olarak adlandırılmaktadır.Örnek olarak, yan taraftaki veri setinde; ofislere göre gelirler gösterilmiştir. Bu kısımda gelir nümerik bir veridir.

Nominal (Kategorik) Veriler



Kategorik bir veri çeşidir. “Daha fazla” ifadesi ile kullanılmazlar.

İkiye ayrılır:

a)  Dikotom Veriler : Var-Yok, Kadın-Erkek, Hasta-Sağlıklı

b)  İkiden Çok Kategorili : Medeni Durum-Renk-Irk-Şehir, İsim, Forma Numarası

Örneğin forma numarası oyuncunun seviyesi ile ilgili bir bilgi içermez.Yine aynı veri setimizdeki, ofis kısmı nominal verilerden oluşmaktadır.

Ordinal Veriler

     

     Ordinal veriler de yine kategorik veri türündendir. Fakat değerleri arasında sıralı bir ilişki bulunmaktadır. “Daha fazla” ifadesi ile kullanılabilirler ancak nekadar daha fazla olduğunun ölçüsünü veremezler. Örneğin: Eğitim Düzeyi, Sosyo ekonomik ölçek skorları gibi. Nominal veriler, ordinal verilere daha az bilgi taşırlar.







Interval (aralıklı) veriler

  Nesnelerin sıralanmasında kullanılır. Eşit aralıkların eşit mesafelerini temsil ettiği bir ölçek türüdür. Ordinal ölçümün bütün özelliklerini taşır. Nesneler arasındaki farkın mukayesesine imkan tanır. Başlangıç noktası sorunu vardır. Araştırmacı kendi yaptığı çalışmaya göre bir başlangıç noktası belirler. Sıfır noktası sabit olmadığı için başlangıç noktası görecelidir. Sıfır noktası sayısallaştırmayı kolaylaştıran bir başlangıç noktasıdır. Örneklere bakalım; tansiyon ölçümleri (küçük ve büyük tansiyon belirlenerek kişinin tansiyonunun bu değerler arasında olacağı açıklanır), kan pH’ı 7.1 ile 7.5 arasında olması, vücut sıcaklığını ölçmek için kullanılan termometreler, likert ölçeği (tutum ve davranışları ölçmek için 1 ile 5 arasında değer vermek gibi, ya da kötü—harika tarzı anlamsal dizilimler).


Ratio (Oransal) Veriler

  Interval,ordinal ve nominal ölçüm türünün özelliklerini taşır. Aynı zamanda mutlak sıfır noktasına da sahiptir. En üst ölçüm tekniğidir, her türlü istatiksel ve matematik işleme imkan tanımaktadır. Cevaplayıcı sıfırdan herhangi bir sayıya kadar cevap verebilir. Oransallık söz konusudur. Örnek vermemiz gerekirse; yıllık kazancınız ne kadar, kaç çocuğunuz var, sağlık alanında ağırlık ölçümü, boy ölçümü, fizik bilimindeki ölçümler ağırlık, alan, hacim gibi, ölen hastalanan yaralanan hakkındaki veriler vb.

DEĞİŞKEN (Variable)

• Bir değişken karakteristik veya nümerik değer olabilir bu deneyden deneye değişir.
• Bir değişken size bir sayımı (Örneğin; sahip oludğun evcil hayvanların sayısı) veya bir ölçümü yansıtabilir (Örneğin; sabahları uyanma saatlerinizin ölçümü).
• Veya değişkenler her bireyin belirli ölçütlere göre gruplandığı katagorik verilerden oluşablirler (Örneğin; politik görüş, ırk ya da medeni durum) .
• Gözlem bilgilerinin, üzerine kaydedilen gerçek veri parçalarıdır.

Örnekleme ve Raslantısal Seçim

      Bir çorbadan örnek alırken ne yaparsınız? Çorbanın tamammını içmektense ilk önce çorbayı karıştırır ardından tencerenin içinden bir kaşık yardımıyla çorbadan biraz alarak onu tadarsınız. Ve sonra bütün bir çorbayla alakalı bir yorum yapabilirsiniz. Eğer dürüst bir yolla alınmışsa, yani çorbanın sadece iyi yerlerleri alınmamışsa, çorba hakkında iyi bir fikir oluştarabilirsiniz.İşte İstatistikte raslantısal örnek seçimide aynı bu şekilde olmaktadır. Bir popülasyonu çorba olarak kabul edersek o çorbayı çok iyi karıştırıp öyle örnek seçmemiz gerekir ki doğru sonuca daha yakın olabilme şansımız olsun.

Parametre (Parameter)

         İstatistik örnek verilere dayanır, popülasyon verilerine değil. Eğer verimizi tüm populasyondan toplamışsak, bu toplama işlemine sayım denir. Eğer biz bu sayımı sayıyla bir değişken üzerinden özetliyorsak , bu sayı istatistik değil parametre olur.

       Ortalama (Average or Mean)

       Ortalama istatistikçilerce nümerik verilerdeki , bir ölçümün merkezi veya oratasını bulmak için
kullanılmaktadır. Aritmetik ortalama bütün değerlerin toplamının, değer sayısına bölünmesiyle
bulunmaktadır. Ortalama her zaman gerçeği yansıtmayabilir, çünkü ortalama aykırı değerlerden
kolayca etkilenebilmektedir. (Aykırı değer : Çok küçük veya çok büyük değerler)

       Medyan (Median)

     Medyan veri setinin merkezini ölçmek için kullanılan diğer bir yoldur. Basitçe bir veri grubu küçükten büyüğe doğru sıralandığında, ortada bulunan veri ortanca değer (medyan) olarak adlandırılır.


Standart Sapma (Standard deviation)

   

Bir istatistiksel çalışma yaparken beklediğimiz kesin sonuç normalin üstünde veya altında bulunabilir. Zamanla insanlar bu durumu standartlaştıkmak istemişler ve bunun için standart sapmayı bulmuşlar. Bu sayede Satandart Sapma , yaptığımız çalışmanın sonuçlarının ortalamanın ne kadar üstüne ve altına sapabilceğini hesaplamamıza olanak sağlanmıştır.Formülize edersek;





Standart sapma istatistikçilelerin değişim tutarını ölçmek için kullanıdığı bir ölçüdür.

Dağılım ve Normal Dağılım (Distribution and normal distribution)



    Dağılım bir veri setinin olası değerler listesidir veya tüm olası değerleri veya ne sıklıkla meydana geleceğini gösteren fonksiyondur.

   En çok bilinen dağılımlardan biride normal dağılımdır. Normal dağılım olası değerlerin reel sayılar hattına uzanması halinde oluşur ve verinin çoğu (%68 civarı) merkezde ortalama civarindadır. Daha ileri hareket ettiğimiz zaman küçük değerler karşımıza çıkar. 




     Ortalama her zaman normal dağılımda orta kısımdadır ve standart sapma ortalamadan büküm noktalarına olan uzaklık ölçülerek bulunur (Büküm noktaları ; iç bükeylikten dış bükeyliğe geçişinolduğu noktalar) Bu grafikte ortalama 0 ve standart sapma 1 dir.







Merkezi Limit Teoremi (Central Limit Theorem)


    N tane birbirinden bağımsız rassal değişkenin (random variable) toplamı olan bir rassal değişkenin n sonsuza giderken ortalama değeri etrafında normal dağılıma sahip olacağını söyler. Daha basit bir ifadeyle birbirinden bağımsız pek çok faktörün etki ettiği bir olayın normal dağılıma yakın davranacağını söyleyebiliriz. Bu sayade anakütle dağılımı bilinmeyen değişkenler için, örneklemler oluşturarak normal dağılımı kullanabiliriz.


Z- Değerleri (Z-values)

    Eğer veri setimiz normal dağılıma sahip ise ve bu tüm veri setini bir standart skora standardize ettiğimizde elde edilen skor veri setimiz için bulduğumuz Z-değeri olur. Başka bir tabirle Z skoru ortalamadan kaç standart sapma uzakta olduğumuzu belirtir. Tüm Z değerleri Standar Normal Dağılım olarak bilinen dağılımdan çıkar ve Standard Normal Dağılım’da ortalama 0’a Standart Sapma is 1’e eşittir.

Yanılma Payı (Margin of Error)

   Muhtemelen şu sözü duymuşsunuzdur: ‘’Bu analizde yüzde %05 yanılma payı vardır‘’ Peki nedir
bu yanılma payı? Hatasız bir test yapamayacağımız için her testte bir miktar yanılma riskimiz vardır. Bunu 0,05 ; 0,01 ; 0,005 ; 0,0001;... gibi bir düzey olarak benimseyebiliriz. Yanılma payımız küçüldükçe, teste olan güven düzeyimiz yükselir. O nedenle istatistikçiler olabildiğince az yanılma ile test yapmak isterler. Yine de α =0,05 ve α=0,01 düzeyleri en çok kullanılanlardır.


Güven Aralıkları (Confidence interval)

    Şimdi Türkiye geneli hane geliri araştırması yaptığımızı düşünelim. Bunun için popülasyonumuz 
‘’Tüm Türkiye’nin hane geliri ‘’ ve parametremizi ‘’ Ortalama Hane Gelir ‘’olarak varsayalım. Başlarken populasyondan bir örneklem aldık (Örneğin Türkiye hanelerinden 1000 tanesi) Ve sonra bu örnekleme ilişkin istatistiklerimizi bulduk. Eğer tüm bir popülasyon hakkında bir yorum yapmak istiyorsak bunun sonrasında bulduğumuz değerlere basit bir tabirle ekleme veya çıkartma yapmamız gerekir çünkü örnekten örneğe değişim görülebilir. Bu ekleme ve çıkama, örneklem istatisğinin tahmini amacıyla eklediğimiz parametrenin yanılma payıdır. Ve bunun sonucunda güven aralığımızı elde ederiz. Basit bir Örnekle evden işe 30 dkda gidiyorsunuz ama bu bazen 5 dk erken bazen 5 dk geç oluyor burdaki 5 dk sizin yanılma payınız ve güven aralığınız ise 25 ve 35 arasındadır.


Hipotez Testi (Hypothesis testing)


Hipotez kısaca doğruluğu bir araştırma ya da deney ile test edilmeye çalışılan öngörülere, denencelere denir.

Hipotez testleri bir örneklem ortalaması ile bu örneklemin çekilmiş olduğunu düşündüğümüz ortalaması etrafındaki farkın anlamlı olup olmadığını (yani önemli bir fark olup olmadığını) araştırmamızı sağlayan testlerdir.

Örneğin; Bir pizza şirketi ortalama siparişlerini adreslere 30 dakikada teslim ediyor ve bize bunu test etmemiz isteniyor. Bunun için tüm sipariş sürelerini içeren ana kütleden rastgele örneklem seçimi yaprak ortalama sürenin ortalama periyodun dışına çıkıp çıkmadığını kontrol edip bu iddianın anlamlı olup olmadığını test ederiz. Ayrıca bulduğumuz sonuçlar örneklemden örnekleme farklılık gösterebilceğinden bu hesap değerlerinide dikkate alınmalıdır.





p – Değeri ve Anlamlılık (p-values)


    Hipotez testi popülasyon hakkında yapılmış olan iddianın gerçekliğini test etmek için kullanılır. Bu denemede olan iddiaya sıfır hipotezi dersek ve bu hipotezin asılsız sonuca varılması durumunda inanacağımız diğer hipotez ise alternatif hipotez olur. Hipotez testlerinin doğruluğunun gücünü ölçmek için p – değerini kullanırız. P değeri 0 ile 1 arasında olan bir numaradır.
  

    Örneğin biraz önceki örnekten gidelim; bir Pizza şirketi siparişlerini evlere ortalama en fazla 30 dakikada getirdiğini söylüyor, bizde buna inanmıyoruz ve 30 dakikadan fazla olduğunu iddia ediyoruz.Buna göre hipotezimiz;


  Rastgele eve servis sürelerinden örneklem seçtik ve hipotez testi kanalıyla verimizde gerekli işlemleri yaptık ve p-değerimiz 0,001 olarak çıktı. Ve bu değer 0.05 den küçük. Bu durumda sıfır hipotezini reddettik ve alternatif hipotezi kabul ettik. Yani iddiamızın doğruluğunu kanıtlamış olduk.

İstatistik ve Araçları

İstatistik Nedir?

  • Belirli bir amaç için veri toplama,
  • Tablo ve grafiklerle özetlenmesi sonuçları yorumlama,
  • Sonuçların güven derecelerini açıklama,
  • Örneklerden elde edilen sonuçları kitle için genelleme,
  • Özellikler arasındaki ilişkiyi araştırma,
  • Çeşitli konularda geleceğe ilişkin tahmin yapma,
  • Deney düzenleme ve gözlem ilkelerini kapsayan bir bilimdir.

Başlarken Bilmemiz Gerekenler

İstatistik belirli bir amal için verilerin toplanması, sınıflandırılması, çözümlenmesi ve sonuçların yorumlanması esasına dayanır.

İstatistiği öğrenmedeki amaç, bir araştırmada elde edilen verilerin uygun istatistiksel yöntemler kullanılarak yorumlanacağını bilmektir
İstatistiksel yöntemleri toplanmış verilerin özetlenmesi veya açıklanması amacıyla kullanılır. Bu tür bir yaklaşım betimsel istatistik adını alır.
İstatistiğin diğer bölümlerle olan ilişkilerinde doğan kavramlar şu şekilde gösterilebilir; - - Ekonomi+İstatistik  = Ekonometri
Psikoloji+İstatistik = Psikometri
Tıp+İstatistik            = Biyoistatistik
Sosyoloji+istatistik  = Sosyometri
Tarih+İstatistik        = Kliometri


Tablolar ve Grafikler

 Verimizin özetinin görselleştirilmesi için kullanılan yöntem,tablolar ve grafiklerdir. Bu araçlar size verinin çizilmiş resmini vermektedir veya tespit edilen sonuca yakınlaşan görüntüler verir. Bilginin çok hızlı aktığı bu dünyada grafikler ve tablolar olmassa olmaz hale gelmiş durumdadır.

Katogerik verilerde daha çok pasta, çubuk gibi girafikler kullanılmaktadır.  




 Nümerik verilerde örneğin; yükseklik,genişlik,tutar gibi verilerde  daha çok histogram,boxplot  gibi girafikler kullanılmaktadır.








Veri Seçimi ve İyi Örneklem !

  
  Bir çalışma dizayn edildikten sonra, bu çalışmada yer alıcak bireyler veya deneysel gözlemlerin
dikkatli bir şekilde seçilmesi gerekmektedir. Bu veri toplamanın en önemli kısmıdır. Bu kısımda
yapılacak hatalar araştırmanızın sonunda sizi yanlış yönlendirebilir. İstatistikçiler bunun için
‘’Döküntü giren döküntü çıkar ‘’ (Garbage in equals garbage out)’ der.

Örneklem Seçimi


Örneklem, belli kurallara göre, belli bir evrenden seçilmiş ve seçildiği evreni temsil yeterliği kabul edilen küçük kümedir. Araştırmalar çoğunlukla örneklem kümeler üzerinde yapılır ve elde edilen sonuçlar ilgili evrenlere genellenir
•  Örneklem seçilirken, örneklemin temsil yeteneği taşımasına ve yeterli büyüklükte olmasına dikkat etmek gerekir.
•  Örnekleme yapılırken, öncelikle araştırmanın amaçları doğrultusunda sonuçların genellenmek istendiği evrenin sınırlandırılıp çalışma evreninin tanımlanması gerekir.

Betimsel İstatistikler (Descriptive Statistics)

Betimsel istatistikler tabirince bir veri setinin önemli özelliklerini açıklayan numaralardır.



Örnekte gördüğümüz; bir veri setine ait olan betimsel istatistikler çıktısıdır.







    Betimsel istatistiksellerde en iyi sonucu veren opsiyonlar veri setimize göre değişebilir. Örneğin;bir veri setinin ortası için her zaman ortalama en iyisi olmayabilir sıklıkla yerine medyan tercih edilebilir, veya standart sapma (Std. Deviation) değişim için en iyi ölçek olmayabilir onun yerine çekyekler - quarter (interquartile range)’de tercih edilebilir.

Doğru Analizin Seçilmesi

  Verimizi seçtikten sonra ve gerekli betimsel sonuçları elde ettikten sonra araştırmamızın, kara kutusu olarak sayılabilecek istatistiksel analizimizi seçmeye sıra geliyor.



   Bir çok tür analiz bulumaktadır ve doğru durum için doğru analizi seçmek çok kritiktir. Bu bağlamda başkalarının yaptığı analizleri incelemek bizim için her zaman faydalı olacaktır. Üzerindeçalıştığımız bir deney için yanlış bir analiz seçmemiz o araştırmadan yanlış sonuçlar elde etmemize sebebiyet verebilir. Bu kısım için istatistiğin en önemli kısmı diyebiliriz.