31 Aralık 2015 Perşembe

İstatistikte Bilmemiz Gereken Terimler

Veri

   Veriler ölçüm, sayım, deney, gözlem ya da araştırma yolu ile elde edilmektedir. Ölçüm ya da sayım yolu ile toplanan ve sayısal bir değer bildiren veriler nicel veriler, sayısal bir değer bildirmeyen veriler de nitel veriler olarak adlandırılmaktadır.

Nümerik Veriler



Veriler ölçüm, sayım, deney, gözlem ya da araştırma yolu ile elde edilmektedir. Ölçüm ya da sayım yolu ile toplanan ve sayısal bir değer bildiren veriler nicel veriler, sayısal bir değer
bildirmeyen veriler de nitel veriler olarak adlandırılmaktadır.Örnek olarak, yan taraftaki veri setinde; ofislere göre gelirler gösterilmiştir. Bu kısımda gelir nümerik bir veridir.

Nominal (Kategorik) Veriler



Kategorik bir veri çeşidir. “Daha fazla” ifadesi ile kullanılmazlar.

İkiye ayrılır:

a)  Dikotom Veriler : Var-Yok, Kadın-Erkek, Hasta-Sağlıklı

b)  İkiden Çok Kategorili : Medeni Durum-Renk-Irk-Şehir, İsim, Forma Numarası

Örneğin forma numarası oyuncunun seviyesi ile ilgili bir bilgi içermez.Yine aynı veri setimizdeki, ofis kısmı nominal verilerden oluşmaktadır.

Ordinal Veriler

     

     Ordinal veriler de yine kategorik veri türündendir. Fakat değerleri arasında sıralı bir ilişki bulunmaktadır. “Daha fazla” ifadesi ile kullanılabilirler ancak nekadar daha fazla olduğunun ölçüsünü veremezler. Örneğin: Eğitim Düzeyi, Sosyo ekonomik ölçek skorları gibi. Nominal veriler, ordinal verilere daha az bilgi taşırlar.







Interval (aralıklı) veriler

  Nesnelerin sıralanmasında kullanılır. Eşit aralıkların eşit mesafelerini temsil ettiği bir ölçek türüdür. Ordinal ölçümün bütün özelliklerini taşır. Nesneler arasındaki farkın mukayesesine imkan tanır. Başlangıç noktası sorunu vardır. Araştırmacı kendi yaptığı çalışmaya göre bir başlangıç noktası belirler. Sıfır noktası sabit olmadığı için başlangıç noktası görecelidir. Sıfır noktası sayısallaştırmayı kolaylaştıran bir başlangıç noktasıdır. Örneklere bakalım; tansiyon ölçümleri (küçük ve büyük tansiyon belirlenerek kişinin tansiyonunun bu değerler arasında olacağı açıklanır), kan pH’ı 7.1 ile 7.5 arasında olması, vücut sıcaklığını ölçmek için kullanılan termometreler, likert ölçeği (tutum ve davranışları ölçmek için 1 ile 5 arasında değer vermek gibi, ya da kötü—harika tarzı anlamsal dizilimler).


Ratio (Oransal) Veriler

  Interval,ordinal ve nominal ölçüm türünün özelliklerini taşır. Aynı zamanda mutlak sıfır noktasına da sahiptir. En üst ölçüm tekniğidir, her türlü istatiksel ve matematik işleme imkan tanımaktadır. Cevaplayıcı sıfırdan herhangi bir sayıya kadar cevap verebilir. Oransallık söz konusudur. Örnek vermemiz gerekirse; yıllık kazancınız ne kadar, kaç çocuğunuz var, sağlık alanında ağırlık ölçümü, boy ölçümü, fizik bilimindeki ölçümler ağırlık, alan, hacim gibi, ölen hastalanan yaralanan hakkındaki veriler vb.

DEĞİŞKEN (Variable)

• Bir değişken karakteristik veya nümerik değer olabilir bu deneyden deneye değişir.
• Bir değişken size bir sayımı (Örneğin; sahip oludğun evcil hayvanların sayısı) veya bir ölçümü yansıtabilir (Örneğin; sabahları uyanma saatlerinizin ölçümü).
• Veya değişkenler her bireyin belirli ölçütlere göre gruplandığı katagorik verilerden oluşablirler (Örneğin; politik görüş, ırk ya da medeni durum) .
• Gözlem bilgilerinin, üzerine kaydedilen gerçek veri parçalarıdır.

Örnekleme ve Raslantısal Seçim

      Bir çorbadan örnek alırken ne yaparsınız? Çorbanın tamammını içmektense ilk önce çorbayı karıştırır ardından tencerenin içinden bir kaşık yardımıyla çorbadan biraz alarak onu tadarsınız. Ve sonra bütün bir çorbayla alakalı bir yorum yapabilirsiniz. Eğer dürüst bir yolla alınmışsa, yani çorbanın sadece iyi yerlerleri alınmamışsa, çorba hakkında iyi bir fikir oluştarabilirsiniz.İşte İstatistikte raslantısal örnek seçimide aynı bu şekilde olmaktadır. Bir popülasyonu çorba olarak kabul edersek o çorbayı çok iyi karıştırıp öyle örnek seçmemiz gerekir ki doğru sonuca daha yakın olabilme şansımız olsun.

Parametre (Parameter)

         İstatistik örnek verilere dayanır, popülasyon verilerine değil. Eğer verimizi tüm populasyondan toplamışsak, bu toplama işlemine sayım denir. Eğer biz bu sayımı sayıyla bir değişken üzerinden özetliyorsak , bu sayı istatistik değil parametre olur.

       Ortalama (Average or Mean)

       Ortalama istatistikçilerce nümerik verilerdeki , bir ölçümün merkezi veya oratasını bulmak için
kullanılmaktadır. Aritmetik ortalama bütün değerlerin toplamının, değer sayısına bölünmesiyle
bulunmaktadır. Ortalama her zaman gerçeği yansıtmayabilir, çünkü ortalama aykırı değerlerden
kolayca etkilenebilmektedir. (Aykırı değer : Çok küçük veya çok büyük değerler)

       Medyan (Median)

     Medyan veri setinin merkezini ölçmek için kullanılan diğer bir yoldur. Basitçe bir veri grubu küçükten büyüğe doğru sıralandığında, ortada bulunan veri ortanca değer (medyan) olarak adlandırılır.


Standart Sapma (Standard deviation)

   

Bir istatistiksel çalışma yaparken beklediğimiz kesin sonuç normalin üstünde veya altında bulunabilir. Zamanla insanlar bu durumu standartlaştıkmak istemişler ve bunun için standart sapmayı bulmuşlar. Bu sayede Satandart Sapma , yaptığımız çalışmanın sonuçlarının ortalamanın ne kadar üstüne ve altına sapabilceğini hesaplamamıza olanak sağlanmıştır.Formülize edersek;





Standart sapma istatistikçilelerin değişim tutarını ölçmek için kullanıdığı bir ölçüdür.

Dağılım ve Normal Dağılım (Distribution and normal distribution)



    Dağılım bir veri setinin olası değerler listesidir veya tüm olası değerleri veya ne sıklıkla meydana geleceğini gösteren fonksiyondur.

   En çok bilinen dağılımlardan biride normal dağılımdır. Normal dağılım olası değerlerin reel sayılar hattına uzanması halinde oluşur ve verinin çoğu (%68 civarı) merkezde ortalama civarindadır. Daha ileri hareket ettiğimiz zaman küçük değerler karşımıza çıkar. 




     Ortalama her zaman normal dağılımda orta kısımdadır ve standart sapma ortalamadan büküm noktalarına olan uzaklık ölçülerek bulunur (Büküm noktaları ; iç bükeylikten dış bükeyliğe geçişinolduğu noktalar) Bu grafikte ortalama 0 ve standart sapma 1 dir.







Merkezi Limit Teoremi (Central Limit Theorem)


    N tane birbirinden bağımsız rassal değişkenin (random variable) toplamı olan bir rassal değişkenin n sonsuza giderken ortalama değeri etrafında normal dağılıma sahip olacağını söyler. Daha basit bir ifadeyle birbirinden bağımsız pek çok faktörün etki ettiği bir olayın normal dağılıma yakın davranacağını söyleyebiliriz. Bu sayade anakütle dağılımı bilinmeyen değişkenler için, örneklemler oluşturarak normal dağılımı kullanabiliriz.


Z- Değerleri (Z-values)

    Eğer veri setimiz normal dağılıma sahip ise ve bu tüm veri setini bir standart skora standardize ettiğimizde elde edilen skor veri setimiz için bulduğumuz Z-değeri olur. Başka bir tabirle Z skoru ortalamadan kaç standart sapma uzakta olduğumuzu belirtir. Tüm Z değerleri Standar Normal Dağılım olarak bilinen dağılımdan çıkar ve Standard Normal Dağılım’da ortalama 0’a Standart Sapma is 1’e eşittir.

Yanılma Payı (Margin of Error)

   Muhtemelen şu sözü duymuşsunuzdur: ‘’Bu analizde yüzde %05 yanılma payı vardır‘’ Peki nedir
bu yanılma payı? Hatasız bir test yapamayacağımız için her testte bir miktar yanılma riskimiz vardır. Bunu 0,05 ; 0,01 ; 0,005 ; 0,0001;... gibi bir düzey olarak benimseyebiliriz. Yanılma payımız küçüldükçe, teste olan güven düzeyimiz yükselir. O nedenle istatistikçiler olabildiğince az yanılma ile test yapmak isterler. Yine de α =0,05 ve α=0,01 düzeyleri en çok kullanılanlardır.


Güven Aralıkları (Confidence interval)

    Şimdi Türkiye geneli hane geliri araştırması yaptığımızı düşünelim. Bunun için popülasyonumuz 
‘’Tüm Türkiye’nin hane geliri ‘’ ve parametremizi ‘’ Ortalama Hane Gelir ‘’olarak varsayalım. Başlarken populasyondan bir örneklem aldık (Örneğin Türkiye hanelerinden 1000 tanesi) Ve sonra bu örnekleme ilişkin istatistiklerimizi bulduk. Eğer tüm bir popülasyon hakkında bir yorum yapmak istiyorsak bunun sonrasında bulduğumuz değerlere basit bir tabirle ekleme veya çıkartma yapmamız gerekir çünkü örnekten örneğe değişim görülebilir. Bu ekleme ve çıkama, örneklem istatisğinin tahmini amacıyla eklediğimiz parametrenin yanılma payıdır. Ve bunun sonucunda güven aralığımızı elde ederiz. Basit bir Örnekle evden işe 30 dkda gidiyorsunuz ama bu bazen 5 dk erken bazen 5 dk geç oluyor burdaki 5 dk sizin yanılma payınız ve güven aralığınız ise 25 ve 35 arasındadır.


Hipotez Testi (Hypothesis testing)


Hipotez kısaca doğruluğu bir araştırma ya da deney ile test edilmeye çalışılan öngörülere, denencelere denir.

Hipotez testleri bir örneklem ortalaması ile bu örneklemin çekilmiş olduğunu düşündüğümüz ortalaması etrafındaki farkın anlamlı olup olmadığını (yani önemli bir fark olup olmadığını) araştırmamızı sağlayan testlerdir.

Örneğin; Bir pizza şirketi ortalama siparişlerini adreslere 30 dakikada teslim ediyor ve bize bunu test etmemiz isteniyor. Bunun için tüm sipariş sürelerini içeren ana kütleden rastgele örneklem seçimi yaprak ortalama sürenin ortalama periyodun dışına çıkıp çıkmadığını kontrol edip bu iddianın anlamlı olup olmadığını test ederiz. Ayrıca bulduğumuz sonuçlar örneklemden örnekleme farklılık gösterebilceğinden bu hesap değerlerinide dikkate alınmalıdır.





p – Değeri ve Anlamlılık (p-values)


    Hipotez testi popülasyon hakkında yapılmış olan iddianın gerçekliğini test etmek için kullanılır. Bu denemede olan iddiaya sıfır hipotezi dersek ve bu hipotezin asılsız sonuca varılması durumunda inanacağımız diğer hipotez ise alternatif hipotez olur. Hipotez testlerinin doğruluğunun gücünü ölçmek için p – değerini kullanırız. P değeri 0 ile 1 arasında olan bir numaradır.
  

    Örneğin biraz önceki örnekten gidelim; bir Pizza şirketi siparişlerini evlere ortalama en fazla 30 dakikada getirdiğini söylüyor, bizde buna inanmıyoruz ve 30 dakikadan fazla olduğunu iddia ediyoruz.Buna göre hipotezimiz;


  Rastgele eve servis sürelerinden örneklem seçtik ve hipotez testi kanalıyla verimizde gerekli işlemleri yaptık ve p-değerimiz 0,001 olarak çıktı. Ve bu değer 0.05 den küçük. Bu durumda sıfır hipotezini reddettik ve alternatif hipotezi kabul ettik. Yani iddiamızın doğruluğunu kanıtlamış olduk.

Hiç yorum yok:

Yorum Gönder