1 Nisan 2017 Cumartesi

Adım Adım Veri Bilimi - 2 ( İstatistik Nedir?)

Bu konuda yerli ve yabancı, çeşitli derinliklerde bir çok kaynak bulmak mümkün. Bizim amacımız; İstatistik konusuna, Veri Bilimi serimize ışık tutacak nitelikte pratiğe dönük ve mümkün olduğunca teknik terimlerden uzak bir giriş yapmaktır. İlerleyen bölümlerde gerek gördükçe teferruata girebiliriz.

Bir önceki R dünyasına giriş konulu yazımıza şu linkten ulaşabilirsiniz:

İstatistik Nedir?


Bir birine benzeyen iki farklı tanımdan söz edebiliriz;

Bunlardan ilki günlük hayatta kullanılan ".... istatistikleri" ifadesi ile ilgilidir. Mesela "Spor İstatistikleri", "Nüfus İstatistikleri" vs. böyledir. Bu ifadelerde geçen istatistik kelimesi bize, belirtilen konuda sistemli bir şekilde toplanan sayısal verilerin var olduğunu anlatır.

İkinci tanım ise İstatistiğin bilimsel uğraşı ile ilgilidir. Bu bakış açısı ile temel olarak istatistik, çeşitli sorulara cevaplar üretmek ve bir takım çıkarımlar sonucunda kararlar verebilmek için kullanılan bilimsel yöntemlerin işletildiği süreci ifade eder diyebiliriz.

İstatistiksel bir çalışmada temelde şu adımlar atılır:
  • Araştırma konusu belirlemek ve çalışma için makul bir çerçeve tasarlamak.
  • Araştırma konusu hakkında bilgi toplamak için ön yargısız, anlamlı ve kaliteli veri kaynakları edinmek.
  • Toplanan verileri tasnif etmek ve sayılar veya görsellerle (grafikler vs.) özetlemek.
  • Verileri analiz etmek ve sonuçları yorumlamak.
  • Sonuçlara ne kadar güvenilebileceğini ölçmek.
  • Küçük bir örnek grubundan (örneklem) elde edilen sonuçları genele yaymak.
  • Özellikler arası ilişkileri, nedensellikleri, verideki eğilimleri ve desenleri ortaya çıkararak geleceğe ilişkin tahminlerde bulunmak.

Veri Toplama Yöntemleri


İstatistiksel çalışmalar veriye dayalı olduğu için veri toplama aşamasının kalitesi sonuçların kalitesini belirler. Unutmayalım; GIGO (Garbage In Garbage Out) yani çöp giren çöp çıkar. 

İstatistiksel çalışmalarda bazen hakkında veri toplamak istediğimiz grubun tüm üyelerine erişebiliriz. Bazen de zaman, maliyetler vs. gibi bir çok nedenden dolayı grup üyelerinin tümüne ulaşmak mümkün olmayabilir. Bu durumda tüm üyelerine ulaşamadığımız gruba en çok benzeyen küçük bir grup üzerinde çalışmak ve çıkan sonuçlardaki hatayı göz ardı ederek tüm grup hakkında fikir edinmeyi ummak zorunda kalırız.

İstatistiksel çalışmalarda çoğunlukla küçük bir grup üzerinde yapılan analizlerden elde edilen sonuçlara bakılarak büyük bir grup hakkında karara varılması amaçlanır. Büyük grup olarak nitelendirdiğimiz kitle (ana kütle) hakkında merak ettiğimiz soruların cevabını bu kitleyi (ana kütleyi) en iyi ifade eden küçük grupta yani örneklemde ararız. Sonra bulgularımızı genele yayar, kitleyi anlamak için kullanırız. 

Örneklem üzerinden kitle (ana kütle) hakkında fikir edinme yöntemleri oldukça kullanışlıdır. Mesela bu sayede ülkedeki tüm hayvanları yemeden et kalitesi hakkında fikir edinebiliyoruz. Çok şükür!

Örneklem seçerken çok dikkatli olmak gerekir. Örneklem kitleyi en iyi ifade edecek şekilde seçilmelidir. Hem örneklem seçimi sırasında hem de veri toplarken ön yargıdan (biased) ve veri toplama sürecini sekteye uğratacak yaklaşımlardan (mesela uzun anketler) uzak durmak gerekir. Kitleyi temsil etmeyecek küçük belirgin bir gruptan çeşitli yönlendirmeler ve kısıtlı cevap seçeneklerine mahkum ederek elde edilen veriler çöptür ve yapılan analizler çöp olur. 

Örneklem seçimi rassal (rastgele) veya kitleyi ifade edecek şekilde iradi (istemli) olarak yapılabilir. Seçilen örneklemlerden veri toplanırken amaca uymayan ve sonucu etkileyen faktörlerin devrede olup olmadığı kontrol edilmelidir.

Veri toplamak için temelde 2 yöntem kullanılır:
  • Anketler (Survey): Anketler anlaşılır, yeterli, yapılabilir ve tamamlanabilir nitelikte olmalıdır. Sorular sunulurken kasıtlı, hataya açık ve yetersiz yönlendirmeler yapılmamalıdır.
  • Deney - Gözlem (Experiment): Örneklemin ürettiği verileri toplarken sonuçları etkileyebilecek durumlar ve karakteristik özelliklere dikkat etmek gerekir. Bir örneklem üzerinde deney yaparken deneyin başarılı, mantıklı ve sağlıklı olup olmadığını kontrol edebilmek için bir de kontrol grubu kullanılmalıdır. Mesela bir ilacın etkisini araştırırken deney grubundan elde edilen sonuçlarla birlikte, ilaç verilmeyen kontrol grubundaki sonuçları da değerlendirmek gerekir.

İstatistiksel Veri Analizi Yöntemleri


Veri analizi konusunu geçmişin tahlili ve geleceğin tahmini olarak en tepeden ikiye ayırabiliriz. Bir miktar daha detaya inersek; bazen geçmiş verilerimize baktığımızda neler olup bittiğini (Descriptive Analytics), olayların sebebini (Diagnostic Analytics) anlamayı amaçlarız. Bazen de geçmiş verilerden faydalanarak neler olacağını (Predictive Analytics) veya gelecekte olmasını arzu ettiğimiz şeyleri gerçekleştirmek için neler yapmamız gerektiğini (Prescriptive Analytics) tahmin etmeye çalışırız.


Sonuç olarak topladığımız verileri iki temel amaç için istatistiksel analize tabi tutarız:
  • Betimsel İstatistik (Descriptive Statistics): Bu analiz çalışmasının amacı sayılar ve görsellerle toplanan örneklem verilerini betimlemektir. Sonuç olarak toplanan verileri temsil eden ortalama, standart sapma, ortanca vs. gibi çeşitli sayısal özetler ve histogram, bar, pasta grafiği gibi çeşitli görseller hazırlanır. (Bu konuda Microsoft'un SSRS, Excel, Power BI, Microsoft R Open vs. ürünlerinden faydalanabilirsiniz. )
  • Çıkarımsal İstatistik (Inference Statistics): Bu analiz çalışmasının amacı veri içerisindeki eğilimleri, ilişkileri, desenleri ortaya çıkarmak, bir takım olasılıkları hesaplamak ve çeşitli tahminlemeler yapmaktır. İlişkili olma ve nedensellik (Association and Causation), hipotez testleri (Hypothesis Tests) ve veri madenciliği (Data Mining) bu tür istatistiksel çalışmaların kapsamına girer. (Bu konuda Microsoft'un SSAS, Excel, Azure ML, Microsoft R Open, R Server vs. ürünlerinden faydalanabilirsiniz.)

İstatistiğin Güvenilirliği


İstatistiksel yöntemler bilimseldir. İstatistiğin temelinde Matematik vardır. Matematik ise son derece güvenilirdir, yalan söylemez ve evrenseldir. Fakat istatistiksel çalışmalar doğası gereği çeşitli paradokslar içerir. Olasılıklar, güven aralıkları ve kabuller üzerine inşa edilmiş yöntemlerle çevrilidir. Bunun üzerine bir de bilerek veya bilmeyerek yapılan hatalı çıkarımları, ön yargılı çalışmaları, araştırma konusundaki ölçülemeyen noktaları ve hesaplama hatalarını da eklersek istatistikten mutlak doğru beklenemez. Belki elde edilen sonuçlar karar verebilmek için bir takım fikirler verir diyebiliriz. Elde edilen sonuçlar karar verme konusunda avantaj sağlar diyebiliriz. Ancak istatistiksel çıkarımları tümüyle doğru kabul etmek yanıltabilir.

Bu nokta ile ilgili olan Simpson paradoksu konulu yazımıza bir göz atmak isteyebilirsiniz:

19. yüzyılda Benjamin Disraeli'nin dediği gibi "Üç türlü yalan bulunmaktadır: yalanlar, kuyruklu yalanlar ve istatistikler."