Veri Bilimi İçin Basit Ön Bilgiler #1
Veri okuryazarlığı:
Her türden veri tipini, değişken ve ölçek türlerini belirleyebilme, istatiksel ve görsel araçları kullanarak ve günlük hayatta veri ile temas edince veriyi değerlendirebilme yeteneği.
Popülasyon Ve Örneklem:
Popülasyon, ilgilendiğimiz hedef kitledir.
Örneklem ise bu ana kitleden — popülasyondan — seçilen alt kitledir.
Bazen elimizde verinin hepsi bazen de ana kümeyi temsil eden alt küme olur. Gerçek hayat uygulamalarında çoğu zaman verinin tamamı olmaz veriyi temsil eden bir alt küme olur.
Observation Unit ( Gözlem Birimi ):
Örneğin üstteki örnekten gidelim. Bu sample — örneklem — kısmında soru sorulan herkes birer gözlem birimidir. Veya bir ev değer aracı yapacağız makine öğrenmesi ile; bu noktada bu evin konumu, kat sayısı, yaşı, bahçesi vs. gibi değerlerin hepsi de birer gözlem birimidir.
Örneğin buradaki her bir kutucuk bir gözlem birimidir.
Değişkenler ve Değişken Türleri ( Variables and variable types ) :
Bir kere değişken dediğimiz şey birimden birime farklı değerler alan şeylerdir. Örneğin aşağıda Ev fiyatı, Bina yaşı, bahçe m2 gibi sütunlar değişkenlerdir. Çünkü A evinde 300.000 B evinde 200.000 gibi değerler alarak değişmiştir. Peki mesela bu değişkenlerin tuttuğu değerlerin bazıları integer, bazıları string bazıları da boolean değerler. İşte bu değişkenlerin tuttuğu değerlerin tipine de değişken türleri denir.
Bu ikisinin farkı şudur, yukarıdaki örneğe bakarsak ev fiyatı, bina yaşı, bahçe m2 sayısal değişkenlerken; konum, otopark değişkenleri kategorik değişkenlerdir.
Kategorik değişkenin sınıfları nedir diye sorarsak mesela konum özelliğinin merkez — dışarı değerleri bu kategorik değişkenin sınıflarıdır.
Scales of Measurement ( Ölçek Türleri):
Sayısal değişkenler için aralık ve oran adlı iki tane ölçek türümüz vardır.
Aralık Ölçek Türü: Diyelim bir sıcaklık değişkeni var bu değişkenin
hem — hem + değerler alabildiğini biliyoruz. İşte bu tip başlangıç noktası 0 olmayan sayısal değişkenlere “ Aralık Ölçek Türü “ ile ölçülen/ölçülebilen değişkenler deriz.
Oran Ölçek Türü: Başlangıç noktasını 0 kabul eden değişken türlerine oran ölçek türü denir. Örneğin elimizde bir kumaş var. Bu kumaşın uzunluk değeri -10 cm olabilir mi? Olamaz. O yüzden bu değişken için oran ölçeği ile ölçülmüş deriz.
Kategorik değişkenler için ise Nominal ve Ordinal olarak iki adet ölçek türümüz vardır.
Kategorik değişkenleri yukarıda da söylediğimiz gibi text formatında, string formatında olan karakter tutan verilerdi.
Tamam buraya kadar gayet iyi. Örneğin bizim kategorik değişkenlerimiz arasında rütbe açısından ast-üst ilişkisi yoksa burada Nominal ölçek türü kullanılmıştır diyebiliriz. Mesela cinsiyet değişkeni için kadın-erkek kategorilerinde rütbe açısından bir farkı yoktur. Burada nominal ölçek türü kullanılmalı.
Sınıflar arasında fark varsa ise buna Ordinal ölçek türü denir. Mesela değişkenlerin arasında albay, er, yarbay, general, çavuş gibi değerler var. Bu noktada biz nominal ölçek türü olarak adlandıramayız. Çünkü er ile orgeneral arasında rütbe ve konum bakımından fark vardır. Burada ordinal kullanmalıyız. Sınıflar arası fark var ise ordinal.