Veri Bilimi – Yapay Zeka
Veri, data(veya datum), bilginin parçacığı veya bilginin kendisi olarak belirtilebilir.
BigData-büyük veri ise yeni veri kaynaklarından elde edilen ve daha büyük, daha karmaşık veri türleridir.
1024 MB = 1 Giga Byte
1024 GB = 1 Tera Byte
1024 TB = Peta Byte
1024 PB = 1 Exa Byte
1024 EB = 1 Zeta Byte
Verinin gelişimi :
1663 : Tohn Graunt, istatistiksel veri analizinin kullanımı
1865 : Richard Millar Devens, iş zekası olarak bilinen ifadenin kullanımı
1884 : Herman Hollerith, IBM’in 1911 yılında kurulması
1926 : Nikola Tesla, küçük bir cihaz ile büyük verilerin saklanabileceği düşüncesi
1928 : Fritz Pfleumer, manyetik bir disk içinde veri saklama
1943 : İngiltere, teorik bilgisayar ile veri işleme makinesi
1965 : ABD’de ilk veri merkezlerinin açılması
1969 : Advanced Research Projects Agency Network, ARPANET, kurulması
1989 : CERN’de World Wibe Web kurulması
1996 : Dijital olarak ilk veri depolanması
1997 : İnternetin en büyük arama motoru Google için google.com alan adı kaydedildi.
1998 : Carlo Strozi tarafından NoSQL yapısının icat edilmesi
Veri bilimi, veriden faydalı veri üretme sürecidir. Veri bilimci ise bu süreci yöneten kişidir.
Genel olarak veri türleri ise structured(yapılandırılmış) ve unstructured(yapılandırılmamış) olmak üzere iki çeşidi vardır. Yapılandırılmış veri türleri için SQL Server örnek verilebilirken, yapılandırılmamış veri türleri için ise NoSQL yazılımı olan MongoDB örnek verilebilir.
Yapay zeka ise bir bilgisayar tarfından çeşitli faaliyetlerin insanları veya diğer varlıkları taklit edebilmesidir. Veri biliminin bir alt dalı olarak değerlendirilebilir ve veri bilimi ile veriden çıkarım yapma sonucunun uygulanması olarak belirtilebilir. Günümüzde hastalık teşhisi, yüz tanıma, nesne tanıma, bilimsel çalışmamların geliştirilmesi gibi birçok alanda kullanılır.
Bilginin analiz edilmesinde kullanılan birden çok analitik yöntem mevcuttur. Bunlardan bazıları ise aşağıda açıklanmıştır.
- Tahminsel Analitik(Predict Analytics), elde edilen bilgiye bağlı olarak ne olabileceği incelenmektedir. Genel olarak gelecek zaman dilimi için tahmin yapılmaktadır.
- Betimleyici Analitik(Descriptive Analytics), elde edilen bilginin görsel veya matematiksel ifadelere bağlı kalarak yorumlanmasıdır.
- Yönergesel Analitik(Prespective Analtytics), elde edilen bilgiye göre nasıl sonuçlar üretilmesi gerektiğini açıklamaktadır.
- Tanısal Analitik(Diagnostic Analytics), elde edilen veri üzerinde durum analizi yapmaktadır.
Veri Bilimi Yöntemleri
Bu konu için CRISP-DM grafiği seçilmiştir.
İş anlayışı, bir veri kümesini yorumlamak ve bu kümeden bilgi elde etmek için yapılan yöntemlerdir.
Veriyi anlamak, veri üzerinde çıkarım yapılması sürecidir.
Verinin hazırlanması, verilerin düzenlenmesi ile ilgili yöntemdir.
Modelleme ise verilerin algoritma veya fonksiyonlar tarafından öğrenilip kullanılmasıdır. Örnek olarak çoklu doğrusal regresyon modeli :
Değerlendirme, gerçek dışı ve tahmin edilen değerler ile performansın değerlendirilmesidir.
Örnek olarak tahmini fiyat ile satış fiyatı arasındaki farkın mutlak değeridir.
Veri Okuryazarlığı
Veri ile temas edildiği anlardaki basit yorumlamadır. Her türden veri tipi veya değişken tanımlama ve bu değerleri istatistiksel olarak görsel veya yazılı olarak ifade etmek için kullanılmaktadır.
Temel Kavramlar
- Popülasyon : Hedefte olan esas kümeyi ifade etmektedir.
- Örneklem : Hedefte olan esas kümenin altında yer alan ve özel olarak hedeflenmiş kümedir.
- Değişken : Veri içeren yapılardır.
- Değer : Verinin kendisidir.
- Gözlem birimi : Alt kümede yer alan eleman özellikleridir.
Değişken Türleri
Sayısal değerler (nicel değerler), kategorik değerler (nitel değerler) olmak üzere iki alt türü vardır. Sayısal değerlerin iki alt türü vardır.
- Aralık : başlangıç noktası sıfır olmayan değerlerdir.
- Oran : Başlangıç noktası sıfır olan değerlerdir.
Kategorik değerlerin iki alt türü vardır:
- Nominal : Sınıflar arası fark olmayan değerlerdir. Çiçek türleri vb.
- Ordinal : Sınıflar arası fark olan değerlerdir. Askeri ünvanlar vb.
Buradan sonraki ifadelerin genel açıklaması için aşağıdaki linke tıklayınız.
Merkezi Eğilim Ölçüleri
Aritmetik Ortalama, tüm değişkenlerin toplamının tüm değişkenlerin sayısına bölümüdür.
Medyan, bir veri kümesi büyük veya küçük değerlere göre sıralandığında bu kümeyi tam ortadan iki kümeye bölen değerdir. Veri kümesinin uzunluğu tek ise (uzunluk + 1)/2 işlemi ile medyanın kaçıncı değer olduğu bulunur. Eğer çift ise ((uzunluk/2)+(uzunluk/2 + 1))/2 ile bulunan medyanın bulunduğu yer bulunur.
Mod, bir veri kümesi içinde en çok tekrar eden değerdir.
Katiller, hem eğilim hem de dağılım ölçüsü olarak kullanılır. Küçükten büyüğe sıralanmış veri kümesini dört parçaya bölmektedir.
Merkezi Dağılım Ölçüleri
Değişim aralığı, veri kümesinde bulunan en büyük değer ile en küçük değerin birbirinden çıkarılmasıdır.
Standart sapma, veri kümesinde bulunan her bir değerin veri kümesinin ortlamasına göre uzaklığının karelerinin toplamıdır. Bu toplam değeri ise veri kümesinin uzunğuna bölünür ve karekök alma işlemi ile belirlenir.
Varyans, standart sapmanın karesidir.
Çarpıklık, değişken dağılımını simetrik olarak ifade eder.
Basıklık, değişken dağılımın basık olduğu yerdir. Basıklık katsayısı ise basıklık işleminde kullanılan m^4/s^4 ile hesaplanmasıdır.