"Enter"a basıp içeriğe geçin

Pandas kütüphanesi ile Keşifsel Veri Analizi (Exploratory Data Analysis – EDA)

Keşifsel Veri Analizi çoğu zaman özet istatistiklerin yardımı ile verinin boyutsal olarak kavrandığı, içerisindeki anomalilerin keşfedildiği, hipotezlerin test edildiği, korelasyonların belirlendiği kritik sürece verilen isimdir.

ilk olarak yine örnek veri setini bilgisayarlarımıza indirerek başlayalım.

CSV uzantılı dosyamızı indirdiysek pandas‘ın read_csv fonksiyonu ile verimizi dataframe’e dönüştürebiliriz.

import pandas as pd
import numpy as np
data = pd.read_csv('model_training_data.csv')

Bir sonraki yazıda yapacağımız model eğitimine geçmeden önce veri setimizi biraz inceleyerek sıkça karşılaşacağınız Keşifsel Veri Analizi (Exploratory Data Analysis – EDA) sürecinden bir kaç adım uygulayalım.

#verinin ilk 5 satırı görüntülenir.
data.head()
#verinin boyutu öğrenilir.
data.shape
#tüm kolonlar hakkında doluluk oranı, veri tipi, bellek kullanımı gibi bilgilere erişilir.
data.info()
#özet istatistikler görüntülenir.
data.describe()
#Dilenen kolon içerisinde kaç farklı değer olduğu
#ve bu değerlerden kaçar adet olduğu incelenir.
data['y'].value_counts()
#Bu komut sınırlı sayıda durum ya da sınıf içeren kolonlara uygulanmalıdır.
#Sürekli veri içeren kolonlarda uygulak hem anlamsızdır hem de CPU yorucudur.
#kolonların birbirleri ile korelasyonları görüntülenir.
#1'e yaklaşan değerler yüksek korelasyon belirtir.
data.corr()

Keşifsel veri analizinin en sık kullanılan temel adımlarını hızlıca uygulayarak yazının sonuna geldik. Bunların yanında yeri geldikçe uygulayacağımız projelerde de kullanacağımız heatmap, boxplot, scatter plot, distribution plot, 3D surface plot vb. bir çok görselleştirme yöntemini ve istatistiksel testleri de kullanarak Keşifsel Veri Analizi (EDA) adımını genişletmek fazlası ile mümkün ve gerekli. Veriyi tanımadan hangi türde modelleri hangi parametreler ile kullanacağımızı anlamak pek mümkün olmuyor çünkü.

EDA’ya kısa bir giriş yaparak yazımızı bitirdik. Bir sonraki yazıda Scikit-Learn kütüphanesi ile öğrendiğimiz makine öğrenmesi modellerinin eğitimini yine bu veri setini kullanarak yapacağız. Tüm işlemleri içeren jupyter notebook dosyasına da bu veri seti üzerindeki uygulamalarımızı bitirdikten sonra edinebilirsiniz.

Keyifli Öğrenmeler 🙂

İlk Yorumu Siz Yapın

Bir Cevap Yazın

Translate »
%d blogcu bunu beğendi: