"Enter"a basıp içeriğe geçin

Kategori: Veri Ön İşleme

Log Dönüşümü ile Çarpıklık Giderme

Log-Transform skewed data Çarpıklık (skewness) sürekli ya da diğer bir deyiş ile kategorik olmayan veri setlerinde veri dağılımında simetrinin bozuk olma durumuna verilen isimdir denilebilir. Diğer bir deyiş ile asimetri ölçütüdür. Özetle gerçekte veri setlerinin dağılımının normal dağılım (normal distribution)…

Temel Bileşenler Analizi

Principle Component Analysis (PCA) Temel Bileşenler Analizi boyut azaltma (dimentionality reduction) amacı ile kullanılan veri ön işleme yöntemlerinden biridir. Sıkça kullanılan feature extraction yöntemlerindendir. Fikrin ya da yöntemin ortaya çıkma sebebini anlamak için aşağıdaki grafiği inceleyelim: Görsele baktığınızda iki boyutlu…

Aykırı Değer Tespiti (Outlier Detection)

Outlier Detection Aykırı değerler (outliers) veriler üzerindeki diğer gözlemlerden ya da örneklerden aşırı sapan, ölçümde deneysel hatalar ya da farklılık belirtebilen değerlerdir. Genel duruma uyum göstermezler. Farklı ancak kısmen benzer anlamlara gelen anomali (anomaly) ve aykırı değer (outlier) kavramları birbirleri…

Veri Ölçeklendirme ve Normalizasyon

Feature Scaling and Normalization Sıklıkla eş anlamlı olarak kullanılsalar da normalizasyon (normalization) bir veri öz niteliğinin (feature) dağılımına müdahale ederek normal dağılıma çevirmek iken ölçeklendirme (scaling) veri aralığını güncellemek anlamına gelmektedir. Bir çok makine öğrenmesi yöntemi, kümeleme analizi ya da…

Veri Temizleme

Data Cleaning Veri temizleme (Data Cleaning) veri setinde var olan ve uygulanacak makine öğrenmesi modelinin performansını olumsuz yönde etkileyecek problemlerin ortadan kaldırılmasını amaçlayan veri ön işleme adımlarının bütünüdür. Çoğunlukla çalışma yapılan alanla ilgili bilgi (domain knowledge) gerektirir. Veri temizleme yöntemleri…

Veri Dengeleme

Data Balancing Sınıflandırma problemlerine ait veri setlerinde hedef değerin (target, label) kategorik dağılımında yüksek oranda dengesizlik olduğunda bazı öğrenme algoritmalarının performansında düşüş gözlenebiliyor. Bu gibi durumlarda ilk tercih olmasa da veri dengeleme yolu tercih edilebilir. Veri dengelemek için iki temel…

Translate »