"Enter"a basıp içeriğe geçin

Overfitting ve Underfitting

Makine Öğrenmesi sınıflandırma ve regresyon problemlerine yönelik modellerde iki temel hata çeşidinden söz edilebilinir: Overfitting (Aşırı Öğrenme ya da Ezberleme) ve Underfitting (Eksik Öğrenme).

Bu kavramları öğrenmeden önce makine öğrenmesi modellerini eğitirken amacın en iyi genelleme (generalization) yapan modele erişmek olduğunu hatırlamak gerekiyor. En iyi genellemeye erişme gereksiniminin üç temel nedeninden bahsedebiliriz: Birincisi eldeki veri seti asla probleme ilişkin olası tüm örneklere sahip olamaz. Eğer sahip isek bu durumda algoritmik bir çözüm yeterli olacaktır ve makine öğrenmesine ihtiyaç olmayacaktır. İkinci sebebi ise eldeki veri setinde yanlış ölçüm, hatalı kayıt, sensör hassasiyeti ya da arızası gibi sebeplerle hatalar (gürültü olarak adlandırılır) mevcut olabilir. Bu durumda veri setine tam anlamı ile güvenmek hata olacaktır. Üçüncü sebebi ise probleme ilişkin tüm özelliklere ait veri toplamamış olma ihtimali. Örneğin A, B, C ve D verilerini kullanarak X değerini tahmin eden bir model geliştirilmek istenildiğinde E verisine de ihtiyaç olabilir fakat bu veriyi toplamak çeşitli sebepler ile mümkün olmayabilir.

Overfitting durumu eğitilen modelin eğitim için kullanılan veri setini ezberlemesi ve bunun dışında kalan örneklerde eğitim setine oranla daha fazla hata yapması durumuna verilen isimdir. Overfitting modelin kompleksliğinin gereğinden fazla artırılması sebebi ile ortaya çıkmaktadır.

Underfitting ise modelin veri setindeki ilişkiyi kavrayamaması ile oluşan duruma verilen addır. Modelin yeterli komplekslik seviyesine çıkarılmaması ya da tercih edilen modelin ya da parametre tercihlerinin veri setine uygun olmaması gibi sebeplerle ortaya çıkmaktadır.

Sınıflandırma Problemlerinde Overfitting ve Underfitting

Sınıflandırma modellerinde yaşanan overfitting ve underfitting problemlerini görselleştirelim. Aşağıdaki gibi bir veri setine sahip olunduğunu varsayalım:

Kırmızı ve yeşil noktaları birbirinden ayıran aşağıdaki şekilde bir model hedeflenmeli:

Yeterince ya da yeterli veri ile eğitilmemiş bir model aşağıdaki şekilde underfitting durumunda olacaktır:

Gereğinden fazla eğitilmiş ve eğitim için kullanılan veriyi ezberlemiş bir model ise aşağıdaki şekilde olacaktır:

Regresyon Problemlerinde Overfitting ve Underfitting

Regresyon problemlerine ilişkin modellerde ise umulan model aşağıdaki şekilde görselleştirilebilinir:

Regresyon modellerinde overfitting ve underfitting durumlarını ise aşağıdaki şekilde görselleştirmek mümkün:

Elbette özellikle çok boyutlu verilerle çalışıldığı durumlarda veriyi ve modeli görselleştirmek her zaman mümkün olmuyor.

Modelin Overfitting ya da Underfitting durumda olup olmadığını anlamak için önceki yazılarda öğrendiğimiz performans metriklerinden beslenen model komplekslik grafiği (model complexity graph) kullanılmaktadır. Bir sonraki yazımızın konusu bu olacak.

Keyifli öğrenmeler 🙂

İlk Yorumu Siz Yapın

Bir Cevap Yazın

Translate »
%d blogcu bunu beğendi: