"Enter"a basıp içeriğe geçin

Regresyon Modelleri için Performans Değerlendirme

Regresyon (regression) problemleri daha önce de değindiğimiz gibi sınıflandırma (classification) problemlerinden farklılık gösterir. Sınıflandırma problemlerinde sınırlı sayıda durum ya da sınıf içerisinden doğru olanı tahmin etmeye çalışırken regresyon problemlerinde sürekli olarak ifade ettiğimiz değerler içerisinden doğru değeri tahmin etmeye çalışırız. Örneğin bir resme bakarak resimdeki kişinin yaşlı mı yoksa genç mi olduğunu tahmin etmek sınıflandırma problemi iken resimdeki kişinin yaşını tahmin etme işini regresyon problemi olarak değerlendirmek gerekmektedir.

Sınıflandırma ve regresyon problemleri farklı olduğundan bu problemlere ilişkin makine öğrenmesi modellerinin performans değerlendirmesi de elbette farklı olacaktır. Bu yazımızda regresyon analizlerinin (modellerinin) performans değerlendirmelerine ilişkin dört farklı yöntem öğreneceğiz.

  • Ortalama Mutlak Hata (Mean Absolute Error – MAE)
  • Ortalama Karesel Hata (Mean Squared Error – MSE)
  • Kök Ortalama Karesel Hata (Root Mean Squared Error – RMSE)
  • R Kare Skor (R Square Score – R2 Score)

Ortalama Mutlak Hata

Ortalama Mutlak Hata (Mean Absolute Error – MAE)

Ortalama Mutlak Hata tahmin edilen değerler ile gerçek değerler arasındaki farkların mutlak değerlerinin toplamının toplam tahmin sayısına bölümü ile elde edilir. Yine fotoğraftaki kişinin yaşını tahmin ettiğimizi varsayalım. Elimizde 5 adet fotoğraf olsun ve bu fotoğraftaki kişilerin gerçek yaşları sırası ile 34, 19, 23, 41, ve 43 olsun. Eğitilen regresyon modeli ise bu fotoğraftaki kişilerin yaşlarını sırası ile 33, 21, 23, 44 ve 40 olarak tahmin etmiş olsun.

  • Gerçek değerler : [34, 19, 23, 41, 43]
  • Tahmin değerleri : [33, 21, 23, 44, 40]

Gerçek değerler ile tahmin değerlerinin arasındaki farkları sırası ile hesaplarsak:

  • Farklar : [1, -2, 0, -3, 3]

Farkların mutlak değerlerini aldığımızda:

  • Farkların mutlak değerleri : [1, 2, 0, 3, 3]

Bu durumda farkların mutlak değerlerinin toplamı 1+2+0+3+3 = 9 olur. Ortalamasını elde etmek için toplam tahmin sayımıza yani 5’e böldüğümüzde ise 9/5 = 1,8 değerini elde ederiz.

Bu durumda ilgili regresyon modeli için ortalama mutlak hata (mean absolute error) 1,8’dır.

Ortalama Karesel Hata

Ortalama Karesel Hata (Mean Squared Error – MSE)

Aynı model için Ortalama Karesel Hata hesaplaması yaparsak farkların mutlak değerlerini almak yerine karelerini hesaplıyoruz. Bunun dışındaki tüm adımlar aynı ilerliyor. Bu durumda:

  • Gerçek değerler : [34, 19, 23, 41, 43]
  • Tahmin değerleri : [33, 21, 23, 44, 40]
  • Farklar : [1, -2, 0, -3, 3]
  • Farkların Kareleri : [1, 4, 0, 9, 9]

Farkların karelerinin toplamı 1+4+0+9+9 = 24 olur. Ortalamasını elde etmek için toplam tahmin sayımıza yani 5’e böldüğümüzde ise 24/5 = 4,8 değerini elde ederiz.

Bu durumda ilgili regresyon modeli için ortalama karesel hata (mean squared error) 4,8’dir.

Kök Ortalama Karesel Hata

Kök Ortalama Karesel Hata ise Ortalama Karesel Hata’nın karekökü alınarak elde edilir. Ortalama Karesel Hata değerini 4,8 bulmuştuk. Bunun karekökü (yaklaşık olarak 2,19) Kök Ortalama Karesel Hata değeridir.

R Kare Skor

İlk üç metrik 0 ile sonsuz arasında değerler döndürebilirken, R kare skor bunun aksine yalnızca 0 ile 1 arasında bir değer üretir. İlk üç metrik için 0’a yakın değerler daha iyi bir performansı ifade ederken sonsuza doğru ilerledikçe modelin daha kötü performans göstermeye başladığını söyleyebiliriz. R kare skor için ise 0 değerine yakın değerler kötü performans ifade ederken 1 değerine yakın değerler daha iyi performans ifade etmektedir.

R kare skoru hesaplayabilmek için öncelikle en basit model (simplest model) tanımı yapılması gerekiyor. En basit model örnek ne olursa olsun ortalama değeri söyleyen model olarak tanımlanır.

Örneğimize dönecek olursak, resimlerdeki kişilerin yaşları sırası ile 34, 19, 23, 41, ve 43 demiştik. Bu değerlerin ortalaması (34+19+23+41+43)/5 = 32. En basit model hangi resmi tahminlerse tahminlesin 31,8 değerini döndüren modeldir.

R kare skoru hesaplarken eğittiğimiz regresyon modelinin ortalama karesel hata değerini en basit modelin ortalama karesel hatasına böler, çıkan sonucu 1’den çıkarırız.

Yine yukarıdaki gibi gerçek yaşları sırası ile 34, 19, 23, 41, ve 43 olan kişilerin fotoğraflarına bakarak sırası ile 33, 21, 23, 44 ve 40 tahminlerini yapan regresyon modeli için R kare değerini hesaplamak istersek:

  • Gerçek değerler : [34, 19, 23, 41, 43]
  • Tahmin değerleri : [33, 21, 23, 44, 40]
  • Modele ait ortalama karesel hata : 4,8
  • En basit model : (34+19+23+41+43)/5 = 32
  • En basit modele ait ortalama karesel hata : ((34-32)^2+(19-32)^2+(23-32)^2+(41-32)^2+(43-32)^2) / 5 = 91,2
  • R kare skor : 1 – (4,8/91,2) = 0,947

Görüldüğü üzere R kare skoru 0,947 olarak hesaplamış olduk.

R kare skoru için formülü şu şekilde ifade edebiliriz:

Gelecek yazıda bu yazıda öğrendiğimiz dört metriğin python ile nasıl hesaplandığını göreceğiz.

Keyifli öğrenmeler 🙂

İlk Yorumu Siz Yapın

Bir Cevap Yazın

Translate »
%d blogcu bunu beğendi: