"Enter"a basıp içeriğe geçin

ROC Curve ve AuC

Makine Öğrenmesi Sınıflandırma metriklerinden bir diğeri ise ROC (Receiver Operating Characteristics) eğrisi ve bu eğrinin altında kalan alanı ifade eden AuC’tur (Area under Curve). Kimi zaman AuROC (Area under ROC Curve) olarak da ifade edilebilir.

ROC’tan önce hata matrisi (confusion matrix) kavramını ve diğer sınıflandırma metriklerini önceki yazımızdan hatırlamanız tavsiye edilir.

ROC eğrisi ve altında kalan alan önceki yazıda öğrendiğimiz F skor ve MCC gibi özellikle dengesiz (imbalanced) veri setleri için kullanılabildiği gibi dengeli (balanced) veri setleri için de modeli tanımamıza yardımcı olmaktadır.

ROC eğrisinin diğer skorlama yöntemlerine göre avantajı ise modelin hangi koşullarda hataya daha meyilli olduğunu da kavramamıza yardımcı olabilmektedir.

Şimdi yere dökülmüş kırmızı ve mavi toplarımız olduğunu düşünelim ve bunu bir doğru şeklindeki model ile ayırarak ROC eğrisini çizmeye çalışalım.

Hata matrisi yukarıdaki animatif görsellerde olduğu gibi oluşur. ROC eğrisi çizilirken ise iki boyutlu uzayda nokta tanımı yapmak üzere iki değer hesaplanır. Doğru Pozitif Oranı (True Positive Rate -TPR) ve Yanlış Pozitif Oranı (False Positive Rate – FPR)

TPR ve FPR değerlerinin formülleri aşağıdaki gibidir.

Bu değerler hesaplanarak yatay ekseni FPR değerlerini, dikey ekseni ise TPR değerlerini ifade eden bir düzlemde (FPR, TPR) noktası işaretlenir.

Animatif görseldeki örneğimize göre FPR değeri 1/(1+6) = 1/7, TPR değeri ise 3/(3+2) = 3/5 olur. Dolayısı ile ilk noktamız (1/7,3/5) olarak belirlenir. İşaretlenecek diğer noktalar ise model (burada bir doğru) kendi ekseni hizasında belirlenecek adım miktarınca her iki yöne kaydırılarak her bir durum için TPR ve FPR değerleri hesaplanarak elde edilir.

Modelin kaydırılması karar verme eşiğinin değiştirilmesine karşılık gelir. İkili (binary) bir model için bu normal şartlarda 0.5’e karşılık gelir. 0.5’ten yukarı değerler için 1, altında olan değerler için ise 0 tahmini yapıldığı varsayılır. Çoklu sınıflandırma problemlerinde ise her bir sınıf için ayrı bir ikili sınıf yapısı olduğu varsayılır ve sonuç olarak her bir ikili sınıf için oluşan olasılık sonucunun bir çeşit kombinasyonu kullanılarak tahmin yapılır.

Bu noktaların birleştirilmesi ile elde edilecek eğriye ise ROC Curve adı verilmektedir. Aşağıdaki animatif görselle çizimi görmeye çalışalım:

Son görselde de anlaşıldığı üzere AuC çizilen ROC eğrisinin altında kalan alan olarak ifade edilmektedir.

Çizilen ROC eğrisi sol üst köşeye yani (FPR, TPR) olarak (0,1) noktasına ne kadar yakınsa altında kalan alan da 1 değerine o kadar yaklaşacaktır. AuC için maksimum değer 1’dir. Bu değer modelinizin ilgili veri seti için mükemmel ayrıştırma yapabildiğini göstermektedir. AuC 0.5 ise ayrıştırma başarısı 0 olarak anlaşılabilir. 0.5 değeri y=x doğrusu boyunca ilerleyen (FPR, TPR) noktaları anlamına gelir. Teorik olarak AuC 0.5 değerinin altında olabilse de bu modelin ayrıştırma yapabildiği fakat model etiketi için eşleştirme tersine çevirilir ise skor da 0.5 üzerine çıkacaktır. Yani Kırmızı ve Mavi alanların yerini değiştirmek iyi bir model elde etmek için yeterli olacaktır.

Örneğimizde anlaşılabilirlik ve görselleştirme kolaylığı açısından 2 boyutlu bir düzlemde bir doğru ile ayrıştırma yapıldı ise de genellikle bu çok boyutlu uzaylarda hiperdüzlem’ler (hyperplane) ile yapılır.

Birden fazla model için çizilen ROC eğrilerinin tek bir grafiğe yerleştirilmeleri ile modellerin karşılaştırmaları yapılabilmektedir.

Keyifli öğrenmeler 🙂

İlk Yorumu Siz Yapın

Bir Cevap Yazın

Translate »
%d blogcu bunu beğendi: