"Enter"a basıp içeriğe geçin

Makine Öğrenmesi’nin 7 adımı

Makine Öğrenmesi uygulamalarında farklı kaynaklarda farklı isimlerle anılsa da takip edilen bir sıralama vardır. Elbette probleme yönelik olarak adımlar iç içe geçebilir ancak temel olarak aşağıdaki şekilde sıralanabilir:

  1. Problemi Tanımlama (Problem Definiton)
  2. Probleme ilişkin veri toplama (Data Collection)
  3. Keşifsel Veri Analizi (Exploratory Data Analysis)
  4. Veri Ön işleme (Data Pre-processing)
  5. Model Seçimi (Choosing a Model)
  6. Model Eğitimi (Model Training) ve Parametre Belirleme (Parameter Tuning)
  7. Performans Değerlendirme (Testing)

Problem Tanımlama

İlk adım adı üzerinde çözmeyi istediğimiz problemin belirlendiği adımdır. Örneğin işaret dili tercümesi gibi. Basit gibi görünse de bu aşamada probleme ilişkin detayları mümkünse ilgili işin uzmanından ya da erişilebilir kaynaklardan doğru şekilde öğrenmek gereklidir.

Diğer yandan tanımlanan problemin makine öğrenmesi yöntemi ile çözülebilir olduğuna ilişkin güçlü kanıtlar elde edilmelidir. Hatırlamak gerekirse makine öğrenmesi modelleri sebep sonuç ilişkisinin var olduğu net bir şekilde ortaya konan, klasik programlama teknikleri ile çözülmesi neredeyse mümkün olmayan problemlerin çözümünde kullanılmaktadır.

Bu aşamada süreç tanımlaması da doğru yapılmalıdır. Örneğin bir tahminleme yapılacak ise yapılan tahminleme karşısında alınacak aksiyonların tanımlı olması, süreç içerisinde hangi adımların makine öğrenmesi yöntemleri ile çözüme kavuşturulup hangilerinin klasik programlama teknikleri ile çözüleceği gibi adımlar netliğe kavuşturulmalıdır.

Probleme İlişkin Veri Toplama

Bu adımda tanımlanmış problemin makine öğrenmesi çözümlerine adreslenen adımlarına ilişkin model eğitiminde kullanılması gereken verilerin ne olduğuna karar verilir ve nasıl toplanacağına ilişkin tanımlamalar yapılır. Yapılacak bir hata bu sürecin baştan uygulanmasına sebep olacağı gibi zaman ve maddi kayba da yol açacaktır. Veri toplama çoğu zaman maliyetli adımlardandır. Oldukça dikkat edilmesi gereklidir.

Keşifsel Veri Analizi

Keşifsel Veri Analizi toplanmış verileri tanımak için uygulanan ve çok temel adımlarını linkteki yazıda uyguladığımız adımdır. Bir sonraki adım olan Veri Ön İşleme adımında uygulanacak işlemlerin belirlenmesinde önemli rol oynar. Bir çok kaynakta Veri Ön İşleme adımı içerisinde de konumlandırılır.

Toplanılan verilerde hata olup olmadığı, veri toplama adımında belirlenen niteliklere uygunluğu, veri görselleştirme (data visualization) vb. gibi uygulamalar da bu adımda yapılır.

Veri Ön İşleme (Data Pre-processing)

Veri Ön İşleme veri setinin model eğitimine hazır hale getirilmesine ilişkin tüm adımları içerir. Tekrarlayan (duplicate) verilerin silinmesi, hatalı kayıtların düzeltilmesi, interpolasyon (interpolation), normalizasyon (normalization), model eğitiminde kullanılacak verilere karar verilmesi (feature selection), verinin dönüştürülmesi (feature extraction), test için kullanılacak verinin ayrıştırılması (train test split), çeşitli kodlama yöntemleri (encoding), anomali yaratan verilerin tespiti (anomaly detection) ve hatta probleme ilişkin gerek görülen tüm safhaları içerir.

Uygulanabilecek yöntemlerin çokluğu nedeni ile en çok zaman gerektiren adım olarak tanımlanır. Gerekli işlemler yapılmadığı takdirde sürekli olarak bu adıma dönüleceği kesindir.

Model Seçimi

Model seçimi adımı ise var olan yüzlerce makine öğrenmesi modelinden veri seti ve probleme ilişkin en doğru model ya da modellerin seçimine ilişkin adımdır. Bu adım hangi modelin hangi tip veri setlerinde daha iyi performans gösterdiğine ilişkin uzmanlık gerektirse de yeni başlayanlar performans değerlendirme adımları ile bu konuda uzmanlaşabilirler. Yine de kullanılması planlanan modellerin algoritmik adımlarının kavranması bir sonraki adımda işleri kolaylaştıracaktır.

Model Eğitimi (Model Training) ve Parametre Belirleme (Parameter Tuning)

Bu adım en heyecanlı kısımdır denilebilir. Zira bu aşamaya kadar ki verilen emeklerin boşa çıkıp çıkmadığı burada kavranır. Genellikle ilk adımda hızlıca bir kıyaslama (benchmark) yapabileceğimiz bir skor belirlemek üzere seçilen modelin varsayılan parametreleri ya da tecrübe ile belirlenen parametre setleri ile hızlı bir kaç deneme yapılır. Eğer veri seti çok geniş ise bu kıyaslama skorunu elde etmek üzere verinin yeterli olan bir kesiti ile de bu adım uygulanabilir.

Elde edilen skora/skorlara göre model değişimi uygulamaya karar verilebilir ya da parametre seti değiştirilebilir.

Hedefe ulaşılabileceği ipucunu veren bir skor elde edildiğinde ise bir parametre kümesine karar verilerek ihtimal uzayından en doğru parametre seti seçilir. Söz gelimi A parametresi için 1,10,100,1000 değerleri, B parametresi için alpha, beta, gama değerleri, C parametresi için x,y,z değerleri denenmek istenir ise 4x3x3 = 36 farklı parametre seti ile model eğitimi yapılır ve en iyi olduğu değerlendirilen parametre setine karar verilir.

Bu aşamada en iyi diyebilmek için ileri yazılarda öğreneceğimiz validasyon/onaylama (validation) setlerine ihtiyaç duyacağımızı da belirtmeden geçmeyelim.

Performans Değerlendirme (Testing)

Makine öğrenmesi’nde test eğitilmiş modellerin becerilerini kullanılmayı amaçlandıkları veri uzayında ölçerek ürünleşmeye ne kadar hazır olduklarını kavramamıza yarayan bir ölçme ve değerlendirme aşamasıdır. Kısaca modelim ne kadar iyi çalışıyor? sorusuna cevap arayan yöntemlerin bütünüdür.

Eğitilen ve parametre seçimi yapılan modelin kullanım amacı ve prosedürlerine göre kendi test yöntemlerinizi geliştirmek ve uygulamak mümkün ise de hali hazır da var olan ölçme yöntemlerini bu yazı dizisinde öğrenecek ve uygulamalar yapacağız.

Ölçme yöntemlerinin problem tipine göre belirlenmesi gerektiğini de belirterek yazıyı noktalayabiliriz.

Performans Değerlendirme Yöntemleri yazı dizisi ile 7. adımı yakından tanımaya çalışacağız.

Keyifli Öğrenmeler 🙂

İlk Yorumu Siz Yapın

Bir Cevap Yazın

Translate »
%d blogcu bunu beğendi: