"Enter"a basıp içeriğe geçin

Kümeleme (Clustering)

Şu ana kadar gördüğümüz yöntemler aslında etiketli (labeled) diye tarif ettiğimiz veri setleri ile ilgilenen makine öğrenmesi alt dalı olan gözetimli öğrenme (supervised learning) tekniği idi. Bunun alt kırılımı olarak sınıflandırma (classification) ve regresyon (regression) dallarına örnekler verdik.

Etiketli veri setleri (labeled datasets) set içerisinde bulunan herhangi bir örneğe dair özellikler (features) ve karşılık gelen durumu/sınıfı (state/class) içeren setlerdir. Örnek vermek gerekirse üniversite giriş sınavından 350 puan alıp okul ortalaması 4.3 olan bir öğrenci bilgisine karşılık bu öğrencinin üniversiteye yerleşip yerleşmediği bilgisini içeren bir veri seti etiketli veri seti (labeled dataset) olarak nitelendirilir. Ancak öğrencinin üniversiteye yerleşme bilgisi verilmez ise bu bir etiketsiz veri seti (unlabeled dataset) örneği olur.

Bu kısımda ise gözetimsiz öğrenme (unsupervised learning) tekniklerinden kümeleme (clustering) tekniklerinden K-Means Clustering ve Hierarchical Clustering yöntemlerini basitçe öğreneceğiz.

K-Means Clustering

Kümeleme yöntemleri algoritma olarak genellikle anlaşılması oldukça kolay yöntemlerdir. Herhangi bir etikete sahip olmayan veri setlerinin ayrıştırılmasına, tabiri caiz ise onlara birer etiket yaratmaya yarıyor.

Yine örnekle açıklamak gerekirse bir kargo firması işlettiğimizi ve potansiyel kargo müşterilerimizin aşağıdaki resimde gördüğünüz konumlarda ikamet ettiklerini ve bunlara karşılık 3 şube açmak istediğimizi varsayalım.

İlk bakışta bizler için kabaca lokasyon belirlemek oldukça kolay fakat makineler için durum böyle değil. Nasıl öğreneceklerine ilişkin bir model ya da algoritma sunmalıyız. K-Means clustering bu sorunu çözmek üzere;

  1. 3 rastgele noktayı kümeleme merkezleri olarak belirler.
  2. Ardından örnek noktalar hangi merkeze daha yakın ise o kümeye ait olarak işaretler.
  3. Her merkezi kendi kümesine ait elemanların merkezine taşır
  4. örnek noktaların hangi merkeze daha yakın olduğunu tekrar kontrol edip gerekli ise küme işaretlerini değiştirir.
  5. 3. ve 4. adımları merkezler yer değiştirmeyene dek tekrar eder.

Canlandırması zor mı? Öyleyse animatif görsel seti ile olanları inceleyelim:

Kolay değil mi 🙂

Aklımıza kaç kargo şubesi açmamız gerektiğini nasıl bileceğiz, tek metrik konum mu, merkezlerin başlangıç noktaları sonucu değiştirir mi gibi sorular gelmiş olabilir. Haklısınız. Her kümeleme yönteminin kendine göre artı ve eksileri mevcut. Etiketsiz veri setleri ile çalışmak bu sebeple ince elenmesi gereken konulardır.

Bir sonraki derste Hierarchical Clustering öğrenmek üzere hoşçakalın.

Keyifli öğrenmeler 🙂

İlk Yorumu Siz Yapın

Bir Cevap Yazın

Translate »
%d blogcu bunu beğendi: