Skip to content

K-Means Kümeleme Nedir?

16 de Mayıs de 2021

The k-anlamına gelir kümeleme algoritması, gözlemleri, bu ilişkiler hakkında önceden bilgi sahibi olmadan ilgili gözlem grupları halinde kümelemek için kullanılan bir veri madenciliği ve makine öğrenimi aracıdır. Örnekleme yoluyla, algoritma, verilerin hangi kategoriye veya kümeye ait olduğunu göstermeye çalışır ve küme sayısı değer tarafından tanımlanır. k.

The k-Ortalama algoritma, en basit kümeleme tekniklerinden biridir ve tıbbi görüntüleme, biyometri ve ilgili alanlarda yaygın olarak kullanılmaktadır. Avantajı k-kümeleme, algoritmaya başlangıçta veriler hakkında talimat vermek zorunda kalmanız yerine (algoritmanın denetimli formunu kullanarak) verilerinizi (denetimsiz formunu kullanarak) anlatması anlamına gelir. Standart algoritma ilk kez 1957’de Stuart Lloyd tarafından önerildiği için, bazen, özellikle bilgisayar bilimi çevrelerinde Lloyd’s Algorithm olarak anılır. “K-ortalama” terimi 1967’de James McQueen tarafından icat edildi.

K-Means Algoritması Nasıl Çalışır?

The k-anlamı algoritma, adını çalışma yönteminden alan evrimsel bir algoritmadır. Algoritma, gözlemleri şu şekilde kümeler: k gruplar, nerede k giriş parametresi olarak sağlanır. Daha sonra, gözlemin kümenin ortalamasına yakınlığına dayalı olarak her bir gözlemi kümelere atar. Kümenin ortalaması daha sonra yeniden hesaplanır ve süreç yeniden başlar. Algoritma şu şekilde çalışır:

  1. Algoritma keyfi olarak seçer k ilk küme merkezleri (araçlar) olarak işaret eder.
  2. Veri kümesindeki her nokta, her nokta ile her küme merkezi arasındaki Öklid mesafesine bağlı olarak kapalı kümeye atanır.
  3. Her bir küme merkezi, o kümedeki noktaların ortalaması olarak yeniden hesaplanır.
  4. Adım 2 ve 3, kümeler birleşene kadar tekrarlanır. Yakınsama, uygulamaya bağlı olarak farklı şekilde tanımlanabilir, ancak bu normalde ya adım 2 ve 3 tekrarlandığında hiçbir gözlemin kümeleri değiştirmediği ya da değişikliklerin kümelerin tanımında önemli bir fark yaratmadığı anlamına gelir.

Küme Sayısının Seçilmesi

Ana dezavantajlardan biri k-anlamına gelir kümeleme, algoritmaya girdi olarak küme sayısını belirtmeniz gerektiği gerçeğidir. Tasarlandığı gibi, algoritma uygun küme sayısını belirleme yeteneğine sahip değildir ve bunu önceden belirlemesi kullanıcıya bağlıdır. Örneğin, erkek veya kadın olarak ikili cinsiyet kimliğine dayalı olarak kümelenecek bir grup insanınız varsa, k-girişi kullanan algoritma anlamına gelir k = 3 insanları yalnızca iki veya bir girdi olduğunda üç kümeye zorlar. k = 2, daha doğal bir uyum sağlar. Benzer şekilde, bir grup birey kolayca yaşadığı eyalete göre kümelenmişse ve siz k-girdi ile algoritma anlamına gelir k = 20, sonuçlar etkili olamayacak kadar genelleştirilmiş olabilir. Bu nedenle, farklı değerleri denemek genellikle iyi bir fikirdir. k verilerinize en uygun değeri belirlemek için. Ayrıca makine öğrenimli bilgi arayışınızda diğer veri madenciliği algoritmalarının kullanımını araştırmak isteyebilirsiniz.