Unsupervised learning adalah salah satu tipe algoritma machine learning yang digunakan untuk menarik kesimpulan dari datasetsyang terdiri dari input data labeled response. Metode unsupervised learning yang paling umum adalah analisis cluster yang digunakan untuk mencari pola-pola tersembunyi atau pengelompokan dalam data (nurhayati et al, 2019). Dalam teknik unsupervised learningtidak perlu melatih metode tersebut atau dapat dikatakan tidak ada fase pembelajaran (learning). Analisis cluster akan mengelompokkan objek-objek data hanya berdasarkan pada informasi yang terdapat pada data, yang menjelaskan objek dan relasinya.
Tujuan dari analisis cluster adalah mengumpulkan objek berdasarkan kesamaan karakteristik diantara objek-objek di dalam grup tersebut, dan berbeda (atau tidak berhubungan) dengan objek dalam grup yang lainnya. Semakin besar tingkat kemiripan di dalam satu grup dan semakin besar tingkat perbedaan di antara grup, maka semakin baik clustering tersebut. Penentuan cluster terbaik tergantung dari kondisi data serta hasil yang diinginkan seperti apa.
Kemiripan dua dengan data lainnya bisa diukur dengan ukuran distance (jarak) ataupun similarity (kemiripan). Beberapa ukuran yang dapat digunakan adalah Euclidean distance, Manhattan distance, Minkowski distance, dan Cosine similarity.
Terdapat berbagai algoritma yang dapat digunakan untuk menyelesaikan permasalahan clustering. Namun, secara umum proses clustering dapat dibedakan menjadi dua metode yaitu metode hirarki dan partisi. Dalam python, baik metode hirarki maupun partisi, telah dituangkan dalam library sklearn.
Metode Pengelompokan : Metode Hierarchical VS Partitional
- Hierarchical (Hirarki)
Metode hirarki merupakan metode yang membentuk clusterdengan menganggap satu instance adalah satu cluster sendiri. Dua cluster dengan distance (jarak) terpendek digabungkan menjadi cluster baru. Selanjutnya, proses ini diiterasi sampai hanya tersisa beberapa cluster sesuai yang diinginkan. Intinya adalah membuat dekomposisi hirarki dari kumpulan data berdasarkan beberapa kriteria.
Metode umum yang digunakan adalah Diana, Agnes, BIRCH, dan CAMELEON.
- Partitional (Partisi)
Partitional clustering adalah metode yang membagi seluruh instance (objek) ke dalam beberapa cluster, dimana tiap cluster memiliki pusat (centroid) yang telah ditentukan terlebih dahulu secara random, instance akan ditentukan masuk ke cluster mana berdasarkan distance terpendek dari instance ke tiap centroid pada tiap cluster. Partitonal clustering ini membagi himpunan objek data ke dalam sub himpunan (cluster) yang tidak overlap, sehingga setiap objek data berada dalam tepat satu cluster.
Metode yang umum digunakan adalah k-means, k-medoids, dan CLARANS.
Reference :
Nurhayati, Busman, Iswara RP. 2019. Pengembangan Algoritma Unsupervised Learning Technique pada Big Data Analysis di Media Sosial sebagai Media Promosi Online bagi Masyarakat. Jurnal Teknik Informatika. 12(1): 79-96.