Unsupervised Learning : Clustering

Unsupervised learning adalah salah satu tipe algoritma machine learning yang digunakan untuk menarik kesimpulan dari datasetsyang terdiri dari input data labeled response. Metode unsupervised learning yang paling umum adalah analisis cluster yang digunakan untuk mencari pola-pola tersembunyi atau pengelompokan dalam data (nurhayati et al, 2019). Dalam teknik unsupervised learningtidak perlu melatih metode tersebut atau dapat dikatakan tidak ada fase pembelajaran (learning). Analisis cluster akan mengelompokkan objek-objek data hanya berdasarkan pada informasi yang terdapat pada data, yang menjelaskan objek dan relasinya.

Tujuan dari analisis cluster adalah mengumpulkan objek berdasarkan kesamaan karakteristik diantara objek-objek di dalam grup tersebut, dan berbeda (atau tidak berhubungan) dengan objek dalam grup yang lainnya. Semakin besar tingkat kemiripan di dalam satu grup dan semakin besar tingkat perbedaan di antara grup, maka semakin baik clustering tersebut. Penentuan cluster terbaik tergantung dari kondisi data serta hasil yang diinginkan seperti apa.

Kemiripan dua dengan data lainnya bisa diukur dengan ukuran distance (jarak) ataupun similarity (kemiripan). Beberapa ukuran yang dapat digunakan adalah Euclidean distance, Manhattan distance, Minkowski distance, dan Cosine similarity.

Terdapat berbagai algoritma yang dapat digunakan untuk menyelesaikan permasalahan clustering. Namun, secara umum proses clustering dapat dibedakan menjadi dua metode yaitu metode hirarki dan partisi. Dalam python, baik metode hirarki maupun partisi, telah dituangkan dalam library sklearn.

Metode Pengelompokan : Metode Hierarchical VS Partitional

Hierarchical (Hirarki)

Metode hirarki merupakan metode yang membentuk clusterdengan menganggap satu instance adalah satu cluster sendiri. Dua cluster dengan distance (jarak) terpendek digabungkan menjadi cluster baru. Selanjutnya, proses ini diiterasi sampai hanya tersisa beberapa cluster sesuai yang diinginkan. Intinya adalah membuat dekomposisi hirarki dari kumpulan data berdasarkan beberapa kriteria.

Metode umum yang digunakan adalah Diana, Agnes, BIRCH, dan CAMELEON.

Partitional (Partisi)

Partitional clustering adalah metode yang membagi seluruh instance (objek) ke dalam beberapa cluster, dimana tiap cluster memiliki pusat (centroid) yang telah ditentukan terlebih dahulu secara random, instance akan ditentukan masuk ke cluster mana berdasarkan distance terpendek dari instance ke tiap centroid pada tiap cluster. Partitonal clustering ini membagi himpunan objek data ke dalam sub himpunan (cluster) yang tidak overlap, sehingga setiap objek data berada dalam tepat satu cluster.

Metode yang umum digunakan adalah k-means, k-medoids, dan CLARANS.

Reference :

Nurhayati, Busman, Iswara RP. 2019. Pengembangan Algoritma Unsupervised Learning Technique pada Big Data Analysis di Media Sosial sebagai Media Promosi Online bagi Masyarakat. Jurnal Teknik Informatika. 12(1): 79-96.

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Unsupervised Learning : Clustering

Grow With DTSense

Belajar AI & Data Science