machine learning
machine learning

Machine Learning : Pengertian, Jenis, dan Contoh Sederhana

Diposting pada 10.931 views

Clustering : Membedakan Label Pada Data yang Tidak Berlabel

­­­­Ilustrasi klasifikasi dan regresi yang baru saja kita bahas adalah contoh supervised learning, di mana kita mencoba membuat model yang akan memprediksi label untuk data baru. Unsupervised learning melibatkan model yang mendeskripsikan data tanpa mengacu pada label apapun.

Salah satu kasus umum dari unsupervised learning adalah “clustering” di mana data secara otomatis ditetapkan ke sejumlah grup terpisah. Misalnya, kita mungkin memiliki beberapa data dua dimensi seperti yang ditunjukkan pada gambar dibawah.

dataset klastering machine learning

Secara kasat mata, jelas bahwa masing-masing titik ini adalah bagian dari kelompok yang berbeda. Dengan adanya masukan ini, model klastering akan menggunakan struktur intrinsik data untuk menentukan titik mana yang terkait. Menggunakan algoritma k-means yang sangat cepat dan intuitif, kita dapat menemukan cluster yang ditunjukkan pada gambar dibawah.

hasil klastering machine learning

Dimensionality Reduction: Menyimpulkan struktur data tidak berlabel

Dimensionality reduction adalah contoh lain dari algoritma unsupervised learning, di mana label atau informasi lain disimpulkan dari struktur dataset itu sendiri. Dimensionality reduction sedikit lebih abstrak daripada contoh yang kita bahas sebelumnya, tetapi umumnya ini berusaha untuk menarik beberapa representasi data berdimensi rendah yang dalam beberapa cara mempertahankan kualitas yang relevan dari kumpulan data lengkap.

Seperti contoh pada data dibawah

dimensionality reduction machine learning

Secara visual, terlihat jelas bahwa ada beberapa struktur dalam data ini: ia digambar dari garis satu dimensi yang tersusun spiral di dalam ruang dua dimensi. Dalam arti tertentu, kita dapat mengatakan bahwa data ini “secara intrinsik” hanya satu dimensi, meskipun data satu dimensi ini tertanam dalam ruang dimensi yang lebih tinggi. Model pengurangan dimensi yang sesuai dalam hal ini akan peka terhadap struktur tertanam nonlinier ini, dan dapat menarik representasi berdimensi lebih rendah.

Gambar dibawah menyajikan visualisasi hasil dari algoritma Isomap, salah satu algoritma yang digunakan untuk ini.

dimensionality reduction machine learning

Perhatikan bahwa warna (yang mewakili variabel laten satu dimensi yang diekstraksi) berubah secara seragam di sepanjang spiral, yang menunjukkan bahwa algoritme sebenarnya mendeteksi struktur yang kita lihat dengan mata. Seperti contoh sebelumnya, kekuatan algoritma Dimensionality reduction menjadi lebih jelas dalam kasus dengan dimensi yang lebih tinggi. Misalnya, kita mungkin ingin memvisualisasikan hubungan penting dalam kumpulan data yang memiliki 100 atau 1.000 fitur. Memvisualisasikan data 1.000 dimensi merupakan tantangan, dan salah satu cara untuk membuatnya lebih mudah dikelola adalah dengan menggunakan teknik Dimensionality reduction untuk mereduksi data menjadi dua atau tiga dimensi.