Apa itu Machine Learning?
Sebelum kita membahas lebih jauh tentang metode-metode machine learning, mari kita mulai dengan menjelaskan apa itu machine learning. Machine learning sering kali dikategorikan sebagai subbidang dari kecerdasan buatan atau artificial intelligence, namun kategorisasi ini pada awalnya sering kali dapat menyesatkan. Study mengenai Machine Learning sering kali muncul dalam konteks ini, namun penerapan metode machine learning dalam data science, akan lebih tepat jika kita menyebut machine learning adalah sarana untuk membuat model dari sebuah data.
Pada dasarnya, machine learning meliputi pembuatan model matematika untuk memahami data. Proses “Learning” dalam machine learning terjadi ketika kita memasukkan parameter ke dalam model yang dapat disesuaikan dengan data yang sedang kita amati, dengan demikian cara ini dapat dianggap bahwa program belajar dari data. Setelah model ini sesuai dengan data yang dilihat sebelumnya, model ini dapat digunakan untuk memprediksi dan memahami aspek dari data baru. Secara filosofis proses pembelajaran pada machine learning yang berbasis pada model matematika ini mirip dengan pembelajaran yang dilakukan oleh otak manusia.
Kategori Machine Learning
Pada tingkat paling dasar, machine learning dapat dikategorikan menjadi dua jenis, yaitu supervised learning dan unsupervised learning.
Supervised learning melibatkan pemodelan hubungan antara fitur data yang diukur dan beberapa label yang terkait dengan data. Setelah model ini ditentukan, model ini dapat digunakan untuk memprediksi label dari data baru yang tidak diketahui labelnya. supervised learning ini dibagi lagi menjadi 2 jenis, yaitu klasifikasi (classification) dan regresi (regression). Dalam klasifikasi, label memiliki kategori yang berlainan sedangkan pada regresi label bersifat kontinyu. Kita akan melihat contoh dari kedua jenis tersebut pada bagian selanjutnya.
Unsupervised learning melibatkan pemodelan fitur dari dataset tanpa mengacu ke label apapun, hal ini sering juga diistilahkan dengan “biarkan kumpulan dari data menentukan dirinya sendiri”. Model-model ini mencakup tugas seperti klasterisasi (Clustering) dan dimensionality reduction. Algoritma clustering mengidentifikasi kelompok data yang berbeda, sedangkan pada Dimensionality reduction mencari representasi data yang lebih ringkas. Kita akan melihat contoh dari kedua jenis tersebut pada bagian selanjutnya.
Pada pembahasan diatas, kita sudah menyebut fitur dan label dari data. Fitur adalah bidang yang digunakan sebagai masukan dan label digunakan sebagai keluaran. Sebagai contoh sederhana, pertimbangkan bagaimana cara memprediksi apakah seseorang harus menjual mobil berdasarkan harga jual mobil, tahun, merk, dll. Ya / tidak adalah labelnya sedangkan harga jual, tahun, dan merk adalah fiturnya.
Contoh Kualitatif dari Penerapan Machine Learning
Agar pembahasan kita lebih konkret, mari kita lihat beberapa contoh sederhana penerapan machine learning. Contoh ini dimaksudkan untuk memberikan gambaran intuisi dan nonkualitatif dari jenis machine learning yang sudah dibahas pada pembahasan sebelumnya.
Klasifikasi : Memprediksi label diskrit
Kita akan melihat salah satu contoh simpel dari kasifikasi, di mana kita diberikan titik berlabel dan dapat digunakan untuk mengklasifikasikan beberapa titik yang tak berlabel.
Bayangkan kita memiliki data yang digambarkan pada gambar dibawah.

Disini kita memiliki data dua dimensi (two-dimentional), artinya kita memiliki dua fitur untuk masing-masing titik yang direpresentasikan oleh posisi (x,y) dari bidang tersebut. Selain itu, kita memiliki satu dari dua label kelas untuk setiap titik, disini direpresentasikan oleh warna dari setiap titik. Dari fitur dan label tersebut kita akan membuat model yang memungkinkan kita dapat memutuskan apakah titik baru harus diberi label “biru” atau “merah”.
Ada beberapa kemungkinan model untuk tugas klasifikasi seperti itu, namun disini kita akan menggunakan salah satu model yang paling sederhana. Kita buat asumsi bahwa kedua kelompok dapat dipisahkan dengan menggambar garis lurus melalui bidang diantara keduanya. Di sini model adalah versi kuantitatif dari pernyataan “garis lurus memisahkan kelas”, sedangkan parameter model adalah nomor tertentu yang menjelaskan lokasi dan orientasi garis tersebut untuk data kita. Nilai optimal untuk parameter model ini dipelajari dari data (ini disebut “learning” dalam “machine learning”), yang sering disebut melatih model.

Setelah dilatih, model ini dapat digeneralisasikan ke data baru yang tidak memiliki label. Dengan kata lain, kita dapat mengambil sekumpulan data baru dan menggambar garis model melaluinya, dan menetapkan label ke titik baru berdasarkan model ini. Tahapan ini sering disebut sebagai prediksi (prediction).

Ini adalah contoh dasar dari klasifikasi dalam machine learning, dengan klasifikasi dapat menunjukan bahwa data memiliki kelas yang berbeda. Sekilas mungkin terlihat sepele, kita hanya perlu melihat data kemudian menggambar garis melaluinya untuk menyelesaikan klasifikasi. Manfaat dari pendekatan machine learning adalah dapat menggeneralisasi ke dataset yang lebih besar dan memiliki lebih banyak dimensi.
Sebagai contoh kita akan melakukan tugas klasifikasi untuk mendeteksi pesan spam secara otomatis, dalam kasus ini kita mungkin akan menggunakan fitur dan label sebagai berikut:
- fitur 1, fitur 2, dll. jumlah kata atau frasa penting yang dinormalisasi (“Viagra”, “pangeran Nigeria”, dll.)
- label“spam” atau “bukan spam”
Regression : Memprediksi label kontinyu
Berbeda dengan label diskrit dari algoritma klasifikasi, selanjutnya kita akan melihat tugas regresi sederhana di mana label adalah kuantitas kontinyu.
Perhatikan data yang ditunjukkan pada gambar dibawah, yang terdiri dari sekumpulan titik dan masing-masing memiliki label kontinyu.

Seperti pada contoh klasifikasi sebelumnya, kita memiliki data dua dimensi. Artinya, data memiliki dua fitur yang mendeskripsikan setiap titik data. Warna setiap titik merepresentasikan label dari setiap titik data.
Ada sejumlah model regresi yang dapat digunakan untuk jenis data ini, namun kali ini kita akan menggunakan linier regression sederhana untuk memprediksi data. Model linier regression sederhana ini kita asumsikan bahwa jika kita memperlakukan model sebagai dimensi spasial ketiga, kita dapat menyesuaikan bidang ke data. Ini adalah generalisasi yang lebih tinggi dari problem yang diketahui dengan baik dalam menyesuaikan garis ke data dengan dua dimensi.

Perhatikan bahwa bidang fitur 1 dan fitur 2 sama dengan plot dua dimensi pada gambar sebelumnya; dalam kasus ini kita telah merepresentasikan label dengan warna dan posisi sumbu tiga dimensi. Dari gambar tersebut, tampaknya masuk akal bahwa jika kita memasang titik pada bidang tiga dimensi ini akan memungkinkan kita untuk memprediksi label yang diharapkan untuk setiap set parameter masukan apapun. Kembali ke proyeksi dua dimensi, ketika kita memasang bidang seperti itu, kita mendapatkan hasil yang ditunjukkan pada Gambar dibawah.

Plot diatas memberi gambaran untuk memprediksi label untuk titik baru. Secara visual, kita dapat menemukan hasil yang ditunjukkan pada gambar dibawah.

Seperti pada contoh klasifikasi sebelumnya, mungkin ini tampak sepele untuk data dengan jumlah dimensi yang rendah. Tetapi kelebihan dari metode ini adalah bahwa metode tersebut dapat diterapkan dan dievaluasi secara langsung dalam kasus data dengan banyak fitur.
Sebagai contoh, ini mirip dengan tugas menghitung jarak antar galaksi yang diamati menggunakan teleskop, dalam hal ini kita dapat menggunakan fitur dan label sebagai berikut:
- fitur 1, fitur 2, dll. Kecerahan setiap galaksi pada salah satu dari beberapa panjang gelombang atau warna
- label jarak atau pergeseran merah galaksi