Pembelajaran Interaktif
Supervised Machine Learning
Pelajari konsep Machine Learning terawasi secara lengkap dengan simulasi interaktif dan contoh nyata
Pengenalan Supervised Machine Learning
๐ Definisi
Supervised Machine Learning (Pembelajaran Mesin Terawasi) adalah cabang dari Machine Learning di mana model dilatih menggunakan data berlabel (labeled data). Dalam pendekatan ini, algoritma belajar dari pasangan input-output yang sudah diketahui untuk memprediksi output dari data baru yang belum pernah dilihat sebelumnya.
๐ฏ Konsep Dasar
Model mempelajari fungsi pemetaan:
f : X โ Y
Di mana X adalah input (fitur) dan Y adalah output (label/target)
๐ Karakteristik Utama
Data Berlabel
Setiap data training memiliki pasangan input dan output yang sudah diketahui (contoh: gambar kucing dengan label "kucing")
Pembelajaran Terarah
Model "diawasi" oleh label yang benar selama proses training untuk meminimalkan kesalahan prediksi
Prediksi Output
Tujuannya adalah memprediksi output untuk data baru berdasarkan pola yang dipelajari
Evaluasi Terukur
Performa dapat diukur dengan membandingkan prediksi dengan nilai sebenarnya
๐ Contoh Aplikasi
- โข Deteksi Spam Email: Model belajar dari email berlabel (spam/bukan spam) untuk mengklasifikasi email baru
- โข Prediksi Harga Rumah: Model belajar dari data rumah (luas, lokasi, dll) dan harganya untuk memprediksi harga rumah baru
- โข Diagnosis Medis: Model belajar dari data pasien dan diagnosisnya untuk membantu mendeteksi penyakit
๐ก Sumber Referensi
Mitchell, T. M. (1997). Machine Learning. McGraw-Hill.
Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
Gรฉron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O'Reilly.
Jenis Supervised Learning: Klasifikasi & Regresi
๐ท๏ธ KLASIFIKASI (Classification)
Klasifikasi adalah tugas memprediksi kategori atau kelas diskrit dari suatu data. Output berupa label kategorikal yang sudah ditentukan sebelumnya.
๐ Fungsi Klasifikasi
f(x) โ {Cโ, Cโ, ..., Cโ}
Output adalah salah satu dari k kelas yang mungkin
Jenis Klasifikasi:
Dua kelas (Ya/Tidak, Spam/Bukan Spam)
Lebih dari dua kelas (Jenis Buah, Digit 0-9)
Contoh Aplikasi:
- โข Deteksi penyakit (Positif/Negatif)
- โข Pengenalan gambar (Kucing/Anjing/Burung)
- โข Analisis sentimen (Positif/Negatif/Netral)
๐ REGRESI (Regression)
Regresi adalah tugas memprediksi nilai numerik kontinu. Output berupa angka dalam rentang tak terbatas.
๐ Fungsi Regresi
f(x) โ โ (bilangan real)
Output adalah nilai kontinu dalam rentang bilangan real
Jenis Regresi:
Satu variabel independen
Beberapa variabel independen
Contoh Aplikasi:
- โข Prediksi harga rumah/saham
- โข Estimasi usia berdasarkan gambar
- โข Prediksi suhu/cuaca
โ๏ธ Perbandingan Klasifikasi vs Regresi
| Aspek | Klasifikasi | Regresi |
|---|---|---|
| Output | Kategori diskrit | Nilai kontinu |
| Contoh Output | "Spam", "Kucing", "Positif" | 150.5, 89.2, 1000000 |
| Metrik Evaluasi | Accuracy, Precision, Recall, F1 | MSE, RMSE, MAE, Rยฒ |
| Algoritma | Logistic Regression, Decision Tree | Linear Regression, SVR |
Cara Kerja Supervised Machine Learning
๐ฅ Mengumpulkan Data Berlabel (Collect Labeled Data)
Langkah pertama adalah mengumpulkan dataset yang memiliki pasangan input (fitur) dan output (label) yang sudah diketahui.
โ๏ธ Membagi Dataset (Split the Dataset)
Dataset dibagi menjadi beberapa bagian untuk proses training dan evaluasi.
๐๏ธ Melatih Model (Train the Model)
Model belajar pola dari training data dengan meminimalkan loss function (fungsi kesalahan).
ฮธ* = argmin L(f(X; ฮธ), Y)
Mencari parameter ฮธ yang meminimalkan fungsi loss L
โ Validasi dan Testing (Validate and Test)
Model dievaluasi menggunakan data yang tidak pernah dilihat selama training untuk mengukur kemampuan generalisasi.
๐ Deploy dan Prediksi (Deploy and Predict)
Setelah model mencapai performa yang memuaskan, model di-deploy untuk memprediksi data baru di dunia nyata.
Data Baru โ Model Terlatih โ Prediksi
๐ Diagram Alur Supervised Learning
Linear Regression
๐ Definisi
Linear Regression adalah algoritma supervised learning untuk memprediksi nilai kontinu dengan menemukan hubungan linear antara variabel independen (X) dan variabel dependen (Y). Algoritma ini mencari garis lurus terbaik yang meminimalkan jarak antara titik data dan garis prediksi.
๐ Rumus Linear Regression
Simple Linear Regression:
ลท = ฮฒโ + ฮฒโx
Multiple Linear Regression:
ลท = ฮฒโ + ฮฒโxโ + ฮฒโxโ + ... + ฮฒโxโ
๐ Cost Function (MSE)
MSE = (1/n) ฮฃ(yแตข - ลทแตข)ยฒ
Mean Squared Error mengukur rata-rata kuadrat selisih antara nilai aktual (y) dan prediksi (ลท)
๐ฎ Simulasi Interaktif Linear Regression
Persamaan Garis:
ลท = 10 + 1.5x
MSE (Error):
0.00
Logistic Regression
๐ Definisi
Logistic Regression adalah algoritma klasifikasi yang digunakan untuk memprediksi probabilitas suatu kejadian masuk ke dalam kategori tertentu. Meskipun namanya "regression", algoritma ini digunakan untuk klasifikasi biner (dua kelas).
๐ Fungsi Sigmoid
ฯ(z) = 1 / (1 + eโปแถป)
Fungsi sigmoid mengubah nilai apapun menjadi rentang [0, 1], cocok untuk probabilitas
๐ Model Logistic Regression
P(y=1|x) = ฯ(ฮฒโ + ฮฒโxโ + ... + ฮฒโxโ)
๐ฏ Binary Cross-Entropy Loss
L = -[yยทlog(p) + (1-y)ยทlog(1-p)]
Fungsi loss untuk mengukur kesalahan prediksi probabilitas
๐ฎ Simulasi Fungsi Sigmoid
Output Sigmoid ฯ(z):
0.500
Prediksi Kelas (threshold=0.5):
Decision Trees
๐ Definisi
Decision Tree (Pohon Keputusan) adalah algoritma supervised learning yang menggunakan struktur pohon untuk membuat keputusan. Setiap node internal mewakili "tes" pada atribut, setiap cabang mewakili hasil tes, dan setiap node daun mewakili label kelas atau nilai prediksi.
๐ Entropy (Ukuran Ketidakpastian)
H(S) = -ฮฃ pแตข ยท logโ(pแตข)
Entropy mengukur tingkat "ketidakteraturan" dalam dataset. Nilai 0 = homogen, nilai tinggi = heterogen
๐ Information Gain
IG(S, A) = H(S) - ฮฃ (|Sแตฅ|/|S|) ยท H(Sแตฅ)
Information Gain mengukur pengurangan entropy setelah split berdasarkan atribut A
๐ฏ Gini Impurity
Gini(S) = 1 - ฮฃ pแตขยฒ
Alternatif dari Entropy, mengukur probabilitas kesalahan klasifikasi acak
๐ฎ Simulasi Decision Tree - Klasifikasi Cuaca
Pilih kondisi untuk memprediksi apakah akan bermain tenis:
Klik tombol di atas untuk melihat prediksi
Visualisasi Pohon Keputusan
Random Forests
๐ Definisi
Random Forest adalah algoritma ensemble learning yang menggabungkan banyak Decision Tree untuk menghasilkan prediksi yang lebih akurat dan stabil. Setiap pohon dilatih pada subset data yang berbeda (bagging) dan subset fitur yang acak.
๐ Konsep Dasar
Prediksi Klasifikasi (Majority Voting):
ลท = mode(Tโ(x), Tโ(x), ..., Tโ(x))
Prediksi Regresi (Averaging):
ลท = (1/n) ฮฃ Tแตข(x)
๐ฒ Bootstrap Aggregating (Bagging)
Setiap pohon dilatih pada sampel acak dengan pengembalian dari dataset asli
๐ฏ Feature Randomness
Setiap split hanya mempertimbangkan subset acak dari fitur (โn untuk klasifikasi)
โ Kelebihan
Mengurangi overfitting, robust terhadap outlier, dapat menangani data besar
โ ๏ธ Kekurangan
Lebih lambat dari single tree, kurang interpretable, membutuhkan lebih banyak memori
๐ฎ Simulasi Random Forest Voting
Klik tombol di atas untuk melihat voting dari setiap pohon
Gradient Boosting
๐ Definisi
Gradient Boosting adalah teknik ensemble learning yang membangun model secara bertahap (sequential). Setiap model baru dilatih untuk memperbaiki kesalahan (residual) dari model sebelumnya dengan menggunakan gradient descent untuk meminimalkan loss function.
๐ Algoritma Gradient Boosting
1. Inisialisasi:
Fโ(x) = argmin_ฮณ ฮฃ L(yแตข, ฮณ)
2. Untuk m = 1 sampai M, hitung residual:
rแตขโ = -[โL(yแตข, F(xแตข))/โF(xแตข)]
3. Update model:
Fโ(x) = Fโโโ(x) + ฮท ยท hโ(x)
ฮท = learning rate, hโ = weak learner ke-m
XGBoost
Extreme Gradient Boosting - optimized
LightGBM
Light Gradient Boosting - faster
CatBoost
Categorical Boosting - handles categories
๐ฎ Simulasi Gradient Boosting Iteratif
Total Error (MSE):
1.000
Pengurangan Error:
0%
๐ก Tip: Perhatikan bagaimana error berkurang seiring bertambahnya iterasi. Learning rate yang lebih kecil = konvergensi lebih lambat tapi lebih stabil.
Prediksi Penyakit Parkinson
๐งฌ Tentang Penyakit Parkinson
Penyakit Parkinson adalah gangguan neurologis progresif yang mempengaruhi sistem saraf dan bagian tubuh yang dikendalikan oleh saraf. Gejala dimulai secara perlahan, dengan tremor yang hampir tidak terlihat di satu tangan dan berlanjut dengan kekakuan atau perlambatan gerakan.
๐ Fitur yang Digunakan (Voice Features)
Analisis suara dapat mendeteksi Parkinson karena penyakit ini mempengaruhi otot yang mengontrol bicara:
Frekuensi fundamental rata-rata
Variasi frekuensi
Variasi amplitudo
Harmonic-to-Noise Ratio
Recurrence Period Density Entropy
Detrended Fluctuation Analysis
๐ฎ Simulasi Prediksi Parkinson
Masukkan nilai fitur suara untuk memprediksi kemungkinan Parkinson:
Klik tombol di atas untuk melihat hasil prediksi
โ ๏ธ Disclaimer: Simulasi ini hanya untuk tujuan edukasi dan tidak dapat digunakan untuk diagnosis medis yang sebenarnya. Konsultasikan dengan dokter untuk diagnosis yang akurat.
๐ Sumber Data & Referensi
โข UCI Machine Learning Repository: Parkinsons Data Set
โข Little MA, et al. (2009). Suitability of dysphonia measurements for telemonitoring of Parkinson's disease. IEEE Trans Biomed Eng.
โข National Institute of Neurological Disorders and Stroke (NINDS)