Pembelajaran Supervised Machine Learning

🧠

Pembelajaran Interaktif

Supervised Machine Learning

Pelajari konsep Machine Learning terawasi secara lengkap dengan simulasi interaktif dan contoh nyata

💡 Klik materi untuk memulai pembelajaran

📚

Materi 1

Pengenalan Supervised Machine Learning

📖 Definisi

Supervised Machine Learning (Pembelajaran Mesin Terawasi) adalah cabang dari Machine Learning di mana model dilatih menggunakan data berlabel (labeled data). Dalam pendekatan ini, algoritma belajar dari pasangan input-output yang sudah diketahui untuk memprediksi output dari data baru yang belum pernah dilihat sebelumnya.

🎯 Konsep Dasar

Model mempelajari fungsi pemetaan:

f : X → Y

Di mana X adalah input (fitur) dan Y adalah output (label/target)

🔑 Karakteristik Utama

Data Berlabel

Setiap data training memiliki pasangan input dan output yang sudah diketahui (contoh: gambar kucing dengan label "kucing")

Pembelajaran Terarah

Model "diawasi" oleh label yang benar selama proses training untuk meminimalkan kesalahan prediksi

Prediksi Output

Tujuannya adalah memprediksi output untuk data baru berdasarkan pola yang dipelajari

Evaluasi Terukur

Performa dapat diukur dengan membandingkan prediksi dengan nilai sebenarnya

📊 Contoh Aplikasi

• Deteksi Spam Email: Model belajar dari email berlabel (spam/bukan spam) untuk mengklasifikasi email baru
• Prediksi Harga Rumah: Model belajar dari data rumah (luas, lokasi, dll) dan harganya untuk memprediksi harga rumah baru
• Diagnosis Medis: Model belajar dari data pasien dan diagnosisnya untuk membantu mendeteksi penyakit

💡 Sumber Referensi

Mitchell, T. M. (1997). Machine Learning. McGraw-Hill.
Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O'Reilly.

🎯

Materi 2

Jenis Supervised Learning: Klasifikasi & Regresi

🏷️ KLASIFIKASI (Classification)

Klasifikasi adalah tugas memprediksi kategori atau kelas diskrit dari suatu data. Output berupa label kategorikal yang sudah ditentukan sebelumnya.

📐 Fungsi Klasifikasi

f(x) → {C₁, C₂, ..., Cₖ}

Output adalah salah satu dari k kelas yang mungkin

Jenis Klasifikasi:

Binary Classification

Dua kelas (Ya/Tidak, Spam/Bukan Spam)

Multi-class Classification

Lebih dari dua kelas (Jenis Buah, Digit 0-9)

Contoh Aplikasi:

• Deteksi penyakit (Positif/Negatif)
• Pengenalan gambar (Kucing/Anjing/Burung)
• Analisis sentimen (Positif/Negatif/Netral)

📈 REGRESI (Regression)

Regresi adalah tugas memprediksi nilai numerik kontinu. Output berupa angka dalam rentang tak terbatas.

📐 Fungsi Regresi

f(x) → ℝ (bilangan real)

Output adalah nilai kontinu dalam rentang bilangan real

Jenis Regresi:

Simple Regression

Satu variabel independen

Multiple Regression

Beberapa variabel independen

Contoh Aplikasi:

• Prediksi harga rumah/saham
• Estimasi usia berdasarkan gambar
• Prediksi suhu/cuaca

⚖️ Perbandingan Klasifikasi vs Regresi

Aspek	Klasifikasi	Regresi
Output	Kategori diskrit	Nilai kontinu
Contoh Output	"Spam", "Kucing", "Positif"	150.5, 89.2, 1000000
Metrik Evaluasi	Accuracy, Precision, Recall, F1	MSE, RMSE, MAE, R²
Algoritma	Logistic Regression, Decision Tree	Linear Regression, SVR

⚙️

Materi 3

Cara Kerja Supervised Machine Learning

1

📥 Mengumpulkan Data Berlabel (Collect Labeled Data)

Langkah pertama adalah mengumpulkan dataset yang memiliki pasangan input (fitur) dan output (label) yang sudah diketahui.

Contoh: Dataset email dengan 10.000 email yang sudah dilabeli sebagai "spam" atau "bukan spam"

2

✂️ Membagi Dataset (Split the Dataset)

Dataset dibagi menjadi beberapa bagian untuk proses training dan evaluasi.

70%

Training Set

15%

Validation Set

15%

Test Set

3

🏋️ Melatih Model (Train the Model)

Model belajar pola dari training data dengan meminimalkan loss function (fungsi kesalahan).

θ* = argmin L(f(X; θ), Y)

Mencari parameter θ yang meminimalkan fungsi loss L

4

✅ Validasi dan Testing (Validate and Test)

Model dievaluasi menggunakan data yang tidak pernah dilihat selama training untuk mengukur kemampuan generalisasi.

Validasi: Tuning hyperparameter

Testing: Evaluasi performa final

5

🚀 Deploy dan Prediksi (Deploy and Predict)

Setelah model mencapai performa yang memuaskan, model di-deploy untuk memprediksi data baru di dunia nyata.

Data Baru → Model Terlatih → Prediksi

📊 Diagram Alur Supervised Learning

Data Berlabel

→

Split Data

→

Training

→

Validasi

→

Deploy

📈

Materi 4

Linear Regression

📖 Definisi

Linear Regression adalah algoritma supervised learning untuk memprediksi nilai kontinu dengan menemukan hubungan linear antara variabel independen (X) dan variabel dependen (Y). Algoritma ini mencari garis lurus terbaik yang meminimalkan jarak antara titik data dan garis prediksi.

📐 Rumus Linear Regression

Simple Linear Regression:

ŷ = β₀ + β₁x

Multiple Linear Regression:

ŷ = β₀ + β₁x₁ + β₂x₂ + ... + βₙxₙ

β₀ (Intercept): Nilai Y saat X = 0

β₁ (Slope): Perubahan Y untuk setiap unit X

📊 Cost Function (MSE)

MSE = (1/n) Σ(yᵢ - ŷᵢ)²

Mean Squared Error mengukur rata-rata kuadrat selisih antara nilai aktual (y) dan prediksi (ŷ)

🎮 Simulasi Interaktif Linear Regression

Slope (β₁): 1.5

Intercept (β₀): 10

Persamaan Garis:

ŷ = 10 + 1.5x

MSE (Error):

0.00

🔄

Materi 5

Logistic Regression

📖 Definisi

Logistic Regression adalah algoritma klasifikasi yang digunakan untuk memprediksi probabilitas suatu kejadian masuk ke dalam kategori tertentu. Meskipun namanya "regression", algoritma ini digunakan untuk klasifikasi biner (dua kelas).

📐 Fungsi Sigmoid

σ(z) = 1 / (1 + e⁻ᶻ)

Fungsi sigmoid mengubah nilai apapun menjadi rentang [0, 1], cocok untuk probabilitas

📊 Model Logistic Regression

P(y=1|x) = σ(β₀ + β₁x₁ + ... + βₙxₙ)

P(y=1|x): Probabilitas kelas positif

Threshold: Biasanya 0.5 untuk keputusan

🎯 Binary Cross-Entropy Loss

L = -[y·log(p) + (1-y)·log(1-p)]

Fungsi loss untuk mengukur kesalahan prediksi probabilitas

🎮 Simulasi Fungsi Sigmoid

Nilai Input (z): 0

Output Sigmoid σ(z):

0.500

Prediksi Kelas (threshold=0.5):

Kelas 0 dan Kelas 1 (50%-50%)

Kelas 0

50%

Kelas 1

50%

🌳

Materi 6

Decision Trees

📖 Definisi

Decision Tree (Pohon Keputusan) adalah algoritma supervised learning yang menggunakan struktur pohon untuk membuat keputusan. Setiap node internal mewakili "tes" pada atribut, setiap cabang mewakili hasil tes, dan setiap node daun mewakili label kelas atau nilai prediksi.

📐 Entropy (Ukuran Ketidakpastian)

H(S) = -Σ pᵢ · log₂(pᵢ)

Entropy mengukur tingkat "ketidakteraturan" dalam dataset. Nilai 0 = homogen, nilai tinggi = heterogen

📊 Information Gain

IG(S, A) = H(S) - Σ (|Sᵥ|/|S|) · H(Sᵥ)

Information Gain mengukur pengurangan entropy setelah split berdasarkan atribut A

🎯 Gini Impurity

Gini(S) = 1 - Σ pᵢ²

Alternatif dari Entropy, mengukur probabilitas kesalahan klasifikasi acak

🎮 Simulasi Decision Tree - Klasifikasi Cuaca

Pilih kondisi untuk memprediksi apakah akan bermain tenis:

Cuaca

Suhu

Kelembaban

Angin

Klik tombol di atas untuk melihat prediksi

Visualisasi Pohon Keputusan

Cuaca?

Cerah

Kelembaban?

Tinggi

❌ No

Normal

✅ Yes

Berawan

✅ Yes

Hujan

Angin?

Kencang

❌ No

Lemah

✅ Yes

🌲

Materi 7

Random Forests

📖 Definisi

Random Forest adalah algoritma ensemble learning yang menggabungkan banyak Decision Tree untuk menghasilkan prediksi yang lebih akurat dan stabil. Setiap pohon dilatih pada subset data yang berbeda (bagging) dan subset fitur yang acak.

📐 Konsep Dasar

Prediksi Klasifikasi (Majority Voting):

ŷ = mode(T₁(x), T₂(x), ..., Tₙ(x))

Prediksi Regresi (Averaging):

ŷ = (1/n) Σ Tᵢ(x)

🎲 Bootstrap Aggregating (Bagging)

Setiap pohon dilatih pada sampel acak dengan pengembalian dari dataset asli

🎯 Feature Randomness

Setiap split hanya mempertimbangkan subset acak dari fitur (√n untuk klasifikasi)

✅ Kelebihan

Mengurangi overfitting, robust terhadap outlier, dapat menangani data besar

⚠️ Kekurangan

Lebih lambat dari single tree, kurang interpretable, membutuhkan lebih banyak memori

🎮 Simulasi Random Forest Voting

Jumlah Pohon: 5

Klik tombol di atas untuk melihat voting dari setiap pohon

🚀

Materi 8

Gradient Boosting

📖 Definisi

Gradient Boosting adalah teknik ensemble learning yang membangun model secara bertahap (sequential). Setiap model baru dilatih untuk memperbaiki kesalahan (residual) dari model sebelumnya dengan menggunakan gradient descent untuk meminimalkan loss function.

📐 Algoritma Gradient Boosting

1. Inisialisasi:

F₀(x) = argmin_γ Σ L(yᵢ, γ)

2. Untuk m = 1 sampai M, hitung residual:

rᵢₘ = -[∂L(yᵢ, F(xᵢ))/∂F(xᵢ)]

3. Update model:

Fₘ(x) = Fₘ₋₁(x) + η · hₘ(x)

η = learning rate, hₘ = weak learner ke-m

📊

XGBoost

Extreme Gradient Boosting - optimized

💡

LightGBM

Light Gradient Boosting - faster

🐱

CatBoost

Categorical Boosting - handles categories

🎮 Simulasi Gradient Boosting Iteratif

Iterasi: 1

Learning Rate (η): 0.3

Total Error (MSE):

1.000

Pengurangan Error:

0%

💡 Tip: Perhatikan bagaimana error berkurang seiring bertambahnya iterasi. Learning rate yang lebih kecil = konvergensi lebih lambat tapi lebih stabil.

🏥

Materi 9 - Studi Kasus

Prediksi Penyakit Parkinson

🧬 Tentang Penyakit Parkinson

Penyakit Parkinson adalah gangguan neurologis progresif yang mempengaruhi sistem saraf dan bagian tubuh yang dikendalikan oleh saraf. Gejala dimulai secara perlahan, dengan tremor yang hampir tidak terlihat di satu tangan dan berlanjut dengan kekakuan atau perlambatan gerakan.

📊 Fitur yang Digunakan (Voice Features)

Analisis suara dapat mendeteksi Parkinson karena penyakit ini mempengaruhi otot yang mengontrol bicara:

MDVP:Fo(Hz)

Frekuensi fundamental rata-rata

MDVP:Jitter(%)

Variasi frekuensi

MDVP:Shimmer

Variasi amplitudo

HNR

Harmonic-to-Noise Ratio

RPDE

Recurrence Period Density Entropy

DFA

Detrended Fluctuation Analysis

🎮 Simulasi Prediksi Parkinson

Masukkan nilai fitur suara untuk memprediksi kemungkinan Parkinson:

MDVP:Fo (Hz) - Frekuensi

MDVP:Jitter (%) - Variasi

MDVP:Shimmer - Amplitudo

HNR - Rasio Harmonik

RPDE - Entropy

DFA - Fluctuation

Klik tombol di atas untuk melihat hasil prediksi

⚠️ Disclaimer: Simulasi ini hanya untuk tujuan edukasi dan tidak dapat digunakan untuk diagnosis medis yang sebenarnya. Konsultasikan dengan dokter untuk diagnosis yang akurat.

📚 Sumber Data & Referensi

• UCI Machine Learning Repository: Parkinsons Data Set
• Little MA, et al. (2009). Suitability of dysphonia measurements for telemonitoring of Parkinson's disease. IEEE Trans Biomed Eng.
• National Institute of Neurological Disorders and Stroke (NINDS)