Regresi linier ganda (multiple linear regression) adalah sebuah teknik statistik yang digunakan untuk memodelkan hubungan antara satu variabel dependen (yang ingin diprediksi) dengan dua atau lebih variabel independen (yang menjadi penjelas). Model ini memperluas konsep regresi linier sederhana yang hanya melibatkan satu variabel independen, sehingga memungkinkan analisis yang lebih realistis pada fenomena yang dipengaruhi oleh banyak faktor.
Model regresi linier ganda dapat dituliskan dalam bentuk persamaan:
Y = + X + X + + X +
Agar hasil estimasi valid, regresi linier ganda mengandalkan beberapa asumsi:
Koefisien dihitung dengan metode ordinary least squares (OLS) yang meminimalkan jumlah kuadrat residual:
min (Y )
Dalam notasi matriks:
= (XX) XY
dimana X adalah matriks desain yang berisi kolom satuan (untuk intercept) dan nilainilai predictor.
Uji signifikan (ttest) biasanya dipakai untuk menilai apakah setiap berbeda secara statistik dari nol.
Beberapa ukuran yang umum dipakai:
| Ukuran | Deskripsi |
|---|---|
| R (koefisien determinasi) | Proporsi variansi Y yang dapat dijelaskan oleh kumpulan predictor. |
| Adjusted R | R yang telah dikoreksi untuk jumlah predictor; berguna bila menambah variabel. |
| RMSE (Root Mean Square Error) | Ukuran ratarata galat prediksi dalam satuan asli Y. |
| AIC / BIC | Kriteria informasi yang menyeimbangkan kecocokan model dan kompleksitas. |
Plot residual vs. fitted values membantu memeriksa heteroskedastisitas. Plot QQ residual memeriksa normalitas.
Misalkan sebuah perusahaan ingin memprediksi penjualan (Y) berdasarkan iklan TV (X), iklan radio (X), dan anggaran online (X). Data sampel 50 minggu dikumpulkan, kemudian dilakukan regresi linier ganda. Hasil estimasi:
Y = 2.5 + 0.045TV + 0.030Radio + 0.012Online
Interpretasi: Setiap peningkatan 1 juta rupiah untuk iklan TV diperkirakan menambah penjualan sebesar 0.045 unit, dengan asumsi iklan radio dan online tetap.
Python (statsmodels):
import statsmodels.api as smX = df[['TV','Radio','Online']]X = sm.add_constant(X) # menambah interceptmodel = sm.OLS(df['Sales'], X).fit()print(model.summary())
R:
model <- lm(Sales ~ TV + Radio + Online, data = df)summary(model)
Regresi linier ganda merupakan alat penting dalam analisis data karena memungkinkan pemodelan simultan dari beberapa faktor pengaruh. Dengan memahami asumsi, cara mengestimasi koefisien, serta teknik diagnostik seperti pengecekan multikolinearitas dan analisis residual, pengguna dapat membangun model yang akurat dan dapat diinterpretasikan. Kombinasi antara pengetahuan statistik dan implementasi praktis (misalnya dengan Python atau R) menjadikan regresi linier ganda pilihan pertama untuk banyak permasalahan prediktif di bidang ekonomi, kesehatan, teknik, dan ilmu sosial.
