Regresi Linear adalah metode statistik yang digunakan untuk memodelkan hubungan linier antara dua atau lebih variabel. Dalam konteks regresi linear sederhana, kita memodelkan hubungan antara satu variabel independen (X) dan satu variabel dependen (Y) sebagai garis lurus. Rumus dasar regresi linear sederhana adalah:
- adalah variabel dependen,
- adalah variabel independen,
- 0 adalah intercept (nilai � ketika �=0),
- 1 adalah slope (kemiringan garis),
- adalah kesalahan acak.
Tujuan regresi linear adalah untuk menemukan nilai 0 dan 1 yang menghasilkan model terbaik yang sesuai dengan data observasional. Model ini kemudian dapat digunakan untuk membuat prediksi pada data baru.
Contoh Prediksi dengan Pandas
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
DataFrame Pandas
df = pd.read_csv(‘data.csv’)
Variable
X = df[[‘independent_variable’]]
y = df[‘dependent_variable’]
Pelatihan dan Pengujian
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
Latih Model
model = LinearRegression()
model.fit(X_train, y_train)
Latih Prediksi
predictions = model.predict(X_test)
Evaluasi Model
from sklearn.metrics import r2_score
r_squared = r2_score(y_test, predictions)
print(f’R-squared: {r_squared}’)