Linear Regression & Contoh Implementasinya pada Machine Learning

Linear Regression & Contoh Implementasinya pada Machine Learning

(oleh: Maria Ulfah, M.A, & Waode Sitti Aisyah) 

Sebelum kita bicara jauh tentang linear regression & Machine Learning, mari kita pahami terlebih dahulu apa itu “regression” (regresi)? regresi merupakan salah satu metode dalam ilmu statistik yang sering digunakan dalam pengkajian ilmu ekonomi, keuangan, bisnis, dan disiplin ilmu lainnya. Tujuan dari regresi yaitu untuk menentukan seberapa kuat hubungan antara dependen variabel (Y-variable) dan independen variabel (X-variable).

Terdapat dua cabang utama dari metode regression, yaitu: simple/univariate linear regression dan multiple/multivariate linear regression. Pada simple linear regression hanya terdapat satu X-variabel yang digunakan untuk memprediksi satu Y-variabel, contohnya, memprediksi hasil penjualan es krim (Y-variable) berdasarkan tinggi rendahnya temperatur suhu udara (X-variable). 

Sedangkan, pada multiple linear regression, dibutuhkan lebih dari satu X-variabel yang digunakan untuk mengkaji atau memprediksi sesuatu hal (Y-variable). Contohnya, memprediksi harga rumah (Y-variabel) berdasarkan beberapa fitur tertentu misalnya berdasarkan luas, lokasi, arsitektur bangunan, dan fasilitas penunjang lainnya (multiple Y-variabel). 

Dalam ilmu statistik, kita dapat menggunakan rumus di bawah ini untuk menghitung Model Regresi berdasarkan tipenya:

  • Simple/univariate linear regression: Y = A + BX + ϵ 
  • Multiple/multivariate linear regression: Y = A + B1X1 + B2X2 + B3X3 + … + BtXt + ϵ 

Keterangan: 

  • Y = variabel yang ingin diprediksi (dependent variable).
  • X = variabel yang digunakan untuk memprediksi Y (independent variable). 
  • A = intercept. Yaitu nilai rata-rata pada variabel Y apabila nilai pada variabel X bernilai 0.
  • B = Slope. Yaitu nilai seberapa besar kontribusi yang diberikan oleh variabel X terhadap variabel Y.
  • ϵ = error / residuals. Yaitu selisih antara nilai duga (Predictive value dinotasikan sebagai ) dengan nilai pengamatan sebenarnya (Y). Intinya error adalah semua hal yang mungkin mempengaruhi variabel Y tapi tidak diamati oleh peneliti.

Dalam dunia Machine Learning, Y-variabel sering juga disebut sebagai “features” dan X-variabel disebut sebagai “target”. 

Rumus di atas terlihat sangat kompleks jika kalian mencoba menghitung linear regression menggunakan rumus statistik secara manual. Namun, tentu saja kalian akan sangat dipermudah jika melakukannya dengan coding dan Machine Learning modeling. Salah satu contohnya ada pada figure di bawah ini:

Pada contoh diatas, kalian dapat menggunakan Machine Learning model “LinearRegression” yang tersedia pada Python library Scikit-learn untuk mencari hubungan antara X dan Y variabel, baik itu pada simple ataupun multiple linear regression. Setelah itu kalian pun dapat langsung mengukur  tingkat kebaikan model regresi yang diperoleh, salah satunya dengan menggunakan metode r2_score (R Squared). 

R2 memiliki nilai antara 0 dan 1. Semakin nilai R2 mendekati angka 1, menggambarkan semakin baik pula model regresi tersebut, dan sebaliknya, semakin mendekati 0 semakin buruk model regresi tersebut. Untuk mendapatkan score R2 dengan Python, kalian cukup menggunakan fungsi r2_score(). Namun bagaimana jadinya jika kalian harus menghitungnya secara manual seperti rumus di bawah ini? sangat rumit bukan?

Maka dari itu, di dunia dengan jutaan sumber data yang melimpah, menghitung nilai statistik tidak lagi masuk akal jika dilakukan secara manual. Penting bagi kalian untuk mempelajari programming & data science, termasuk Machine Learning di dalamnya, yang akan sangat mempermudah pekerjaan kalian.

Tunggu apalagi? jika kalian ingin mempelajari lebih banyak mengenai linear regression & berbagai metode statistik lainnya dengan menggunakan Machine Learning Modeling, kalian bisa mengikuti kelas Data Science II Academy di DTSense. Dimana kalian akan belajar secara intensif mengenai berbagai macam algoritma Machine Learning. 

Silahkan kunjungi halaman berikut untuk informasi lebih lengkap mengenai program Data Science II Academy: http://dtsense.id/academy/data-science-ii-academy/  

References:

https://www.investopedia.com/terms/r/regression.asp
https://towardsdatascience.com/introduction-to-machine-learning-algorithms-linear-regression-14c4e325882a