Saya agak bingung tentang kapan Anda harus atau tidak harus menambahkan istilah polinomial ke model regresi linier berganda. Saya tahu polinomial digunakan untuk menangkap kelengkungan dalam data, tetapi sepertinya selalu dalam bentuk:
Bagaimana jika Anda tahu bahwa ada hubungan linear antara dan , tetapi hubungan non-linear antara y dan x_2 ? Bisakah Anda menggunakan model dalam bentuk:
Saya kira pertanyaan saya adalah, apakah valid untuk menghentikan istilah dan istilah , atau apakah Anda harus mengikuti bentuk generik model regresi polinomial?
Jawaban:
Selain jawaban yang sangat bagus @ mkt, saya pikir saya akan memberikan contoh khusus untuk Anda lihat sehingga Anda dapat mengembangkan beberapa intuisi.
Hasilkan Data untuk Contoh
Untuk contoh ini, saya membuat beberapa data menggunakan R sebagai berikut:
Seperti yang dapat Anda lihat di atas, data berasal dari model , di mana adalah istilah kesalahan acak yang didistribusikan secara normal dengan berarti dan varians tidak dikenal . Selanjutnya, , , dan , sementara .y=β0+β1∗x1+β2∗x2+β3∗x22+ϵ ϵ 0 σ2 β0=1 β1=10 β2=0.4 β3=0.8 σ=1
Visualisasikan Data yang Dihasilkan melalui Coplots
Dengan data yang disimulasikan pada variabel hasil y dan variabel prediktor x1 dan x2, kita dapat memvisualisasikan data ini menggunakan coplots :
Koplot yang dihasilkan ditunjukkan di bawah ini.
Coplot pertama menunjukkan scatterplots y versus x1 ketika x2 milik empat rentang nilai yang diamati (yang tumpang tindih) dan meningkatkan masing-masing plot scatter ini dengan fit yang mulus, mungkin non-linear yang bentuknya diperkirakan dari data.
Coplot kedua menunjukkan scatterplots y versus x2 ketika x1 milik empat rentang nilai yang diamati (yang tumpang tindih) dan meningkatkan masing-masing plot scatter ini dengan fit halus.
Coplot pertama menunjukkan bahwa masuk akal untuk menganggap bahwa x1 memiliki efek linier pada y ketika mengendalikan x2 dan bahwa efek ini tidak bergantung pada x2.
Coplot kedua menunjukkan bahwa masuk akal untuk menganggap bahwa x2 memiliki efek kuadratik pada y ketika mengendalikan x1 dan bahwa efek ini tidak bergantung pada x1.
Pasang Model yang Ditentukan dengan Benar
Coplots menyarankan untuk mencocokkan model berikut dengan data, yang memungkinkan untuk efek linear x1 dan efek kuadratik dari x2:
Bangun Komponen Sisa Komponen Plus untuk Model yang Ditentukan dengan Benar
Setelah model yang ditentukan dengan benar dipasang ke data, kita dapat memeriksa komponen ditambah plot residual untuk setiap prediktor yang termasuk dalam model:
Komponen ini ditambah plot residual ditunjukkan di bawah ini dan menunjukkan bahwa model tersebut ditentukan dengan benar karena tidak menunjukkan bukti nonlinier, dll. Memang, dalam masing-masing plot, tidak ada perbedaan yang jelas antara garis biru putus-putus yang menunjukkan efek linear dari prediktor yang sesuai, dan garis magenta padat menunjukkan efek non-linear dari prediktor dalam model.
Pas dengan Model yang Tidak Benar
Mari kita mainkan advokat iblis dan katakan bahwa model lm () kita sebenarnya tidak ditentukan dengan benar (mis. Salah spesifikasi), dalam arti bahwa ia menghilangkan istilah kuadratik I (x2 ^ 2):
Bangun Komponen Sisa Komponen Plus untuk Model yang Ditentukan Tidak Benar
Jika kita akan membangun komponen ditambah plot residual untuk model yang tidak ditentukan spesifikasi, kita akan segera melihat saran non-linearitas efek x2 dalam model yang salah ditentukan:
Dengan kata lain, seperti yang terlihat di bawah ini, model yang salah ditentukan gagal menangkap efek kuadrat dari x2 dan efek ini muncul di komponen ditambah plot sisa yang sesuai dengan prediktor x2 dalam model yang salah ditentukan.
Kesalahan spesifikasi efek x2 dalam model m. Ini juga akan terlihat jelas ketika memeriksa plot residu yang terkait dengan model ini terhadap masing-masing prediktor x1 dan x2:
Seperti yang terlihat di bawah ini, plot residu yang terkait dengan m.mis versus x2 menunjukkan pola kuadratik yang jelas, menunjukkan bahwa model m.m gagal menangkap pola sistematis ini.
Tambahkan Model yang Tidak Ditentukan dengan Benar
Untuk menentukan model m.mis dengan benar, kita perlu menambahkannya sehingga juga termasuk istilah I (x2 ^ 2):
Berikut adalah plot residual versus x1 dan x2 untuk model yang ditentukan dengan benar ini:
Perhatikan bahwa pola kuadrat yang sebelumnya terlihat dalam plot residual versus x2 untuk model mispecified m.m sekarang telah menghilang dari plot residual versus x2 untuk model m yang ditentukan dengan benar.
Perhatikan bahwa sumbu vertikal semua plot residual versus x1 dan x2 yang ditampilkan di sini harus dilabeli sebagai "Residual". Untuk beberapa alasan, R Studio memotong label itu.
sumber
Ya, apa yang Anda sarankan itu baik-baik saja. Ini benar-benar valid dalam model untuk memperlakukan respons terhadap satu prediktor sebagai linier dan yang berbeda sebagai polinomial. Ini juga sepenuhnya baik untuk menganggap tidak ada interaksi antara para prediktor.
sumber
Anda harus berhati-hati menggunakan polinomial Orthogonal jika Anda akan menambahkan istilah polinomial.
Mengapa? Tanpa mereka, Anda memiliki masalah menyerupai colinearity . Di wilayah tertentu, akan terlihat sangat mirip dengan , dan parabola akan melakukan pekerjaan yang layak untuk memasang garis lurus.x2 x
Mengamati:
Ini adalah polinomial .x,x2,x3
Antara 0 dan 1,5 ketiga kurva meningkat secara monoton dan sementara mereka kurva berbeda satu sama lain, mereka akan memberikan kualitas yang cocok ketika x berkorelasi positif dengan y. Dengan menggunakan ketiganya dalam kode Anda
Anda pada dasarnya menggunakan bentuk redundan agar sesuai dengan data Anda.
Polinomial ortogonal pada dasarnya memberi Anda ruang gerak tambahan ketika pas, dan setiap polinomial pada dasarnya tidak tergantung pada yang lain.
Tiga polinomial derajat 1,2 dan 3 dihasilkan oleh fungsi poli () di R.
Mungkin alih-alih secara eksplisit menganggapnya sebagai polinomial, Anda malah menganggapnya sebagai 'komponen tren' atau sesuatu:
Ada banyak matematika sulit yang terlibat dalam polinomial ortogonal, tetapi untungnya Anda hanya perlu tahu dua hal:
sumber
poly
karena jika Anda mencobapredict
dengan itu akan mereparasi polinomial pada sampel prediksi; yaitu kita mendapatkan sampah.Tidak ada aturan yang mengatakan Anda harus menggunakan semua variabel Anda. Jika Anda mencoba untuk memprediksi penghasilan, dan variabel fitur Anda adalah SSN, tahun sekolah, dan usia, dan Anda ingin menjatuhkan SSN karena Anda mengharapkan korelasi antara itu dan pendapatan menjadi palsu, itulah keputusan Anda untuk membuat keputusan. Model tidak valid hanya karena ada variabel lain yang secara teoritis bisa Anda sertakan, tetapi tidak. Memutuskan istilah polinomial apa yang akan dimasukkan hanyalah salah satu dari banyak keputusan mengenai pemilihan fitur.
Sementara model polinomial sering dimulai dengan semua istilah yang dimasukkan, itu hanya agar semuanya dapat dievaluasi berapa banyak mereka menambahkan ke model. Jika sepertinya istilah tertentu sebagian besar hanya overfitting, itu bisa dijatuhkan di iterasi model selanjutnya. Regularisasi, seperti regresi laso, dapat menjatuhkan variabel yang kurang bermanfaat secara otomatis. Secara umum, lebih baik untuk memulai suatu model yang memiliki terlalu banyak variabel, dan memotongnya menjadi yang paling berguna, daripada memulainya dengan hanya variabel yang Anda pikir harus bergantung pada model, dan mungkin kehilangan hubungan Anda. tidak mengharapkan.
sumber