Bagaimana seharusnya seseorang memutuskan antara menggunakan model regresi linier atau model regresi non-linear?
Tujuan saya adalah untuk memprediksi Y.
Dalam kasus dataset dan sederhana saya dapat dengan mudah memutuskan model regresi mana yang harus digunakan dengan memplot sebaran plot.
Dalam hal multi-varian seperti dan . Bagaimana saya bisa memutuskan model regresi mana yang harus digunakan? Yaitu, Bagaimana saya memutuskan untuk menggunakan model linier sederhana atau model non linier seperti kuadrat, kubik, dll.
Apakah ada teknik atau pendekatan statistik atau plot grafis untuk menyimpulkan dan memutuskan model regresi mana yang harus digunakan?
Jawaban:
Ini adalah bidang statistik yang disebut pemilihan model. Banyak penelitian dilakukan di bidang ini dan tidak ada jawaban yang pasti dan mudah.
Anggap Anda memiliki , dan dan Anda ingin tahu apakah Anda harus memasukkan istilah dalam model. Dalam situasi seperti ini, model Anda yang lebih pelit bersarang dalam model yang lebih rumit. Dengan kata lain, variabel , dan (model pelit) adalah subset dari variabel , dan (model kompleks). Dalam membangun model, Anda memiliki (setidaknya) salah satu dari dua tujuan utama berikut:X1,X2 X3 X23 X1,X2 X3 X1,X2,X3 X23
Jika tujuan Anda adalah nomor 1, maka saya merekomendasikan Tes Rasio Kemungkinan (LRT). LRT digunakan ketika Anda memiliki model bersarang dan Anda ingin tahu "apakah data secara signifikan lebih mungkin berasal dari model kompleks daripada model parsimoni?". Ini akan memberi Anda wawasan tentang model mana yang lebih baik menjelaskan hubungan antara data Anda.
Jika tujuan Anda adalah nomor 2, maka saya merekomendasikan beberapa jenis teknik cross-validation (CV) ( -fold CV, CV keluar-keluar, CV pelatihan-tes) tergantung pada ukuran data Anda. Singkatnya, metode ini membangun model pada subset data Anda dan memprediksi hasilnya pada data yang tersisa. Pilih model yang melakukan pekerjaan terbaik memprediksi data yang tersisa.k
sumber
Ketika saya mencari "model linearn atau non-linear untuk regresi", saya mendapatkan beberapa tautan yang mengarah ke buku ini: http://www.graphpad.com/manuals/prism4/RegressionBook.pdf Buku ini tidak menarik, dan saya tidak percaya pada 100% (untuk beberapa alasan).
Saya juga menemukan artikel ini: http://hunch.net/?p=524 dengan judul: Hampir semua masalah alami memerlukan nonlinier
Saya juga menemukan pertanyaan serupa dengan penjelasan yang cukup bagus: /programming/1148513/difference-between-a-linear-problem-and-a-non-linear-problem-essence-of-dot-pro
Berdasarkan pengalaman saya, ketika Anda tidak tahu model mana yang digunakan, gunakan keduanya dan coba fitur lain.
sumber
Seperti yang Anda nyatakan, model linear biasanya lebih sederhana daripada model non-linear, yang berarti mereka berjalan lebih cepat (membangun dan memprediksi), lebih mudah untuk ditafsirkan dan dijelaskan, dan biasanya langsung dalam pengukuran kesalahan. Jadi tujuannya adalah untuk mengetahui apakah asumsi regresi linier sesuai dengan data Anda (jika Anda gagal mendukung linear, maka gunakan saja non-linear). Biasanya Anda akan mengulang plot tunggal variabel Anda dengan semua variabel secara individual, memegang semua variabel lain konstan.
Mungkin yang lebih penting, Anda ingin tahu apakah Anda dapat menerapkan semacam transformasi, interaksi variabel, atau variabel dummy untuk memindahkan data Anda ke ruang linear. Jika Anda dapat memvalidasi asumsi, atau jika Anda tahu data Anda cukup baik untuk menerapkan transformasi atau modifikasi yang bermotivasi informasi atau cerdas, maka Anda ingin melanjutkan dengan transformasi itu dan menggunakan regresi linier. Setelah Anda memiliki residu, Anda dapat memplotnya terhadap nilai yang diprediksi atau variabel independen untuk memutuskan lebih lanjut apakah Anda perlu beralih ke metode non-linear.
Ada gangguan yang sangat baik dari asumsi regresi linier di sini di Duke . Keempat asumsi utama terdaftar, dan masing-masing dipecah menjadi efek pada model, cara mendiagnosisnya dalam data, dan cara potensial untuk "memperbaiki" (yaitu mengubah atau menambah) data untuk membuat asumsi tetap berlaku. Berikut adalah kutipan kecil dari atas yang merangkum keempat asumsi yang dibahas, tetapi Anda harus pergi ke sana dan membaca rinciannya.
sumber