Memutuskan antara model regresi linier atau model regresi non-linear

10

Bagaimana seharusnya seseorang memutuskan antara menggunakan model regresi linier atau model regresi non-linear?

Tujuan saya adalah untuk memprediksi Y.

Dalam kasus dataset dan sederhana saya dapat dengan mudah memutuskan model regresi mana yang harus digunakan dengan memplot sebaran plot.xy

Dalam hal multi-varian seperti dan . Bagaimana saya bisa memutuskan model regresi mana yang harus digunakan? Yaitu, Bagaimana saya memutuskan untuk menggunakan model linier sederhana atau model non linier seperti kuadrat, kubik, dll.x1,x2,...xny

Apakah ada teknik atau pendekatan statistik atau plot grafis untuk menyimpulkan dan memutuskan model regresi mana yang harus digunakan?

shakthydoss
sumber
"Model non-linear" adalah kategori yang cukup luas. Apakah Anda memiliki satu dalam pikiran? Apa tujuan analisis Anda?
shadowtalker
Ini tergantung pada tujuan Anda. Apakah Anda membuat model prediksi / perkiraan?
Aksakal
Prediksi adalah tujuan saya.
shakthydoss
1
Jika Anda mencari sesuatu seperti pendekatan "plot data" tetapi untuk beberapa prediktor, ada plot variabel tambahan yang dapat bernilai. Tetapi jika tujuan Anda adalah prediksi, masalahnya adalah Anda memilih apa yang akan git berdasarkan melihat data, sehingga akan terlihat jauh lebih baik pada data yang Anda miliki daripada pada data lain (dan ada beberapa masalah lain yang datang dengan pendekatan pemilihan model) - untuk mengevaluasi dengan benar dari kemampuan prediksi sampel Anda perlu menilai hal-hal pada sampel ketidaksepakatan / mempertimbangkan sesuatu seperti validasi silang.
Glen_b -Reinstate Monica
1
Anda mungkin menemukan diskusi terkait yang bermanfaat yang telah saya mulai beberapa waktu lalu.
Aleksandr Blekh

Jawaban:

10

Ini adalah bidang statistik yang disebut pemilihan model. Banyak penelitian dilakukan di bidang ini dan tidak ada jawaban yang pasti dan mudah.

Anggap Anda memiliki , dan dan Anda ingin tahu apakah Anda harus memasukkan istilah dalam model. Dalam situasi seperti ini, model Anda yang lebih pelit bersarang dalam model yang lebih rumit. Dengan kata lain, variabel , dan (model pelit) adalah subset dari variabel , dan (model kompleks). Dalam membangun model, Anda memiliki (setidaknya) salah satu dari dua tujuan utama berikut:X1,X2X3X32X1,X2X3X1,X2,X3X32

  1. Menjelaskan data: Anda mencoba untuk memahami bagaimana beberapa set variabel mempengaruhi variabel respon atau Anda tertarik pada bagaimana efek sementara mengontrol efek dariX1YX2,...Xp
  2. Predict : Anda ingin memprediksi secara akurat , tanpa peduli apa atau berapa banyak variabel dalam model AndaYY

Jika tujuan Anda adalah nomor 1, maka saya merekomendasikan Tes Rasio Kemungkinan (LRT). LRT digunakan ketika Anda memiliki model bersarang dan Anda ingin tahu "apakah data secara signifikan lebih mungkin berasal dari model kompleks daripada model parsimoni?". Ini akan memberi Anda wawasan tentang model mana yang lebih baik menjelaskan hubungan antara data Anda.

Jika tujuan Anda adalah nomor 2, maka saya merekomendasikan beberapa jenis teknik cross-validation (CV) ( -fold CV, CV keluar-keluar, CV pelatihan-tes) tergantung pada ukuran data Anda. Singkatnya, metode ini membangun model pada subset data Anda dan memprediksi hasilnya pada data yang tersisa. Pilih model yang melakukan pekerjaan terbaik memprediksi data yang tersisa.k

TrynnaDoStat
sumber
Tolong, Bisakah Anda membuat / menjelaskan perbedaan antara sasaran (1) dan (2) lebih jelas? Saat ini tidak ada banyak perbedaan.
ttnphns
@ttnphns Saya menambahkan deskripsi singkat tentang dua gol.
TrynnaDoStat
@TrynnaDoStat Hanya bingung di sini oleh pernyataan Pilih model yang melakukan prediksi pekerjaan terbaik. Dengan model terbaik yang Anda maksudkan untuk memilih antara model linier (pelit) dan model kompleks .... kan? Karena yang saya tahu adalah k-fold, CV cuti-keluar digunakan untuk memeriksa kinerja model pada data yang tidak terlihat. Mereka tidak digunakan untuk pemilihan model. Saya bingung di sini.
tushaR
1

Ketika saya mencari "model linearn atau non-linear untuk regresi", saya mendapatkan beberapa tautan yang mengarah ke buku ini: http://www.graphpad.com/manuals/prism4/RegressionBook.pdf Buku ini tidak menarik, dan saya tidak percaya pada 100% (untuk beberapa alasan).

Saya juga menemukan artikel ini: http://hunch.net/?p=524 dengan judul: Hampir semua masalah alami memerlukan nonlinier

Saya juga menemukan pertanyaan serupa dengan penjelasan yang cukup bagus: /programming/1148513/difference-between-a-linear-problem-and-a-non-linear-problem-essence-of-dot-pro

Berdasarkan pengalaman saya, ketika Anda tidak tahu model mana yang digunakan, gunakan keduanya dan coba fitur lain.

404pio
sumber
0

Seperti yang Anda nyatakan, model linear biasanya lebih sederhana daripada model non-linear, yang berarti mereka berjalan lebih cepat (membangun dan memprediksi), lebih mudah untuk ditafsirkan dan dijelaskan, dan biasanya langsung dalam pengukuran kesalahan. Jadi tujuannya adalah untuk mengetahui apakah asumsi regresi linier sesuai dengan data Anda (jika Anda gagal mendukung linear, maka gunakan saja non-linear). Biasanya Anda akan mengulang plot tunggal variabel Anda dengan semua variabel secara individual, memegang semua variabel lain konstan.

Mungkin yang lebih penting, Anda ingin tahu apakah Anda dapat menerapkan semacam transformasi, interaksi variabel, atau variabel dummy untuk memindahkan data Anda ke ruang linear. Jika Anda dapat memvalidasi asumsi, atau jika Anda tahu data Anda cukup baik untuk menerapkan transformasi atau modifikasi yang bermotivasi informasi atau cerdas, maka Anda ingin melanjutkan dengan transformasi itu dan menggunakan regresi linier. Setelah Anda memiliki residu, Anda dapat memplotnya terhadap nilai yang diprediksi atau variabel independen untuk memutuskan lebih lanjut apakah Anda perlu beralih ke metode non-linear.

Ada gangguan yang sangat baik dari asumsi regresi linier di sini di Duke . Keempat asumsi utama terdaftar, dan masing-masing dipecah menjadi efek pada model, cara mendiagnosisnya dalam data, dan cara potensial untuk "memperbaiki" (yaitu mengubah atau menambah) data untuk membuat asumsi tetap berlaku. Berikut adalah kutipan kecil dari atas yang merangkum keempat asumsi yang dibahas, tetapi Anda harus pergi ke sana dan membaca rinciannya.

Ada empat asumsi utama yang membenarkan penggunaan model regresi linier untuk tujuan inferensi atau prediksi:

(i) linearitas dan aditivitas hubungan antara variabel dependen dan independen:

(A) Nilai yang diharapkan dari variabel dependen adalah fungsi garis lurus dari masing-masing variabel independen, memegang yang lain tetap.

(B) Kemiringan garis itu tidak tergantung pada nilai-nilai variabel lain.

(c) Efek dari variabel independen yang berbeda pada nilai yang diharapkan dari variabel dependen adalah aditif.

(ii) kemandirian statistik kesalahan (khususnya, tidak ada korelasi antara> kesalahan berurutan dalam kasus data deret waktu)

(iii) homoscedasticity (varian konstan) dari kesalahan

(a) versus waktu (dalam hal data deret waktu)

(B) versus prediksi

(c) versus variabel independen apa pun

(iv) normalitas distribusi kesalahan.

wwwslinger
sumber