Memilih model regresi

8

Bagaimana seseorang dapat secara objektif (membaca "algoritmik") memilih model yang tepat untuk melakukan regresi linear kuadrat-sederhana dengan dua variabel?

Sebagai contoh, katakanlah data tampaknya menunjukkan tren kuadratik, dan parabola dihasilkan yang cocok dengan data dengan cukup baik. Bagaimana kita membenarkan membuat regresi ini? Atau bagaimana kita menghilangkan kemungkinan ada model yang lebih baik?

Yang saya benar-benar khawatirkan adalah ini: kita bisa terus menambahkan istilah polinomial sampai kita memiliki kesesuaian yang sempurna untuk kumpulan data (sebuah interpolasi poin), tanpa kesalahan sama sekali. Tapi ini akan sia-sia sejauh memprediksi atau memperkirakan, karena tidak akan ada alasan untuk berpikir bahwa "model" itu sebenarnya sesuai. Jadi bagaimana seseorang menyeimbangkan kebutuhan akurasi dan daya tarik intuitif?

(Juga, tolong beri tahu saya jika ini telah ditanyakan sebelumnya, saya berasumsi itu akan tetapi tidak menemukan apa-apa.)

Glen_b -Reinstate Monica
sumber
1
Pertanyaan itu sendiri benar-benar memunculkan pertanyaan yang perlu Anda tanyakan pada diri sendiri mengapa saya membangun model regresi ini? Untuk apa Anda menggunakan model ini? Apa yang Anda harapkan dari model ini? Ini adalah pertanyaan besar yang pasti akan memandu langkah yang Anda ambil dalam membangun model.
jsk
Saya pikir angka di halaman Wikipedia untuk overfitting berbicara dengan sendirinya.
nico

Jawaban:

1

Anda dapat melihat AIC, BIC atau tindakan serupa lainnya.

Anda bisa menggunakan mata dan indera Anda di lapangan.

Atau Anda bisa menghindari beberapa masalah dengan menggunakan splines.

Peter Flom
sumber
Terima kasih. Saya hanya pemula dalam statistik, bolehkah saya bertanya apakah langkah-langkah AIC, BIC adalah "objektif" (seperti yang diturunkan dari sesuatu), atau apakah pada dasarnya "dibuat-buat" dari pengalaman statistik?
AIC, BIC, dll diturunkan dari dua kualitas penting dari model yang dipertimbangkan: jumlah parameter (k) dan kemungkinan model (L). PertimbangkanSEBUAHsayaC2k-2dalam(L.)- di sini kita melihat pertukaran antara jumlah parameter dan kemungkinannya.
abaumann
9

Sepertinya Anda tidak akan dapat menemukan polinomial yang merupakan deskripsi yang benar tentang hubungan tersebut, tidak peduli berapa banyak data yang Anda miliki.

Masalah ini dapat meluas ke hampir semua kelas model.

Namun, biasanya kami tertarik untuk mendapatkan deskripsi yang baik yang cukup untuk beberapa tujuan (model), daripada menemukan proses aktual (mungkin terlalu rumit) yang mendorong pengamatan.

Memang, bahkan ketika proses sebenarnya berasal dari beberapa kelas model potensial yang dihipotesiskan, mungkin kontraproduktif untuk menemukan model yang sebenarnya (misalnya, yang orde tinggi, tetapi istilah orde tinggi mungkin sangat sangat kecil). Mungkin model yang lebih sederhana (mis. Salah ) jauh lebih baik untuk tujuan kita.

Misalnya, bayangkan kami mencoba memprediksi beberapa nilai berikutnya dalam seri yang agak berisik. Model apa pun yang kami cocok memiliki beberapa kesalahan dalam estimasi parameter, dan kesalahan itu akan diperbesar oleh perkiraan. Tidak perlu banyak untuk memiliki model orde rendah (yang seharusnya bias) dengan kinerja prediksi prediksi kuadrat yang jauh lebih baik (katakanlah) daripada urutan model 'benar'.

Salah satu alat umum untuk mengevaluasi kinerja model adalah prediksi out-of-sample (tidak harus dari waktu ke waktu). Validasi silang adalah salah satu cara umum untuk memilih model atau membandingkan kinerja model.

Rob Hyndman menulis pengantar kecil yang bagus di sini .

Glen_b -Reinstate Monica
sumber
1

Saya akan mengatakan sangat sering orang menyejajarkan diri dengan salah satu dari tiga pendekatan berbeda:

  • sering, yang menggunakan tes seperti F-test
  • bayesians, yang memanfaatkan inferensi bayesian
  • teori informasi, yang menggunakan BIC dan AIC, sama seperti contoh lain yang dikutip di atas.

Analisis frekuensi mungkin merupakan yang paling mudah dan paling banyak dikritik karena kekurangannya. Teori informasi di sisi lain, mengalami booming baru-baru ini, menarik perhatian semakin banyak orang seiring berjalannya waktu. Saya pikir Anda harus mencoba memahami sedikit dan menggambar beberapa ide dari masing-masing dari tiga pendekatan. Jika Anda tidak tahu tentang apa yang harus berisi data, maka pendekatan frequentist adalah cara yang baik untuk memulai; di sisi lain Jika Anda memiliki beberapa informasi tentang model yang mendasarinya, lihat inferensi bayesian. Dan saya akan selalu menjaga agar jumlah parameter gratis tetap rendah, dan itulah yang AIC dan BIC coba untuk menyeimbangkan informasi dengan parameter.

pedrofigueira
sumber
0

Saya akan menggunakan splines kubik terbatas yang memungkinkan Anda untuk lebih mendekati kurva. Sebagai penyempurnaan tambahan, dapat menggunakan AICc (atau BIC) untuk memilih jumlah simpul.

koenbro - Pasang kembali Monica
sumber
Itu benar-benar tergantung pada masalah spesifik dan kumpulan data, kadang-kadang garis lurus adalah yang terbaik sulit untuk mengatakan apa pun tanpa melihat data.
nico