Bagaimana seseorang dapat secara objektif (membaca "algoritmik") memilih model yang tepat untuk melakukan regresi linear kuadrat-sederhana dengan dua variabel?
Sebagai contoh, katakanlah data tampaknya menunjukkan tren kuadratik, dan parabola dihasilkan yang cocok dengan data dengan cukup baik. Bagaimana kita membenarkan membuat regresi ini? Atau bagaimana kita menghilangkan kemungkinan ada model yang lebih baik?
Yang saya benar-benar khawatirkan adalah ini: kita bisa terus menambahkan istilah polinomial sampai kita memiliki kesesuaian yang sempurna untuk kumpulan data (sebuah interpolasi poin), tanpa kesalahan sama sekali. Tapi ini akan sia-sia sejauh memprediksi atau memperkirakan, karena tidak akan ada alasan untuk berpikir bahwa "model" itu sebenarnya sesuai. Jadi bagaimana seseorang menyeimbangkan kebutuhan akurasi dan daya tarik intuitif?
(Juga, tolong beri tahu saya jika ini telah ditanyakan sebelumnya, saya berasumsi itu akan tetapi tidak menemukan apa-apa.)
sumber
Jawaban:
Anda dapat melihat AIC, BIC atau tindakan serupa lainnya.
Anda bisa menggunakan mata dan indera Anda di lapangan.
Atau Anda bisa menghindari beberapa masalah dengan menggunakan splines.
sumber
Sepertinya Anda tidak akan dapat menemukan polinomial yang merupakan deskripsi yang benar tentang hubungan tersebut, tidak peduli berapa banyak data yang Anda miliki.
Masalah ini dapat meluas ke hampir semua kelas model.
Namun, biasanya kami tertarik untuk mendapatkan deskripsi yang baik yang cukup untuk beberapa tujuan (model), daripada menemukan proses aktual (mungkin terlalu rumit) yang mendorong pengamatan.
Memang, bahkan ketika proses sebenarnya berasal dari beberapa kelas model potensial yang dihipotesiskan, mungkin kontraproduktif untuk menemukan model yang sebenarnya (misalnya, yang orde tinggi, tetapi istilah orde tinggi mungkin sangat sangat kecil). Mungkin model yang lebih sederhana (mis. Salah ) jauh lebih baik untuk tujuan kita.
Misalnya, bayangkan kami mencoba memprediksi beberapa nilai berikutnya dalam seri yang agak berisik. Model apa pun yang kami cocok memiliki beberapa kesalahan dalam estimasi parameter, dan kesalahan itu akan diperbesar oleh perkiraan. Tidak perlu banyak untuk memiliki model orde rendah (yang seharusnya bias) dengan kinerja prediksi prediksi kuadrat yang jauh lebih baik (katakanlah) daripada urutan model 'benar'.
Salah satu alat umum untuk mengevaluasi kinerja model adalah prediksi out-of-sample (tidak harus dari waktu ke waktu). Validasi silang adalah salah satu cara umum untuk memilih model atau membandingkan kinerja model.
Rob Hyndman menulis pengantar kecil yang bagus di sini .
sumber
Saya akan mengatakan sangat sering orang menyejajarkan diri dengan salah satu dari tiga pendekatan berbeda:
Analisis frekuensi mungkin merupakan yang paling mudah dan paling banyak dikritik karena kekurangannya. Teori informasi di sisi lain, mengalami booming baru-baru ini, menarik perhatian semakin banyak orang seiring berjalannya waktu. Saya pikir Anda harus mencoba memahami sedikit dan menggambar beberapa ide dari masing-masing dari tiga pendekatan. Jika Anda tidak tahu tentang apa yang harus berisi data, maka pendekatan frequentist adalah cara yang baik untuk memulai; di sisi lain Jika Anda memiliki beberapa informasi tentang model yang mendasarinya, lihat inferensi bayesian. Dan saya akan selalu menjaga agar jumlah parameter gratis tetap rendah, dan itulah yang AIC dan BIC coba untuk menyeimbangkan informasi dengan parameter.
sumber
Saya akan menggunakan splines kubik terbatas yang memungkinkan Anda untuk lebih mendekati kurva. Sebagai penyempurnaan tambahan, dapat menggunakan AICc (atau BIC) untuk memilih jumlah simpul.
sumber