Saya punya pertanyaan yang menurut saya akan sangat mendasar bagi banyak pengguna.
Saya menggunakan model regresi linier untuk (i) menyelidiki hubungan beberapa variabel penjelas dan variabel respons saya dan (ii) memprediksi variabel respons saya menggunakan variabel penjelas.
Satu variabel penjelas X tertentu tampaknya secara signifikan mempengaruhi variabel respons saya. Untuk menguji nilai tambah dari variabel penjelas X ini untuk tujuan prediksi out-of-sample dari variabel respons saya, saya menggunakan dua model: model (a) yang menggunakan semua variabel penjelas dan model (b) yang menggunakan semua variabel kecuali variabel X. Untuk kedua model, saya hanya melaporkan kinerja out-of-sample. Tampaknya kedua model ini memiliki kinerja yang hampir sama baik. Dengan kata lain, menambahkan variabel penjelas X tidak meningkatkan prediksi out-of-sample. Perhatikan bahwa saya juga menggunakan model (a), yaitu model dengan semua variabel penjelas, untuk menemukan bahwa variabel penjelas X berpengaruh signifikan terhadap variabel respons saya.
Pertanyaan saya sekarang adalah: bagaimana cara menerjemahkan temuan ini? Kesimpulan langsung adalah bahwa, meskipun variabel X tampaknya secara signifikan mempengaruhi variabel respons saya menggunakan model inferensial, itu tidak meningkatkan prediksi out-of-sample. Namun, saya kesulitan menjelaskan lebih lanjut temuan ini. Bagaimana ini bisa terjadi dan apa saja penjelasan untuk temuan ini?
Terima kasih sebelumnya!
Informasi tambahan: dengan 'pengaruh signifikan' Maksud saya 0 tidak termasuk dalam interval kepadatan posterior tertinggi 95% dari estimasi parameter (saya menggunakan pendekatan Bayesian). Dalam istilah frequentist ini kira-kira sama dengan memiliki nilai-p lebih rendah dari 0,05. Saya hanya menggunakan primer difus (tidak informatif) untuk semua parameter model saya. Data saya memiliki struktur longitudinal dan berisi sekitar 7000 pengamatan secara total. Untuk prediksi out-of-sample saya menggunakan 90% dari data agar sesuai dengan model saya dan 10% dari data untuk mengevaluasi model menggunakan beberapa replikasi. Yaitu, saya melakukan split tes kereta beberapa kali dan akhirnya melaporkan metrik kinerja rata-rata.
Jawaban:
x1
x2
x1
x2
x1
x2
x1
x2
Fungsinya adalah:
Sebagai contoh, untuk nilai default yang kami dapatkan,
x2
Tetapi jika kita mengatur ukuran efek ke 0,3, kita mendapatkan:
sumber
Ini adalah hal yang cukup normal terjadi dalam regresi berganda. Alasan paling umum adalah bahwa prediksi Anda terkait satu sama lain. Dengan kata lain, Anda dapat menyimpulkan X dari nilai-nilai prediktor lain. Oleh karena itu, walaupun berguna untuk prediksi jika itu satu-satunya prediktor yang Anda miliki, setelah Anda memiliki semua prediktor lain, ia tidak memberikan banyak informasi tambahan. Anda dapat memeriksa apakah ini yang terjadi dengan melakukan regresi X pada prediktor lain. Saya juga akan merujuk pada bab tentang regresi linier dalam buku teks online gratis, Elements of Statistics Learning.
sumber