Kapan Anda bisa menggunakan kriteria berbasis data untuk menentukan model regresi?

20

Saya pernah mendengar bahwa ketika banyak spesifikasi model regresi (katakanlah, dalam OLS) dianggap sebagai kemungkinan untuk dataset, ini menyebabkan beberapa masalah perbandingan dan nilai-p dan interval kepercayaan tidak lagi dapat diandalkan. Salah satu contoh ekstrem dari hal ini adalah regresi bertahap.

Kapan saya bisa menggunakan data itu sendiri untuk membantu menentukan model, dan kapan ini bukan pendekatan yang valid? Apakah Anda selalu perlu memiliki teori berbasis materi untuk membentuk model?

Kepuasan
sumber

Jawaban:

9

Teknik pemilihan variabel, secara umum (baik bertahap, mundur, maju, semua himpunan bagian, AIC, dll.), Memanfaatkan peluang atau pola acak dalam data sampel yang tidak ada dalam populasi. Istilah teknis untuk ini terlalu pas dan sangat bermasalah dengan set data kecil, meskipun tidak eksklusif untuk mereka. Dengan menggunakan prosedur yang memilih variabel berdasarkan kesesuaian terbaik, semua variasi acak yang tampak cocok dalam sampel khusus ini berkontribusi pada taksiran dan kesalahan standar. Ini adalah masalah bagi kedua prediksi dan interpretasi dari model.

Secara khusus, r-squared terlalu tinggi dan estimasi parameter bias (mereka terlalu jauh dari 0), kesalahan standar untuk parameter terlalu kecil (dan dengan demikian nilai p dan interval di sekitar parameter terlalu kecil / sempit).

Garis pertahanan terbaik terhadap masalah-masalah ini adalah membangun model-model dengan serius dan memasukkan para prediktor yang masuk akal berdasarkan teori, logika, dan pengetahuan sebelumnya. Jika prosedur pemilihan variabel diperlukan, Anda harus memilih metode yang menghukum estimasi parameter (metode penyusutan) dengan menyesuaikan parameter dan kesalahan standar untuk memperhitungkan over-fitting. Beberapa metode penyusutan yang umum adalah Ridge Regression, Least Angle Regression, atau laso. Selain itu, validasi silang menggunakan dataset pelatihan dan dataset pengujian atau rata-rata model dapat berguna untuk menguji atau mengurangi efek dari pemasangan berlebihan.

Harrell adalah sumber yang bagus untuk diskusi rinci tentang masalah-masalah ini. Harrell (2001). "Strategi Pemodelan Regresi."

Brett
sumber
Menerima, lama kemudian! Terima kasih atas tinjauan terperinci tentang masalah teknis ini, dan saya akan melihat buku Harrell.
Pernyataan Kepuasan
7

Dalam konteks ilmu sosial tempat saya berasal, masalahnya adalah apakah Anda tertarik pada (a) prediksi atau (b) menguji pertanyaan penelitian yang terfokus. Jika tujuannya adalah prediksi maka pendekatan yang didorong data sesuai. Jika tujuannya adalah untuk menguji pertanyaan penelitian yang terfokus, maka penting untuk mempertimbangkan model regresi mana yang secara khusus menguji pertanyaan Anda.

Misalnya, jika tugas Anda adalah memilih serangkaian tes seleksi untuk memprediksi kinerja pekerjaan, tujuannya dapat dianggap sebagai salah satu upaya memaksimalkan prediksi kinerja pekerjaan. Dengan demikian, pendekatan berbasis data akan bermanfaat.

Sebaliknya jika Anda ingin memahami peran relatif dari variabel kepribadian dan variabel kemampuan dalam mempengaruhi kinerja, maka pendekatan perbandingan model tertentu mungkin lebih tepat.

Biasanya ketika mengeksplorasi pertanyaan penelitian yang difokuskan, tujuannya adalah untuk menjelaskan sesuatu tentang proses kausal yang mendasarinya yang beroperasi sebagai lawan mengembangkan model dengan prediksi yang optimal.

Ketika saya sedang dalam proses mengembangkan model tentang proses berdasarkan data cross-sectional saya akan waspada tentang: (a) termasuk prediktor yang secara teoritis dapat dianggap sebagai konsekuensi dari variabel hasil. Misalnya, kepercayaan seseorang bahwa mereka adalah orang yang berkinerja baik adalah prediktor yang baik untuk kinerja pekerjaan, tetapi kemungkinan hal ini setidaknya sebagian disebabkan oleh fakta bahwa mereka telah mengamati kinerja mereka sendiri. (B) termasuk sejumlah besar prediktor yang semuanya mencerminkan fenomena mendasar yang sama. Misalnya, termasuk 20 item yang semuanya mengukur kepuasan dengan kehidupan dengan cara yang berbeda.

Dengan demikian, pertanyaan penelitian terfokus lebih bergantung pada pengetahuan khusus domain. Ini mungkin bisa menjelaskan mengapa pendekatan berbasis data lebih jarang digunakan dalam ilmu sosial.

Jeromy Anglim
sumber
4

Saya tidak berpikir mungkin untuk melakukan Bonferoni atau koreksi serupa untuk menyesuaikan pemilihan variabel dalam regresi karena semua tes dan langkah-langkah yang terlibat dalam pemilihan model tidak independen.

Salah satu pendekatan adalah merumuskan model menggunakan satu set data, dan melakukan inferensi pada set data yang berbeda. Ini dilakukan dalam peramalan sepanjang waktu di mana kami memiliki satu set pelatihan dan satu set tes. Ini tidak umum di bidang lain, mungkin karena data sangat berharga sehingga kami ingin menggunakan setiap pengamatan tunggal untuk pemilihan model dan untuk inferensi. Namun, seperti yang Anda catat dalam pertanyaan Anda, sisi buruknya adalah kesimpulannya sebenarnya menyesatkan.

Ada banyak situasi di mana pendekatan berbasis teori tidak mungkin karena tidak ada teori yang berkembang dengan baik. Bahkan, saya pikir ini jauh lebih umum daripada kasus-kasus di mana teori menyarankan model.

Rob Hyndman
sumber
4

Richard Berk memiliki artikel baru-baru ini di mana ia menunjukkan melalui simulasi masalah pengintaian data dan inferensi statistik. Seperti yang disarankan Rob , ini lebih problematis daripada sekadar mengoreksi beberapa pengujian hipotesis.

Inferensi Statistik Setelah Pemilihan Model oleh: Richard Berk, Lawrence Brown, Linda Zhao Journal of Quantitative Criminology, Vol. 26, No. 2. (1 Juni 2010), hlm. 217-236.

Versi PDF di sini

Andy W
sumber
(+1) Terima kasih atas tautannya! Anda mungkin tertarik dengan pertanyaan terkait ini, stats.stackexchange.com/questions/3200/… . Jangan ragu untuk berkontribusi.
chl
@ chl, saya rasa saya tidak bisa menambahkan apa pun ke jawaban yang sudah sangat bagus untuk pertanyaan itu. Saya sebenarnya berpikir tanggapan Brendan sangat pedih karena saya curiga poster asli itu benar-benar tertarik pada kesimpulan sebab akibat, bukan semata-mata prediksi berdasarkan konteks pertanyaan.
Andy W
Ya, saya memikirkan jawabannya. Saya telah memulai refleksi pada masalah pengerukan data (tidak persis tentang masalah pemilihan model / variabel atau inferensial kausal), tetapi sejauh ini hanya menerima beberapa tanggapan. Jika Anda ingin menambahkan ide Anda sendiri, itu akan menarik: stats.stackexchange.com/questions/3252/…
chl
2

Jika saya memahami pertanyaan Anda dengan benar, maka jawaban untuk masalah Anda adalah mengoreksi nilai-p sesuai dengan jumlah hipotesis.

Misalnya koreksi Holm-Bonferoni, di mana Anda mengurutkan hipotesis (= model yang berbeda) dengan nilai-p dan menolaknya dengan nilai yang sama dengan (nilai p / indeks yang diinginkan).

Lebih lanjut tentang topik ini dapat ditemukan di Wikipedia

Peter Smit
sumber
1
Anda mungkin ingin membaca jawaban ini untuk pertanyaan terpisah dan melihat mengapa menyesuaikan nilai-p sedemikian rupa mungkin bukan solusi terbaik, stats.stackexchange.com/questions/3200/…
Andy W