Mengapa nilai-p menyesatkan setelah melakukan seleksi bertahap?

Mari kita pertimbangkan misalnya model regresi linier. Saya mendengar bahwa, dalam penambangan data, setelah melakukan seleksi bertahap berdasarkan kriteria AIC, adalah keliru untuk melihat nilai-p untuk menguji hipotesis nol bahwa setiap koefisien regresi yang benar adalah nol. Saya mendengar bahwa orang harus mempertimbangkan semua variabel yang tersisa dalam model memiliki koefisien regresi yang benar berbeda dari nol. Adakah yang bisa menjelaskan mengapa? Terima kasih.

multiple-regression predictive-models data-mining stepwise-regression John M
sumber

Berikut ini informasi lebih lanjut. Referensi yang dikutip di sana juga bermanfaat.

S. Kolassa - Kembalikan Monica

Dalam teoretisecology.wordpress.com/2018/05/03/... , saya menunjukkan beberapa kode R yang menunjukkan inflasi tipe-I setelah pemilihan AIC. Perhatikan bahwa tidak masalah apakah itu bertahap atau global, intinya adalah bahwa pemilihan model pada dasarnya adalah pengujian berganda.

Florian Hartig

setelah melakukan seleksi bertahap berdasarkan kriteria AIC, adalah keliru untuk melihat nilai-p untuk menguji hipotesis nol bahwa setiap koefisien regresi benar adalah nol.

Memang, nilai-p menunjukkan probabilitas untuk melihat statistik uji setidaknya yang ekstrim seperti yang Anda miliki, ketika hipotesis nol itu benar. Jika $H_0$ benar, nilai-p harus memiliki distribusi yang seragam.

Tetapi setelah seleksi bertahap (atau memang, setelah berbagai pendekatan lain untuk pemilihan model), nilai-p dari istilah-istilah yang tetap dalam model tidak memiliki properti itu, bahkan ketika kita tahu bahwa hipotesis nol itu benar.

Ini terjadi karena kami memilih variabel yang memiliki atau cenderung memiliki nilai-p kecil (tergantung pada kriteria tepat yang kami gunakan). Ini berarti bahwa nilai-p dari variabel yang tersisa dalam model biasanya jauh lebih kecil daripada jika kita memasang model tunggal. Perhatikan bahwa pemilihan rata-rata akan memilih model yang tampaknya lebih cocok daripada model yang sebenarnya, jika kelas model menyertakan model yang benar, atau jika kelas model cukup fleksibel untuk mendekati model yang sebenarnya.

[Selain itu dan untuk alasan yang pada dasarnya sama, koefisien yang tersisa bias dari nol dan kesalahan standarnya bias rendah; ini pada gilirannya berdampak pada interval kepercayaan dan prediksi juga - prediksi kami akan terlalu sempit misalnya.]

Untuk melihat efek ini, kita dapat mengambil regresi berganda di mana beberapa koefisien adalah 0 dan beberapa tidak, melakukan prosedur bertahap dan kemudian untuk model-model yang berisi variabel yang memiliki koefisien nol, lihat nilai-p yang dihasilkan.

(Dalam simulasi yang sama, Anda dapat melihat perkiraan dan standar deviasi untuk koefisien dan menemukan yang sesuai dengan koefisien tidak nol juga terpengaruh.)

Singkatnya, tidak pantas untuk menganggap nilai-p yang biasa sebagai bermakna.

Saya mendengar bahwa seseorang harus mempertimbangkan semua variabel yang tersisa dalam model sebagai signifikan.

Mengenai apakah semua nilai dalam model setelah bertahap harus 'dianggap signifikan', saya tidak yakin sejauh mana itu adalah cara yang berguna untuk melihatnya. Apa yang dimaksud dengan "signifikansi" itu?

Inilah hasil menjalankan R stepAICdengan pengaturan default pada 1000 sampel yang disimulasikan dengan n = 100, dan sepuluh variabel kandidat (tidak ada yang terkait dengan respons). Dalam setiap kasus jumlah istilah yang tersisa dalam model dihitung:

Hanya 15,5% dari waktu adalah model yang benar dipilih; sisa waktu model termasuk istilah yang tidak berbeda dari nol. Jika itu benar-benar mungkin ada variabel nol koefisien dalam himpunan variabel kandidat, kita cenderung memiliki beberapa istilah di mana koefisien sebenarnya adalah nol dalam model kami. Akibatnya, tidak jelas itu ide yang baik untuk menganggap mereka semua sebagai tidak nol.

Glen_b -Reinstate Monica
sumber

Dengan kalimat "Saya mendengar bahwa seseorang harus menganggap semua variabel yang tersisa dalam model sebagai signifikan sebagai gantinya" Maksud saya: "Saya mendengar bahwa seseorang harus mempertimbangkan semua variabel yang tersisa dalam model sebagai memiliki koefisien regresi sejati yang berbeda dari nol, bukan sebagai gantinya"

John M

Baik; Saya telah menambahkan hasil simulasi yang berbicara tentang itu.

Glen_b -Reinstate Monica

k = 3

$k=3$

39

$39$

10 k

$10k$

@whuber memang, melihat efek apa yang akan dimiliki Bonferroni (pada berbagai aspek masalah) adalah kecenderungan langsung saya untuk menyelesaikan simulasi di atas juga, tapi itu bukan apa yang orang-orang cenderung lakukan dengan langkah-langkah jadi saya tidak membahas itu disini. Saya akan kagum mendengar Anda membahas metode pemilihan model. Saya berharap saya akan belajar sedikit.

Glen_b -Reinstate Monica

@ Glen_b: (Dikutip dari jawaban Anda) Ini berarti bahwa nilai-p dari variabel yang tersisa dalam model biasanya jauh lebih kecil daripada jika kita memasang model tunggal bahkan "jika satu model yang kami cocok kebetulan adalah yang menghasilkan data, apakah model yang sebenarnya adalah nol atau tidak ". Bisakah Anda jelaskan bagian yang disorot sedikit? Bagaimana mungkin bahwa nilai-p lebih kecil dalam model yang memiliki spesifikasi yang sama dengan proses menghasilkan data (model sebenarnya)?

shani

Mengapa nilai-p menyesatkan setelah melakukan seleksi bertahap?

Jawaban: