Kesetaraan AIC dan nilai-p dalam pemilihan model

9

Dalam komentar untuk jawaban pertanyaan ini , dinyatakan bahwa menggunakan AIC dalam pemilihan model setara dengan menggunakan p-value 0,154.

Saya mencobanya di R, di mana saya menggunakan algoritma seleksi subset "terbelakang" untuk membuang variabel dari spesifikasi lengkap. Pertama, dengan secara berurutan membuang variabel dengan nilai-p tertinggi dan berhenti ketika semua nilai-p di bawah 0,154 dan, kedua, dengan menjatuhkan variabel yang menghasilkan AIC terendah ketika dihapus sampai tidak ada perbaikan yang dapat dilakukan.

Ternyata mereka memberikan hasil yang kira-kira sama ketika saya menggunakan nilai-p 0,154 sebagai ambang batas.

Apakah ini benar? Jika demikian, apakah ada yang tahu mengapa atau bisa merujuk ke sumber yang menjelaskannya?

PS Saya tidak bisa meminta orang itu berkomentar atau menulis komentar, karena baru saja mendaftar. Saya sadar bahwa ini bukan pendekatan yang paling cocok untuk pemilihan model dan kesimpulan, dll.

Niels
sumber
(1) Pemodelan prognostik dengan analisis regresi logistik: perbandingan metode seleksi dan estimasi dalam set data kecil. Statistics in Medicine, 19, 1059-1079 (2) berlaku untuk variabel dengan df1, berdasarkan definisi aic. Tetapi bisa lebih rendah jika derajat kebebasan variabel Anda lebih tinggi
charles

Jawaban:

13

Pemilihan variabel yang dilakukan dengan menggunakan uji statistik atau AIC sangat bermasalah. Jika menggunakan , AIC menggunakan cutoff dari = 2.0 yang sesuai dengan . AIC ketika digunakan pada variabel individual tidak melakukan hal baru; itu hanya menggunakan lebih masuk akal dari 0,05. Yang lebih masuk akal (kurang mengganggu inferensi) adalah 0,5.χ2χ2α=0,157αα

Frank Harrell
sumber
+1 Saya menghabiskan begitu lama membangun jawaban saya (sekarang dihapus), saya bahkan tidak melihat yang ini diposting sebelumnya. Saya hanya akan memilih yang ini sebagai gantinya.
Glen_b -Reinstate Monica