Mari kita pertimbangkan misalnya model regresi linier. Saya mendengar bahwa, dalam penambangan data, setelah melakukan seleksi bertahap berdasarkan kriteria AIC, adalah keliru untuk melihat nilai-p untuk menguji hipotesis nol bahwa setiap koefisien regresi yang benar adalah nol. Saya mendengar bahwa orang harus mempertimbangkan semua variabel yang tersisa dalam model memiliki koefisien regresi yang benar berbeda dari nol. Adakah yang bisa menjelaskan mengapa? Terima kasih.
28
Jawaban:
Memang, nilai-p menunjukkan probabilitas untuk melihat statistik uji setidaknya yang ekstrim seperti yang Anda miliki, ketika hipotesis nol itu benar. JikaH0 benar, nilai-p harus memiliki distribusi yang seragam.
Tetapi setelah seleksi bertahap (atau memang, setelah berbagai pendekatan lain untuk pemilihan model), nilai-p dari istilah-istilah yang tetap dalam model tidak memiliki properti itu, bahkan ketika kita tahu bahwa hipotesis nol itu benar.
Ini terjadi karena kami memilih variabel yang memiliki atau cenderung memiliki nilai-p kecil (tergantung pada kriteria tepat yang kami gunakan). Ini berarti bahwa nilai-p dari variabel yang tersisa dalam model biasanya jauh lebih kecil daripada jika kita memasang model tunggal. Perhatikan bahwa pemilihan rata-rata akan memilih model yang tampaknya lebih cocok daripada model yang sebenarnya, jika kelas model menyertakan model yang benar, atau jika kelas model cukup fleksibel untuk mendekati model yang sebenarnya.
[Selain itu dan untuk alasan yang pada dasarnya sama, koefisien yang tersisa bias dari nol dan kesalahan standarnya bias rendah; ini pada gilirannya berdampak pada interval kepercayaan dan prediksi juga - prediksi kami akan terlalu sempit misalnya.]
Untuk melihat efek ini, kita dapat mengambil regresi berganda di mana beberapa koefisien adalah 0 dan beberapa tidak, melakukan prosedur bertahap dan kemudian untuk model-model yang berisi variabel yang memiliki koefisien nol, lihat nilai-p yang dihasilkan.
(Dalam simulasi yang sama, Anda dapat melihat perkiraan dan standar deviasi untuk koefisien dan menemukan yang sesuai dengan koefisien tidak nol juga terpengaruh.)
Singkatnya, tidak pantas untuk menganggap nilai-p yang biasa sebagai bermakna.
Mengenai apakah semua nilai dalam model setelah bertahap harus 'dianggap signifikan', saya tidak yakin sejauh mana itu adalah cara yang berguna untuk melihatnya. Apa yang dimaksud dengan "signifikansi" itu?
Inilah hasil menjalankan R
stepAIC
dengan pengaturan default pada 1000 sampel yang disimulasikan dengan n = 100, dan sepuluh variabel kandidat (tidak ada yang terkait dengan respons). Dalam setiap kasus jumlah istilah yang tersisa dalam model dihitung:Hanya 15,5% dari waktu adalah model yang benar dipilih; sisa waktu model termasuk istilah yang tidak berbeda dari nol. Jika itu benar-benar mungkin ada variabel nol koefisien dalam himpunan variabel kandidat, kita cenderung memiliki beberapa istilah di mana koefisien sebenarnya adalah nol dalam model kami. Akibatnya, tidak jelas itu ide yang baik untuk menganggap mereka semua sebagai tidak nol.
sumber
Analogi dapat membantu. Regresi bertahap ketika variabel kandidat adalah variabel indikator (dummy) yang mewakili kategori yang saling eksklusif (seperti dalam ANOVA) sesuai dengan pemilihan kelompok mana yang akan digabungkan dengan mencari tahu kelompok mana yang paling sedikit berbeda dengant Fp−1,n−p−1 Fq−1,n−q−1 q<p F
sumber