Dua pendekatan umum untuk memilih variabel berkorelasi adalah uji signifikansi dan validasi silang. Masalah apa yang masing-masing coba selesaikan dan kapan saya lebih suka yang satu daripada yang lain?
sumber
Dua pendekatan umum untuk memilih variabel berkorelasi adalah uji signifikansi dan validasi silang. Masalah apa yang masing-masing coba selesaikan dan kapan saya lebih suka yang satu daripada yang lain?
Pertama, mari kita eksplisit dan memasukkan pertanyaan ke dalam konteks regresi linier berganda di mana kita meringkas variabel respon, , pada beberapa variabel berbeda (berkorelasi atau tidak), dengan parameter vektor dan fungsi regresi
yang dapat menjadi model rata-rata variabel respon untuk pengamatan . x 1 , ... , x p β = ( β 0 , β 1 , ... , β p ) f ( x 1 , ... , x p ) = β 0 + β 1 x 1 + ... + β p x p , x 1 , ... , x hal
Pertanyaannya adalah bagaimana memilih subset dari 's untuk menjadi non-nol, dan, khususnya, perbandingan pengujian signifikansi dibandingkan lintas validasi .
Agar jelas tentang terminologi, pengujian signifikansi adalah konsep umum, yang dilakukan secara berbeda dalam konteks yang berbeda. Itu tergantung, misalnya, pada pemilihan statistik uji. Validasi silang sebenarnya merupakan algoritma untuk estimasi kesalahan generalisasi yang diharapkan , yang merupakan konsep umum yang penting, dan yang tergantung pada pilihan fungsi kerugian.
The error generalisasi diharapkan sedikit teknis untuk menentukan secara formal, tetapi dalam kata-kata itu adalah hilangnya diharapkan dari model pas bila digunakan untuk prediksi pada set data independen , di mana harapan adalah atas data yang digunakan untuk estimasi serta data independen set digunakan untuk prediksi.
Untuk membuat perbandingan yang masuk akal mari kita fokus pada apakah dapat diambil sama dengan 0 atau tidak.
Menggunakan signifikansi pengujian kita tidak langsung berkaitan dengan "kinerja" dari model di bawah hipotesis nol dibandingkan model lain, tapi kami sedang prihatin dengan mendokumentasikan bahwa nol yang salah. Ini paling masuk akal (bagi saya) dalam pengaturan konfirmasi di mana tujuan utamanya adalah untuk mengkonfirmasi dan mendokumentasikan hipotesis ilmiah priorat yang ditentukan dengan baik, yang dapat dirumuskan sebagai .
The error generalisasi diharapkan adalah, di sisi lain, hanya peduli dengan "kinerja" Rata-rata dalam hal penurunan prediksi yang diharapkan, dan menyimpulkan bahwa yang terbaik adalah untuk memungkinkan berbeda dari 0 dalam hal prediksi bukan merupakan upaya untuk dokumen bahwa "benar-benar" berbeda dari 0 apa pun artinya.
Saya secara pribadi tidak pernah menangani masalah di mana saya secara formal membutuhkan pengujian signifikan, namun nilai- menemukan jalan mereka ke dalam pekerjaan saya dan memberikan panduan yang masuk akal dan kesan pertama untuk pemilihan variabel. Saya, bagaimanapun, kebanyakan menggunakan metode hukuman seperti laso dalam kombinasi dengan kesalahan generalisasi untuk setiap pemilihan model formal, dan saya perlahan-lahan mencoba menekan kecenderungan saya untuk bahkan menghitung nilai- .
Untuk analisis eksplorasi saya tidak melihat argumen yang mendukung pengujian signifikansi dan nilai- , dan saya pasti akan merekomendasikan fokus pada konsep seperti kesalahan generalisasi yang diharapkan untuk pemilihan variabel. Dalam konteks lain di mana orang mungkin mempertimbangkan menggunakan nilai- untuk mendokumentasikan bahwa bukan 0, saya akan mengatakan bahwa hampir selalu merupakan ide yang lebih baik untuk melaporkan perkiraan dan interval kepercayaan sebagai gantinya.
Cukup menggunakan tes signifikansi dan prosedur bertahap untuk melakukan pemilihan model dapat membuat Anda percaya bahwa Anda memiliki model yang sangat kuat dengan prediktor signifikan ketika Anda, pada kenyataannya, tidak; Anda mungkin mendapatkan korelasi kuat secara kebetulan dan korelasi ini tampaknya dapat ditingkatkan saat Anda menghilangkan prediktor yang tidak perlu lainnya.
Prosedur pemilihan, tentu saja, hanya membuat variabel-variabel tersebut dengan korelasi terkuat dengan hasil dan, ketika prosedur bertahap bergerak maju, probabilitas melakukan kesalahan Tipe I menjadi lebih besar daripada yang Anda bayangkan. Ini karena kesalahan standar (dan dengan demikian nilai-p) tidak disesuaikan untuk memperhitungkan fakta bahwa variabel tidak dipilih untuk dimasukkan dalam model secara acak dan beberapa uji hipotesis dilakukan untuk memilih set itu.
David Freedman memiliki kertas lucu di mana ia menunjukkan poin-poin ini yang disebut " Catatan tentang Penyaringan Regresi Persamaan ." Abstrak:
Pertimbangkan mengembangkan model regresi dalam konteks di mana teori substantif lemah. Untuk fokus pada kasus ekstrim, anggaplah bahwa sebenarnya tidak ada hubungan antara variabel dependen dan variabel penjelas. Meski begitu, jika ada banyak variabel penjelas, akan tinggi. Jika variabel penjelas dengan statistik t kecil diturunkan dan persamaannya dipasang kembali, akan tetap tinggi dan F keseluruhan akan menjadi sangat signifikan. Ini ditunjukkan oleh simulasi dan dengan perhitungan asimptotik.
Salah satu solusi potensial untuk masalah ini, seperti yang Anda sebutkan, adalah menggunakan varian validasi silang. Ketika saya tidak memiliki alasan ekonomi yang baik (bidang penelitian saya) atau statistik untuk mempercayai model saya, ini adalah pendekatan pilihan saya untuk memilih model yang tepat dan melakukan inferensi.
Responden lain mungkin menyebutkan bahwa prosedur bertahap menggunakan AIC atau BIC secara asympotically setara dengan validasi silang. Ini hanya berfungsi karena jumlah pengamatan relatif terhadap jumlah prediktor menjadi besar. Dalam konteks memiliki banyak variabel relatif terhadap jumlah pengamatan (Freedman mengatakan 1 variabel per 10 pengamatan atau lebih sedikit), seleksi dengan cara ini dapat menunjukkan sifat-sifat buruk yang dibahas di atas.
Di zaman komputer yang kuat, saya tidak melihat alasan untuk tidak menggunakan validasi silang sebagai prosedur pemilihan model melalui seleksi bertahap.