GLM setelah pemilihan model atau regularisasi

12

Saya ingin mengajukan pertanyaan ini dalam dua bagian. Keduanya berurusan dengan model linier umum, tetapi yang pertama berkaitan dengan pemilihan model dan yang lainnya berkaitan dengan regularisasi.

Latar Belakang: Saya menggunakan model GLM (linier, logistik, regresi gamma) untuk prediksi dan deskripsi. Ketika saya merujuk pada " hal-hal normal yang dilakukan seseorang dengan regresi " Saya sebagian besar maksud deskripsi dengan (i) interval kepercayaan di sekitar koefisien, (ii) interval kepercayaan di sekitar prediksi dan (iii) tes hipotesis mengenai kombinasi linear dari koefisien seperti "adalah ada perbedaan antara pengobatan A dan pengobatan B? "

Apakah Anda secara sah kehilangan kemampuan untuk melakukan hal-hal ini menggunakan teori normal di bawah masing-masing berikut ini? Dan jika demikian, apakah hal-hal ini benar-benar hanya baik untuk model yang digunakan untuk prediksi murni?

I. Ketika GLM telah cocok melalui beberapa proses pemilihan model (untuk konkret mengatakan prosedur bertahap berdasarkan AIC).

II Ketika GLM telah fit melalui metode regularisasi (katakanlah menggunakan glmnet di R).

Menurut saya, untuk saya, jawabannya secara teknis Anda harus menggunakan bootstrap untuk " hal normal yang dilakukan seseorang dengan regresi ", tetapi tidak ada yang benar-benar mematuhinya.

Tambahkan:
Setelah mendapatkan beberapa tanggapan dan membaca di tempat lain, inilah pendapat saya tentang hal ini (untuk orang lain yang mendapat manfaat serta menerima koreksi).

I.
A) RE: Kesalahan Generalisasi. Untuk menggeneralisasi tingkat kesalahan pada data baru, ketika tidak ada set bertahan, validasi silang dapat bekerja tetapi Anda harus mengulangi proses sepenuhnya untuk setiap lipatan - menggunakan loop bersarang - sehingga setiap pilihan fitur, penyetelan parameter, dll. Harus dilakukan secara mandiri setiap kali. Gagasan ini harus berlaku untuk setiap upaya pemodelan (termasuk metode sanksi).

B) RE: Pengujian hipotesis dan interval kepercayaan GLM.Saat menggunakan pemilihan model (pemilihan fitur, penyetelan parameter, pemilihan variabel) untuk model linier umum dan set penahan ada, diperbolehkan untuk melatih model pada partisi dan kemudian menyesuaikan model pada data yang tersisa atau set data lengkap dan gunakan model / data itu untuk melakukan tes hipotesis, dll. Jika tidak ada set bertahan, bootstrap dapat digunakan, selama proses penuh diulang untuk setiap sampel bootstrap. Ini membatasi tes hipotesis yang dapat dilakukan karena mungkin variabel tidak selalu dipilih misalnya.

C) RE: Tidak membawa prediksi pada set data masa depan, kemudian cocok dengan model yang bertujuan dipandu oleh teori dan beberapa tes hipotesis dan bahkan mempertimbangkan meninggalkan semua variabel dalam model (signifikan atau tidak) (di sepanjang garis Hosmer dan Lemeshow). Ini adalah variabel kecil set tipe klasik pemodelan regresi dan kemudian memungkinkan penggunaan CI dan uji hipotesis.

D) RE: Regresi yang dihukum. Tidak ada saran, mungkin menganggap ini hanya cocok untuk prediksi (atau sebagai jenis pemilihan fitur untuk kemudian diterapkan ke data lain seperti pada B di atas) karena bias yang diperkenalkan membuat CI dan tes hipotesis tidak bijaksana - bahkan dengan bootstrap.

B_Miner
sumber
1
Orang-orang kadang-kadang melakukan ini - tanpa sadar (mis. Statistik yang disalahgunakan, karena mereka mendapatkan hasil yang diinginkan) dan secara sadar (mereka melakukan bootstrap dan itu tidak mempengaruhi hasil secara substansial). Maksud Anda valid, dan Profesor Harrell menunjukkan ini di Pendahuluan bukunya bahwa bootstrap bermanfaat.
suncoolsu
1
Ini adalah sesuatu seperti "ya" untuk poin Anda (II): arxiv.org/abs/1001.0188
Alex

Jawaban:

5

Anda mungkin melihat kertas karya David Freedman, " Catatan tentang Penyaringan Regresi Persamaan. "

Menggunakan data yang sepenuhnya tidak berkorelasi dalam simulasi, ia menunjukkan bahwa, jika ada banyak prediktor relatif terhadap jumlah pengamatan, maka prosedur penyaringan standar akan menghasilkan regresi akhir yang berisi banyak (lebih dari kebetulan) prediktor signifikan dan F sangat signifikan. statistik. Model terakhir menunjukkan bahwa ini efektif dalam memprediksi hasil, tetapi keberhasilan ini palsu. Dia juga menggambarkan hasil ini menggunakan perhitungan asimptotik. Solusi yang disarankan termasuk skrining pada sampel dan menilai model pada set data lengkap dan menggunakan setidaknya urutan besarnya pengamatan lebih dari prediktor.

Charlie
sumber
Catatan: Agar bootstrap menjadi solusi yang efektif, Anda harus melakukan bootstrap seluruh prosedur, mulai sebelum penyaringan apa pun terjadi, skrining sampel yang di-bootstrap, kemudian hitung koefisiennya. Tetapi sekarang Anda memiliki set prediktor yang berbeda di setiap regresi dan tidak lagi jelas bagaimana menghitung distribusi untuk salah satu dari mereka. Interval kepercayaan bootstrap untuk nilai prediksi hasil mungkin efektif.
Charlie
@charlie: [Apakah saya membaca Anda dengan benar bahwa Anda hanya berbicara dengan saya (pemilihan model) bukan II. (dihukum)] Apakah Anda mengatakan bahwa untuk interval prediksi, valid untuk menggunakan pemilihan model dan kemudian bootstrap prediksi dari model itu, tetapi untuk hal lain Anda perlu bootstrap seluruh proses?
B_Miner
@charlie Mengenai solusi penyaringan yang disarankan pada sampel. Apakah itu sepanjang garis partisi data, (ab) menggunakan satu set (pemilihan model dll) dan kemudian menerapkan model itu ke data yang tersisa - dan pada data itu dengan model yang cocok menggunakan teori tradisional untuk tes hipotesis, CIs dll?
B_Miner
Saya hanya memikirkan pemilihan model, tetapi itu terutama karena saya tidak tahu banyak tentang regresi yang dihukum. Saya akan mengatakan bahwa Anda perlu mem-bootstrap seluruh proses untuk mendapatkan kesimpulan tentang prediksi dari model. Seluruh masalah adalah bahwa, dalam satu sampel, Anda cenderung menemukan korelasi palsu yang diperbesar ketika Anda memasukkan beberapa variabel dan mengabaikan yang lain. Satu-satunya cara untuk mengatasi ini adalah dengan melihat beberapa sampel --- yaitu, bootstrap. Tentu saja, tidak ada yang benar-benar melakukan ini.
Charlie
Benar, Anda menggunakan satu partisi sampel Anda untuk menghasilkan model Anda menggunakan prosedur pemilihan model, kemudian melakukan inferensi Anda pada partisi lain atau sampel penuh.
Charlie
2

Mengenai 1) Ya, Anda kehilangan ini. Lihat misalnya Harrell Regression Modeling Strategies, sebuah buku yang diterbitkan oleh Wiley atau sebuah makalah yang saya berikan kepada David Cassell yang disebut "Menghentikan Stepwise" yang tersedia misalnya www.nesug.org/proceedings/nesug07/sa/sa07.pdf

Peter Flom - Pasang kembali Monica
sumber
Saya telah melihat tulisan ini - sangat menarik. Dua pertanyaan. 1) Mari kita ambil regresi logistik. Kedengarannya seperti satu-satunya cara untuk melakukan tes CI atau hipotesis adalah membangun model dengan gaya hosmer dan lemeshow (menghalangi setiap set data dengan p besar)? Jadi, Anda dibiarkan "menggunakan" model hanya untuk perkiraan titik? 2) Makalah Anda membahas laso di antara alternatif lain. Apakah Anda berpikir bahwa ini memungkinkan pengujian hipotesis nanti atau hanya "diberikan" sebagai pilihan pemilihan model yang lebih baik?
B_Miner