Saya tahu tentang manfaat regularisasi ketika membangun model prediksi (bias vs varians, mencegah overfitting). Tapi, saya bertanya-tanya apakah itu ide yang baik untuk juga melakukan regularisasi (laso, ridge, elastis net) ketika tujuan utama dari model regresi adalah inferensi pada koefisien (melihat prediktor mana yang signifikan secara statistik). Saya ingin mendengar pemikiran orang-orang serta tautan ke jurnal akademik atau artikel non-akademik yang membahas hal ini.
inference
lasso
ridge-regression
elastic-net
selectiveinference
pengguna162381
sumber
sumber
Jawaban:
Istilah "regularisasi" mencakup beragam metode yang sangat luas. Untuk tujuan jawaban ini, saya akan mempersempit berarti "optimasi yang dihukum", yaitu menambahkan penalti atau L_2 untuk masalah optimisasi Anda.L1 L2
Jika itu masalahnya, maka jawabannya adalah pasti "Ya! Yah agak".
Alasan untuk ini adalah bahwa menambahkan penalti atau ke fungsi kemungkinan mengarah ke fungsi matematika yang sama persis seperti menambahkan baik Laplace atau Gaussian sebelum kemungkinan untuk mendapatkan distribusi posterior (elevator pitch: distribusi sebelumnya menggambarkan ketidakpastian parameter) sebelum melihat data, distribusi posterior menggambarkan ketidakpastian parameter setelah melihat data), yang mengarah ke statistik Bayesian 101. Statistik Bayesian sangat populer dan dilakukan sepanjang waktu dengan tujuan inferensi efek yang diperkirakan.L 2L1 L2
Itu adalah "Ya!" bagian. "Yah agak" adalah bahwa mengoptimalkan distribusi posterior Anda dilakukan dan disebut estimasi "Maksimum Posterior" (MAP). Tetapi sebagian besar Bayesian tidak menggunakan estimasi MAP, mereka mengambil sampel dari distribusi posterior menggunakan algoritma MCMC! Ini memiliki beberapa keunggulan, salah satunya adalah bahwa ia cenderung kurang bias ke bawah dalam komponen varians.
Demi singkatnya, saya telah mencoba untuk tidak masuk ke detail tentang statistik Bayesian, tetapi jika ini menarik minat Anda, itulah tempat untuk mulai mencari.
sumber
Ada perbedaan besar antara melakukan estimasi menggunakan hukuman jenis punggungan dan hukuman jenis laso. Penduga tipe punggungan cenderung untuk mengecilkan semua koefisien regresi menuju nol dan bias, tetapi memiliki mudah untuk memperoleh distribusi asimptotik karena mereka tidak mengecilkan variabel apa pun menjadi nol. Bias dalam perkiraan ridge mungkin bermasalah dalam melakukan pengujian hipotesis berikutnya, tetapi saya bukan ahli dalam hal itu. Di sisi lain, denda jenis Lasso / elastic-net menyusut banyak koefisien regresi menjadi nol dan karenanya dapat dilihat sebagai teknik pemilihan model. Masalah melakukan inferensi pada model yang dipilih berdasarkan data biasanya disebut sebagai masalah inferensi selektif atau inferensi pasca seleksi. Bidang ini telah melihat banyak perkembangan dalam beberapa tahun terakhir.
Demikian pula, Lasso (atau jaring elastis) membatasi ruang sampel sedemikian rupa untuk memastikan bahwa model yang dipilih telah dipilih. Pemotongan ini lebih rumit, tetapi dapat dijelaskan secara analitis.
Berdasarkan wawasan ini, seseorang dapat melakukan inferensi berdasarkan distribusi data yang terpotong untuk mendapatkan statistik uji yang valid. Untuk interval kepercayaan dan statistik uji, lihat karya Lee et al .: http://projecteuclid.org/euclid.aos/1460381681
Metode mereka diimplementasikan dalam R selectiveInference paket .
Estimasi optimal (dan pengujian) setelah pemilihan model dibahas dalam (untuk laso): https://arxiv.org/abs/1705.09417
dan paket perangkat lunak mereka (jauh kurang komprehensif) tersedia di: https://github.com/ammeir2/selectiveMLE
sumber
Saya terutama akan merekomendasikan LASSO jika Anda mencoba menggunakan regresi untuk inferensi berdasarkan "prediktor mana yang signifikan secara statistik" - tetapi bukan karena alasan yang Anda perkirakan.
Dalam praktiknya, prediktor dalam model cenderung berkorelasi. Bahkan jika tidak ada multikolinieritas substansial, pilihan regresi dari prediktor "signifikan" di antara serangkaian prediktor berkorelasi dapat bervariasi secara substansial dari sampel ke sampel.
Jadi ya, silakan dan lakukan LASSO untuk regresi Anda. Kemudian ulangi proses pembuatan model lengkap (termasuk validasi silang untuk memilih hukuman LASSO) pada beberapa sampel bootstrap (beberapa ratus atau lebih) dari data asli. Lihat bagaimana variabel set prediktor "signifikan" yang dipilih dengan cara ini.
Kecuali jika prediktor Anda sangat ortogonal satu sama lain, proses ini harus membuat Anda berpikir dua kali tentang menafsirkan nilai-p dalam regresi dalam hal yang mana prediktor individu "signifikan" penting.
sumber