Menggunakan regularisasi ketika melakukan inferensi statistik

17

Saya tahu tentang manfaat regularisasi ketika membangun model prediksi (bias vs varians, mencegah overfitting). Tapi, saya bertanya-tanya apakah itu ide yang baik untuk juga melakukan regularisasi (laso, ridge, elastis net) ketika tujuan utama dari model regresi adalah inferensi pada koefisien (melihat prediktor mana yang signifikan secara statistik). Saya ingin mendengar pemikiran orang-orang serta tautan ke jurnal akademik atau artikel non-akademik yang membahas hal ini.

pengguna162381
sumber
4
Regularisasi dapat dilihat dengan mata bayesian, laso, misalnya, berhubungan dengan beberapa eksponensial ganda sebelumnya (dengan skala dipilih dengan validasi silang). Jadi satu kemungkinan adalah pergi bayes penuh.
kjetil b halvorsen
1
menentukan prediktor mana yang bukan nol adalah inti dari semua itu! Jika Anda ingin menentukan yang secara statistik berbeda dari nol, sangat berguna untuk mempertimbangkan metode seperti laso
user795305

Jawaban:

8

Istilah "regularisasi" mencakup beragam metode yang sangat luas. Untuk tujuan jawaban ini, saya akan mempersempit berarti "optimasi yang dihukum", yaitu menambahkan penalti atau L_2 untuk masalah optimisasi Anda.L1L2

Jika itu masalahnya, maka jawabannya adalah pasti "Ya! Yah agak".

Alasan untuk ini adalah bahwa menambahkan penalti atau ke fungsi kemungkinan mengarah ke fungsi matematika yang sama persis seperti menambahkan baik Laplace atau Gaussian sebelum kemungkinan untuk mendapatkan distribusi posterior (elevator pitch: distribusi sebelumnya menggambarkan ketidakpastian parameter) sebelum melihat data, distribusi posterior menggambarkan ketidakpastian parameter setelah melihat data), yang mengarah ke statistik Bayesian 101. Statistik Bayesian sangat populer dan dilakukan sepanjang waktu dengan tujuan inferensi efek yang diperkirakan.L 2L1L2

Itu adalah "Ya!" bagian. "Yah agak" adalah bahwa mengoptimalkan distribusi posterior Anda dilakukan dan disebut estimasi "Maksimum Posterior" (MAP). Tetapi sebagian besar Bayesian tidak menggunakan estimasi MAP, mereka mengambil sampel dari distribusi posterior menggunakan algoritma MCMC! Ini memiliki beberapa keunggulan, salah satunya adalah bahwa ia cenderung kurang bias ke bawah dalam komponen varians.

Demi singkatnya, saya telah mencoba untuk tidak masuk ke detail tentang statistik Bayesian, tetapi jika ini menarik minat Anda, itulah tempat untuk mulai mencari.

Cliff AB
sumber
2
(+1) Tetapi jika saya telah menggunakan prior hanya karena mereka memberikan prediksi yang baik - memang saya mungkin telah menyetelnya untuk tujuan itu - lalu apa yang harus saya buat dari perkiraan MAP atau distribusi posterior? (Tentu saja jika saya meminta prior untuk mewakili pengetahuan tentang parameter sebelum melihat data saya tahu persis apa yang harus dibuat dari mereka.)
Scortchi - Reinstate Monica
1
@ Scortchi: itu poin yang sangat bagus: menggunakan cross-validation untuk memilih penalti akan membawa Anda keluar dari kerangka Bayesian klasik (sejauh yang saya tahu). Membangun model dengan CV untuk memilih parameter regularisasi tidak akan jatuh bertepatan dengan jawaban ini, tetapi menggunakan regularisasi dengan penalti tetap, dipilih berdasarkan informasi ahli.
Cliff AB
2
Peringatan: Pendekatan + MCMC sebelumnya hanya akan memberikan hasil yang valid jika posisi untuk semua koefisien potensial diperiksa dan dilaporkan. Kalau tidak, kita berada dalam pengaturan inferensi selektif dan sebagian besar metodologi inferensi naif akan tidak valid.
user3903581
1
(+1) Jawaban bagus! Namun, saya pikir mungkin ada baiknya untuk mengklarifikasi kalimat "Tetapi kebanyakan Bayesian tidak menggunakan estimasi MAP, mereka mengambil sampel dari distribusi posterior menggunakan algoritma MCMC!" Sepertinya Anda mencoba untuk mengatakan bahwa kebanyakan orang Bayesian menggunakan posterior lengkap dalam memilih penaksir mereka. Untuk melihat masalahnya, perhatikan bahwa perkiraan untuk MAP dapat dibuat dari sampel untuk distribusi posterior.
user795305
8

Ada perbedaan besar antara melakukan estimasi menggunakan hukuman jenis punggungan dan hukuman jenis laso. Penduga tipe punggungan cenderung untuk mengecilkan semua koefisien regresi menuju nol dan bias, tetapi memiliki mudah untuk memperoleh distribusi asimptotik karena mereka tidak mengecilkan variabel apa pun menjadi nol. Bias dalam perkiraan ridge mungkin bermasalah dalam melakukan pengujian hipotesis berikutnya, tetapi saya bukan ahli dalam hal itu. Di sisi lain, denda jenis Lasso / elastic-net menyusut banyak koefisien regresi menjadi nol dan karenanya dapat dilihat sebagai teknik pemilihan model. Masalah melakukan inferensi pada model yang dipilih berdasarkan data biasanya disebut sebagai masalah inferensi selektif atau inferensi pasca seleksi. Bidang ini telah melihat banyak perkembangan dalam beberapa tahun terakhir.

yN(μ,1)μμ|y|>c>0cycy

Demikian pula, Lasso (atau jaring elastis) membatasi ruang sampel sedemikian rupa untuk memastikan bahwa model yang dipilih telah dipilih. Pemotongan ini lebih rumit, tetapi dapat dijelaskan secara analitis.

Berdasarkan wawasan ini, seseorang dapat melakukan inferensi berdasarkan distribusi data yang terpotong untuk mendapatkan statistik uji yang valid. Untuk interval kepercayaan dan statistik uji, lihat karya Lee et al .: http://projecteuclid.org/euclid.aos/1460381681

Metode mereka diimplementasikan dalam R selectiveInference paket .

Estimasi optimal (dan pengujian) setelah pemilihan model dibahas dalam (untuk laso): https://arxiv.org/abs/1705.09417

dan paket perangkat lunak mereka (jauh kurang komprehensif) tersedia di: https://github.com/ammeir2/selectiveMLE

pengguna3903581
sumber
4

Saya terutama akan merekomendasikan LASSO jika Anda mencoba menggunakan regresi untuk inferensi berdasarkan "prediktor mana yang signifikan secara statistik" - tetapi bukan karena alasan yang Anda perkirakan.

Dalam praktiknya, prediktor dalam model cenderung berkorelasi. Bahkan jika tidak ada multikolinieritas substansial, pilihan regresi dari prediktor "signifikan" di antara serangkaian prediktor berkorelasi dapat bervariasi secara substansial dari sampel ke sampel.

Jadi ya, silakan dan lakukan LASSO untuk regresi Anda. Kemudian ulangi proses pembuatan model lengkap (termasuk validasi silang untuk memilih hukuman LASSO) pada beberapa sampel bootstrap (beberapa ratus atau lebih) dari data asli. Lihat bagaimana variabel set prediktor "signifikan" yang dipilih dengan cara ini.

Kecuali jika prediktor Anda sangat ortogonal satu sama lain, proses ini harus membuat Anda berpikir dua kali tentang menafsirkan nilai-p dalam regresi dalam hal yang mana prediktor individu "signifikan" penting.

EdM
sumber
1
+1 Saya setuju dengan semua yang tertulis, jawaban yang sangat pragmatis tetapi mengapa tidak menggunakan jaring elastis alih-alih LASSO? (mengingat OP juga menyebutkannya juga) Regularisasi punggungan akan mengontrol korelasi antara prediktor sedikit lebih menonjol.
usεr11852 mengatakan Reinstate Monic
Faktanya adalah mungkin untuk menghitung nilai-p, valid, dan interval kepercayaan yang valid dalam model yang dipilih melalui laso atau jaring elastis, hanya perlu dilakukan dengan benar.
user3903581
@ user3903581 Saya tidak membantah bahwa seseorang bisa mendapatkan nilai-p LASSO frequentist yang valid, dalam arti bahwa hipotesis nol yang benar akan menghasilkan koefisien yang sangat besar kurang dari, katakanlah, 5% dari sampel ulangan. Masalahnya adalah dalam upaya yang terlalu sering untuk atribut inferensial kausal hanya dengan prediktor sehingga dianggap "signifikan" tanpa mempertimbangkan masalah yang diangkat oleh prediktor berkorelasi.
EdM