Metode lonjakan dan lempengan Bayesian versus hukuman

11

Saya membaca slide Steven Scott tentang paket BSTS R (Anda dapat menemukannya di sini: slide ).

Pada titik tertentu, ketika berbicara tentang memasukkan banyak regressor dalam model deret waktu struktural ia memperkenalkan spike dan slab prior dari koefisien regresi dan mengatakan bahwa mereka lebih baik dibandingkan dengan metode hukuman.

Scott mengatakan, merujuk pada contoh dataset dengan 100 prediktor:

  • 2100
  • "Lasso (dan yang terkait) prior tidak jarang, mereka menginduksi sparsity pada mode tetapi tidak dalam distribusi posterior"

Pada titik ini ia memperkenalkan Prige Spike dan Slab.

Saya pikir saya mendapatkan intuisi, tetapi saya ingin memastikannya:

  • Apakah mereka lebih baik dalam arti bahwa mereka pada dasarnya menggunakan pendekatan brute force untuk menguji setiap subset regressor yang mungkin untuk dimasukkan?
  • Apakah kekurangan waktu komputasi dalam melakukannya?
  • Menurut Anda apa maksudnya ketika mengatakan "Lasso (dan terkait) ... tetapi tidak dalam distribusi posterior"?
Tommaso Guerrini
sumber

Jawaban:

10

Saya akan menjawab pertanyaan ketiga Anda terlebih dahulu dan menjawab dua lainnya nanti.

  1. Menurut Anda apa maksudnya ketika mengatakan "Lasso (dan terkait) ... tetapi tidak dalam distribusi posterior"?

Figur dari slide ini menunjukkan apa yang dia maksud. Mengekspresikan lasso regularizer sebagai distribusi sebelumnya berarti distribusi Anda sebelumnya akan mengambil bentuk distribusi Laplacian atau eksponensial ganda . Distribusi ini memiliki puncak non-smooth karakteristik pada rata-rata, yang diatur ke 0 untuk mencapai efek regularisasi yang jarang. Untuk secara langsung mendapatkan hasil yang diatur secara las, Anda harus mengambil mode distribusi posterior Anda.

uji

Dalam gambar, garis putus-putus biru mewakili distribusi sebelumnya Laplacian. Distribusi posterior, dalam warna hitam pekat, memiliki mode di 0 di sebelah kiri dengan kemungkinan lemah, sedangkan mode tidak nol di sebelah kanan dengan kemungkinan kuat.

Namun, distribusi posterior lengkap tidak jarang, karena jika Anda mengambil sampel darinya, Anda hanya akan jarang mendapatkan nilai mendekati 0, dan pada kenyataannya karena ini adalah distribusi kontinu Anda tidak akan pernah mendapatkan secara tepat 0.

Untuk mencapai sparsity dengan pendekatan laso, Anda biasanya perlu menetapkan batas ambang pada mode posterior. Kasing ideal adalah jika mode posterior Anda sama dengan 0, tetapi Anda bisa mengendurkan ini dan menghilangkan variabel Anda jika mode posteriornya kurang dari 0,2 setelah mengambil nilai absolut.

Melakukan sparsifikasi ini di bawah laso memberikan satu set khusus dari regressor yang dihilangkan dan dipertahankan, yang merupakan "keputusan tunggal" tentang mana regressor dimasukkan atau dikecualikan.

Pendekatan Bayesian sepenuhnya untuk pemilihan variabel, lonjakan dan slab sebelumnya, mempertahankan ketidakpastian tentang variabel mana yang harus dimasukkan atau dikecualikan sepanjang jalan melalui model.

Jadi untuk menjawab pertanyaan pertama Anda:

  1. Apakah mereka lebih baik dalam arti bahwa mereka pada dasarnya menggunakan pendekatan brute force untuk menguji setiap subset regressor yang mungkin untuk dimasukkan?

Ini adalah kesalahpahaman, karena tidak ada metode yang menguji semua himpunan bagian dari regresi yang mungkin untuk dimasukkan.

  1. Apakah kekurangan waktu komputasi dalam melakukannya?

Ini juga merupakan kesalahpahaman, karena waktu perhitungan tidak didominasi oleh uji kekuatan kasar masing-masing subset regressor.

Untuk mengklarifikasi poin Scott, diberikan beberapa data, jika Anda menggunakan pendekatan sparsifikasi kemungkinan dihukum, Anda akan mendapatkan tepat satu set regressor yang dimasukkan dan dikecualikan. Tetapi jika Anda menggunakan pendekatan spikeifikasi spike dan slab, Anda memiliki distribusi posterior penuh untuk setiap regressor, masing-masing dengan kemungkinan terpisah untuk dimasukkan atau dikecualikan. Beberapa regressor mungkin memiliki kemungkinan 70% untuk dimasukkan, yang lain kemungkinan 25%. Ini dapat lebih disukai di banyak aplikasi, karena mengingat satu set data kita masih harus memiliki ketidakpastian mengenai yang mana regressor penting atau tidak.

Secara intuitif, lonjakan dan pelat sebelumnya lebih baik mewakili ruang yang mungkin termasuk / tidak termasuk regressor dibandingkan dengan pendekatan kemungkinan hukuman seperti laso.

estetikus
sumber
2
Terima kasih banyak! Pemahaman saya tentang slide Scott sangat dangkal dan sebagian melenceng, Anda membuatnya jelas!
Tommaso Guerrini