Mengapa menggunakan bayesglm?

8

Pertanyaan keseluruhan saya adalah: mengapa menggunakan bayesglmmetode klasifikasi lainnya?

catatan:

  1. Saya hanya tertarik pada prediksi.
  2. Saya memiliki jumlah data yang layak (~ 100.000 obs).

Saya merasa ukuran sampel cukup besar sehingga parameter regresi logistik reguler akan terdistribusi normal (CLT). Apa yang akan saya dapatkan dengan menentukan prior? Firasat saya adalah bahwa itu hanya akan menjadi masalah untuk dataset kecil, tapi saya tidak punya bukti teoritis atau terapan.

wcampbell
sumber
4
Intuisi Anda tentang hubungan antara ukuran sampel dan prior sudah benar. Di sisi lain, regresi logistik Bayesian dapat memecahkan masalah estimasi parameter tak terbatas yang dihasilkan dari pemisahan sempurna.
Sycorax berkata Reinstate Monica
1
Regresi logistik bukan algoritma klasifikasi. Ini adalah algoritma prediksi probabilitas.
Brash Equilibrium
1
Apa yang Sycorax sebutkan adalah salah satu alasan paling penting Anda ingin menggunakan model Bayesian dalam pengaturan sampel besar. Jika regresi logistik Anda memiliki banyak prediktor, terutama prediktor dengan varians rendah, pertimbangkan untuk memiliki prioritas lebih dari koefisien regresi.
Brash Equilibrium

Jawaban:

8

Dalam bidang teknik, serta manajemen risiko rantai pasokan, "pengetahuan teknik" - contoh tebakan terbaik bagi orang yang berpendidikan - mungkin merupakan data terbaik yang Anda miliki. Misalnya, kemungkinan tsunami terjadi dan mengganggu rantai pasokan, tanpa data tambahan, dapat diperkirakan oleh seorang ahli dalam subjek (ada metode yang lebih baik untuk membangun prior). Seiring berlalunya waktu, tsunami terjadi dan, sebagai hasilnya, kami mendapatkan lebih banyak data, dan dapat memperbarui prior kami (pengetahuan teknik) dengan posterior (prior disesuaikan dengan data baru). Pada titik tertentu, akan ada begitu banyak data sehingga prior awal tidak relevan, dan tidak peduli siapa yang membuat prediksi, Anda akan memiliki prediksi kemungkinan yang sama.

Adalah keyakinan saya bahwa jika Anda memiliki banyak data, pendekatan Frequentist "tradisional" lebih disukai daripada pendekatan Bayesian (tentu saja orang lain akan tidak setuju, terutama dengan memilih antara filosofi statistik daripada berpegang teguh pada satu dan memilih metode yang sesuai ). Perhatikan bahwa sangat mungkin (dan sering terjadi) bahwa pendekatan Frequentist menghasilkan hasil yang sama / identik dengan Bayesian.

Yang mengatakan, ketika perbedaan dalam metode adalah garis kode, mengapa tidak menerapkan beberapa metode dan membandingkan hasilnya sendiri?

TLJ
sumber
Terima kasih! Penjelasan yang bagus tentang beberapa aspek pemikiran Bayesian - bukan sesuatu yang sangat saya kenal.
wcampbell