Pertanyaan keseluruhan saya adalah: mengapa menggunakan bayesglm
metode klasifikasi lainnya?
catatan:
- Saya hanya tertarik pada prediksi.
- Saya memiliki jumlah data yang layak (~ 100.000 obs).
Saya merasa ukuran sampel cukup besar sehingga parameter regresi logistik reguler akan terdistribusi normal (CLT). Apa yang akan saya dapatkan dengan menentukan prior? Firasat saya adalah bahwa itu hanya akan menjadi masalah untuk dataset kecil, tapi saya tidak punya bukti teoritis atau terapan.
bayesian
generalized-linear-model
wcampbell
sumber
sumber
Jawaban:
Dalam bidang teknik, serta manajemen risiko rantai pasokan, "pengetahuan teknik" - contoh tebakan terbaik bagi orang yang berpendidikan - mungkin merupakan data terbaik yang Anda miliki. Misalnya, kemungkinan tsunami terjadi dan mengganggu rantai pasokan, tanpa data tambahan, dapat diperkirakan oleh seorang ahli dalam subjek (ada metode yang lebih baik untuk membangun prior). Seiring berlalunya waktu, tsunami terjadi dan, sebagai hasilnya, kami mendapatkan lebih banyak data, dan dapat memperbarui prior kami (pengetahuan teknik) dengan posterior (prior disesuaikan dengan data baru). Pada titik tertentu, akan ada begitu banyak data sehingga prior awal tidak relevan, dan tidak peduli siapa yang membuat prediksi, Anda akan memiliki prediksi kemungkinan yang sama.
Adalah keyakinan saya bahwa jika Anda memiliki banyak data, pendekatan Frequentist "tradisional" lebih disukai daripada pendekatan Bayesian (tentu saja orang lain akan tidak setuju, terutama dengan memilih antara filosofi statistik daripada berpegang teguh pada satu dan memilih metode yang sesuai ). Perhatikan bahwa sangat mungkin (dan sering terjadi) bahwa pendekatan Frequentist menghasilkan hasil yang sama / identik dengan Bayesian.
Yang mengatakan, ketika perbedaan dalam metode adalah garis kode, mengapa tidak menerapkan beberapa metode dan membandingkan hasilnya sendiri?
sumber