Sederhananya: Apakah ada perbedaan dalam pendekatan Bayesian dan Frequentist untuk Analisis Data Eksplorasi?
Saya tahu tidak ada bias yang melekat dalam metode EDA sebagai histogram adalah histogram, sebar sebar adalah sebar sebar, dll, juga tidak saya menemukan contoh perbedaan dalam bagaimana EDA diajarkan atau disajikan (mengabaikan makalah teoretis khusus oleh A. Gelman) . Akhirnya, saya melihat CRAN, wasit dari semua hal yang diterapkan: Saya belum menemukan paket yang disesuaikan dengan pendekatan Bayesian. Namun, saya pikir CV mungkin memiliki beberapa orang yang bisa menjelaskan hal ini.
Mengapa harus ada perbedaan?
Sebagai permulaan:
- Ketika mengidentifikasi distribusi yang sesuai sebelumnya, tidakkah orang harus menyelidiki ini secara visual?
- Ketika meringkas data dan menyarankan apakah akan menggunakan model frequentist atau Bayesian, bukankah EDA menyarankan ke arah mana harus pergi?
- Kedua pendekatan memiliki perbedaan yang sangat jelas tentang cara menangani model campuran. Mengidentifikasi bahwa sampel yang kemungkinan berasal dari campuran populasi merupakan tantangan dan terkait langsung dengan metodologi yang digunakan untuk memperkirakan parameter campuran.
- Kedua pendekatan menggabungkan model stokastik dan pemilihan model didorong oleh pemahaman data. Data yang lebih kompleks atau model yang lebih kompleks memerlukan lebih banyak waktu dalam EDA. Dengan perbedaan antara model stokastik atau proses menghasilkan, ada perbedaan dalam kegiatan EDA, jadi bukankah seharusnya ada perbedaan yang timbul dari berbagai pendekatan stokastik?
Catatan 1: Saya tidak peduli dengan filosofi dari kedua "kamp" - Saya hanya ingin mengatasi kesenjangan dalam toolkit dan metode EDA saya.
sumber
Saya pikir itu, EDA membantu Anda untuk membangun model, membuat beberapa asumsi dan (jika perlu) memperbarui model dan asumsi-asumsinya. Saya memilih pendekatan pragmatik untuk digunakan untuk pemasangan dan penilaian model.
sumber