Pemahaman saya tentang perdebatan bayesian vs sering adalah bahwa statistik sering:
- adalah (atau mengklaim sebagai) objektif
- atau setidaknya tidak bias
- jadi peneliti yang berbeda, menggunakan asumsi yang berbeda masih bisa mendapatkan hasil yang sebanding secara kuantitatif
sementara statistik bayesian
- mengklaim membuat prediksi "lebih baik" (mis. kerugian yang diperkirakan lebih rendah), karena dapat menggunakan pengetahuan sebelumnya (di antara alasan lain)
- membutuhkan lebih sedikit pilihan "ad hoc", menggantikannya dengan pilihan sebelumnya / model yang (setidaknya pada prinsipnya) memiliki interpretasi dunia nyata.
Mengingat itu, saya akan berharap bahwa statistik bayesian akan sangat populer di SPC: Jika saya adalah seorang pemilik pabrik yang mencoba untuk mengontrol kualitas proses saya, saya terutama akan peduli dengan kehilangan yang diharapkan; Jika saya bisa menguranginya, karena saya memiliki pengetahuan sebelumnya yang lebih / lebih baik daripada pesaing saya, bahkan lebih baik.
Tetapi praktis semua yang saya baca tentang SPC tampaknya sering terjadi (yaitu tidak ada distribusi sebelumnya, estimasi titik semua parameter, banyak pilihan ad-hoc tentang ukuran sampel, nilai p, dll.)
Mengapa demikian? Saya bisa melihat mengapa statistik frequentist adalah pilihan yang lebih baik di tahun 1960-an, ketika SPC dilakukan dengan menggunakan pena dan kertas. Tetapi mengapa tidak ada yang mencoba metode yang berbeda sejak saat itu?
sumber
Jawaban:
PERINGATAN Saya menulis jawaban ini sejak lama dengan sedikit sekali gagasan tentang apa yang saya bicarakan. Saya tidak bisa menghapusnya karena sudah diterima, tetapi saya tidak bisa berdiri di belakang sebagian besar konten.
Ini adalah jawaban yang sangat panjang dan saya harap ini akan membantu dalam beberapa cara. SPC bukan wilayah saya, tetapi saya pikir komentar ini cukup umum sehingga mereka berlaku di sini.
Saya berpendapat bahwa keuntungan yang paling sering dikutip - kemampuan untuk menggabungkan keyakinan sebelumnya - adalah keuntungan lemah yang diterapkan bidang empiris. Itu karena Anda perlu mengukur prior Anda. Bahkan jika saya dapat mengatakan "baik, level z jelas tidak masuk akal," Saya tidak bisa seumur hidup memberi tahu Anda apa yang harus terjadi di bawah z. Kecuali jika penulis mulai menerbitkan data mentah mereka berbondong-bondong, tebakan terbaik saya untuk prior adalah saat-saat bersyarat yang diambil dari pekerjaan sebelumnya yang mungkin atau mungkin tidak dipasang dalam kondisi yang sama dengan yang Anda hadapi.
Pada dasarnya, teknik Bayesian (setidaknya pada tingkat konseptual) sangat baik untuk ketika Anda memiliki asumsi / ide / model yang kuat dan ingin membawanya ke data, kemudian lihat seberapa salah atau salahnya Anda ternyata. Tetapi seringkali Anda tidak ingin melihat apakah Anda benar tentang satu model tertentu untuk proses bisnis Anda; semakin besar kemungkinan Anda tidak punyamodel, dan mencari untuk melihat apa yang proses Anda akan lakukan. Anda tidak ingin mendorong kesimpulan Anda, Anda ingin data Anda mendorong kesimpulan Anda. Jika Anda memiliki cukup data, toh itu yang akan terjadi, tetapi dalam kasus itu mengapa repot dengan yang sebelumnya? Mungkin itu terlalu skeptis dan enggan mengambil risiko, tetapi saya belum pernah mendengar tentang pebisnis yang optimis yang juga sukses. Tidak ada cara untuk mengukur ketidakpastian Anda tentang keyakinan Anda sendiri, dan Anda lebih suka tidak mengambil risiko terlalu percaya diri dalam hal yang salah. Jadi, Anda menetapkan sebelumnya tidak informatif dan keuntungan menghilang.
Ini menarik dalam kasus SPC karena tidak seperti dalam, katakanlah, pemasaran digital, proses bisnis Anda tidak selamanya dalam keadaan fluks yang tidak dapat diprediksi. Kesan saya adalah bahwa proses bisnis cenderung berubah dengan sengaja dan bertahap. Artinya, Anda memiliki waktu yang lama untuk membangun prioritas yang baik dan aman. Tetapi ingat bahwa prior adalah semua tentang menyebarkan ketidakpastian. Di samping subjektivitasnya, Bayesianisme memiliki keuntungan bahwa ia secara objektif menyebarkan ketidakpastian di seluruh proses-proses yang menghasilkan data yang mendalam. Bagi saya, itulah yang benar - benar baik untuk statistik Bayesian. Dan jika Anda mencari keandalan proses Anda jauh dari batas "signifikansi" 1-in-20, sepertinya Anda ingin memperhitungkan sebanyak mungkin ketidakpastian.
Jadi di mana model Bayesian? Pertama, mereka sulit diimplementasikan. Terus terang, saya bisa mengajar OLS ke insinyur mesin dalam 15 menit dan meminta dia melakukan regresi dan uji-t di Matlab di 5. Lain. Untuk menggunakan Bayes, pertama-tama saya harus memutuskan model apa yang saya pas, dan kemudian melihat apakah ada perpustakaan yang sudah jadi untuk itu dalam bahasa yang diketahui seseorang di perusahaan saya. Jika tidak, saya harus menggunakan BUGS atau Stan. Dan kemudian saya harus menjalankan simulasi untuk mendapatkan jawaban dasar, dan itu membutuhkan waktu sekitar 15 menit pada mesin i7 8-core. Begitu banyak untuk prototyping cepat. Dan yang kedua, pada saat Anda mendapatkan jawaban, Anda telah menghabiskan dua jam pengkodean dan menunggu, hanya untuk mendapatkan hasil yang sama seperti yang Anda miliki dengan efek acak yang sering terjadi dengan kesalahan standar berkerumun. Mungkin ini semua lancang dan salah kepala dan saya tidak mengerti SPC sama sekali.
Saya menyamakan Bayesianisme dengan pisau koki yang sangat berkualitas tinggi, panci, dan panci tumis ; frequentism adalah seperti dapur yang penuh dengan alat As-Seen-On-TV seperti alat pengiris pisang dan pot pasta dengan lubang di tutupnya agar mudah dikeringkan . Jika Anda seorang juru masak yang terlatih dengan banyak pengalaman di dapur - memang, di dapur Anda sendiri pengetahuan substantif, yang bersih dan terorganisir dan Anda tahu di mana semuanya berada - Anda dapat melakukan hal-hal menakjubkan dengan pilihan kecil Anda. alat elegan, berkualitas tinggi. Atau, Anda dapat menggunakan banyak alat ad-hoc * kecil yang berbeda, yang tidak membutuhkan keahlian untuk menggunakan, untuk membuat makanan yang sederhana, benar-benar tidak buruk, dan memiliki beberapa rasa dasar yang dapat menjelaskan maksudnya. Anda baru saja pulang dari tambang data dan Anda lapar akan hasilnya; kamu masak yang mana?
* Bayes sama ad-hoc, tetapi kurang transparan . Berapa banyak anggur dalam coq au vin Anda? Tidak tahu, Anda melihatnya karena Anda seorang profesional. Atau, Anda tidak dapat membedakan antara Pinot Grigio dan Pinot Noir, tetapi resep pertama Epicurious mengatakan untuk menggunakan 2 cangkir yang merah sehingga itulah yang akan Anda lakukan. Mana yang lebih "ad-hoc?"
sumber
Menurut pendapat saya yang sederhana, statistik Bayesian menderita beberapa kelemahan yang bertentangan dengan penggunaannya yang luas (di SPC tetapi di sektor penelitian lainnya juga):
Lebih sulit untuk mendapatkan perkiraan vs rekannya yang sering (bagian terluas dari statistik mengadopsi pendekatan frequentist. Omong-omong, akan menarik untuk menyelidiki apakah ini adalah penyebab atau efek dari popularitas yang terbatas dari statistik Bayesian ).
Sangat sering statistik Bayesian memaksakan pilihan tentang berbagai cara untuk menghadapi masalah yang sama (misalnya, mana yang terbaik sebelumnya?), Bukan hanya klik-dan-lihat (lagi pula, pendekatan ini tidak boleh didorong dalam kerangka kerja yang sering terjadi, baik).
Statistik Bayesian memiliki beberapa topik yang sulit dikelola oleh ahli statistik yang kurang berpengalaman (misalnya, prior yang tidak patut );
Ini membutuhkan analisis sensitivitas (biasanya dihindari di bawah kerangka frequentist), dan pengecualian dibuat untuk beberapa topik, seperti analisis data yang hilang.
Ini hanya memiliki satu (secara mengagumkan, dapat diunduh gratis) tersedia untuk perhitungan.
Ini membutuhkan waktu lebih lama untuk menjadi seorang peneliti otonom dengan Bayesian daripada dengan alat frequentist.
sumber
Salah satu alasannya adalah bahwa statistik Bayes dibekukan keluar dari arus utama sampai sekitar tahun 1990. Ketika saya mempelajari statistik pada tahun 1970-an, hampir bid'ah (tidak di mana-mana, tetapi di sebagian besar program pascasarjana). Itu tidak membantu bahwa sebagian besar masalah menarik tidak terselesaikan. Akibatnya, hampir semua orang yang mengajar statistik hari ini (dan meninjau artikel untuk jurnal, dan merancang kurikulum) dilatih sebagai sering. Hal-hal mulai berubah sekitar tahun 1990 dengan mempopulerkan metode Markov Chain Monte Carlo (MCMC) yang secara bertahap menemukan jalan mereka ke dalam paket-paket seperti SAS dan Stata. Secara pribadi saya pikir mereka akan jauh lebih umum dalam 10 tahun meskipun dalam aplikasi khusus (SPC) mereka mungkin tidak memiliki banyak keuntungan.
Satu kelompok yang terbangun membuat analisis Bayesian lebih banyak tersedia adalah kelompok yang mengembangkan paket STAN (mc-stan.org).
sumber