Mengapa statistik bayesian tidak lebih populer untuk pengendalian proses statistik?

18

Pemahaman saya tentang perdebatan bayesian vs sering adalah bahwa statistik sering:

  • adalah (atau mengklaim sebagai) objektif
  • atau setidaknya tidak bias
  • jadi peneliti yang berbeda, menggunakan asumsi yang berbeda masih bisa mendapatkan hasil yang sebanding secara kuantitatif

sementara statistik bayesian

  • mengklaim membuat prediksi "lebih baik" (mis. kerugian yang diperkirakan lebih rendah), karena dapat menggunakan pengetahuan sebelumnya (di antara alasan lain)
  • membutuhkan lebih sedikit pilihan "ad hoc", menggantikannya dengan pilihan sebelumnya / model yang (setidaknya pada prinsipnya) memiliki interpretasi dunia nyata.

Mengingat itu, saya akan berharap bahwa statistik bayesian akan sangat populer di SPC: Jika saya adalah seorang pemilik pabrik yang mencoba untuk mengontrol kualitas proses saya, saya terutama akan peduli dengan kehilangan yang diharapkan; Jika saya bisa menguranginya, karena saya memiliki pengetahuan sebelumnya yang lebih / lebih baik daripada pesaing saya, bahkan lebih baik.

Tetapi praktis semua yang saya baca tentang SPC tampaknya sering terjadi (yaitu tidak ada distribusi sebelumnya, estimasi titik semua parameter, banyak pilihan ad-hoc tentang ukuran sampel, nilai p, dll.)

Mengapa demikian? Saya bisa melihat mengapa statistik frequentist adalah pilihan yang lebih baik di tahun 1960-an, ketika SPC dilakukan dengan menggunakan pena dan kertas. Tetapi mengapa tidak ada yang mencoba metode yang berbeda sejak saat itu?

nikie
sumber
2
Saya pikir statistik Bayesian sebagai kamera Digital SLP saya sementara sering sebagai kamera iPhone. Saya membeli keduanya kadang-kadang tetapi saya menggunakan DSLR kurang dari 5% dari foto sementara sisanya 95%. Karena itu mudah, praktis dan dalam saku dan banyak waktu menyediakan sesuai kualitas (berdasarkan keterampilan DSLR saya). Sama seperti memasukkan prior dan menjalankan rantai dalam jerami saya perlu menemukan keseimbangan optimal dari durasi pembukaan, panjang, dan parameter lainnya. Iphone akhir yang populer.
Ram Sharma
@RamSharma Anda harus memposting itu sebagai jawaban! Saya menyukainya lebih baik daripada analogi pisau koki saya.
shadowtalker

Jawaban:

18

PERINGATAN Saya menulis jawaban ini sejak lama dengan sedikit sekali gagasan tentang apa yang saya bicarakan. Saya tidak bisa menghapusnya karena sudah diterima, tetapi saya tidak bisa berdiri di belakang sebagian besar konten.


Ini adalah jawaban yang sangat panjang dan saya harap ini akan membantu dalam beberapa cara. SPC bukan wilayah saya, tetapi saya pikir komentar ini cukup umum sehingga mereka berlaku di sini.

Saya berpendapat bahwa keuntungan yang paling sering dikutip - kemampuan untuk menggabungkan keyakinan sebelumnya - adalah keuntungan lemah yang diterapkan bidang empiris. Itu karena Anda perlu mengukur prior Anda. Bahkan jika saya dapat mengatakan "baik, level z jelas tidak masuk akal," Saya tidak bisa seumur hidup memberi tahu Anda apa yang harus terjadi di bawah z. Kecuali jika penulis mulai menerbitkan data mentah mereka berbondong-bondong, tebakan terbaik saya untuk prior adalah saat-saat bersyarat yang diambil dari pekerjaan sebelumnya yang mungkin atau mungkin tidak dipasang dalam kondisi yang sama dengan yang Anda hadapi.

Pada dasarnya, teknik Bayesian (setidaknya pada tingkat konseptual) sangat baik untuk ketika Anda memiliki asumsi / ide / model yang kuat dan ingin membawanya ke data, kemudian lihat seberapa salah atau salahnya Anda ternyata. Tetapi seringkali Anda tidak ingin melihat apakah Anda benar tentang satu model tertentu untuk proses bisnis Anda; semakin besar kemungkinan Anda tidak punyamodel, dan mencari untuk melihat apa yang proses Anda akan lakukan. Anda tidak ingin mendorong kesimpulan Anda, Anda ingin data Anda mendorong kesimpulan Anda. Jika Anda memiliki cukup data, toh itu yang akan terjadi, tetapi dalam kasus itu mengapa repot dengan yang sebelumnya? Mungkin itu terlalu skeptis dan enggan mengambil risiko, tetapi saya belum pernah mendengar tentang pebisnis yang optimis yang juga sukses. Tidak ada cara untuk mengukur ketidakpastian Anda tentang keyakinan Anda sendiri, dan Anda lebih suka tidak mengambil risiko terlalu percaya diri dalam hal yang salah. Jadi, Anda menetapkan sebelumnya tidak informatif dan keuntungan menghilang.

Ini menarik dalam kasus SPC karena tidak seperti dalam, katakanlah, pemasaran digital, proses bisnis Anda tidak selamanya dalam keadaan fluks yang tidak dapat diprediksi. Kesan saya adalah bahwa proses bisnis cenderung berubah dengan sengaja dan bertahap. Artinya, Anda memiliki waktu yang lama untuk membangun prioritas yang baik dan aman. Tetapi ingat bahwa prior adalah semua tentang menyebarkan ketidakpastian. Di samping subjektivitasnya, Bayesianisme memiliki keuntungan bahwa ia secara objektif menyebarkan ketidakpastian di seluruh proses-proses yang menghasilkan data yang mendalam. Bagi saya, itulah yang benar - benar baik untuk statistik Bayesian. Dan jika Anda mencari keandalan proses Anda jauh dari batas "signifikansi" 1-in-20, sepertinya Anda ingin memperhitungkan sebanyak mungkin ketidakpastian.

Jadi di mana model Bayesian? Pertama, mereka sulit diimplementasikan. Terus terang, saya bisa mengajar OLS ke insinyur mesin dalam 15 menit dan meminta dia melakukan regresi dan uji-t di Matlab di 5. Lain. Untuk menggunakan Bayes, pertama-tama saya harus memutuskan model apa yang saya pas, dan kemudian melihat apakah ada perpustakaan yang sudah jadi untuk itu dalam bahasa yang diketahui seseorang di perusahaan saya. Jika tidak, saya harus menggunakan BUGS atau Stan. Dan kemudian saya harus menjalankan simulasi untuk mendapatkan jawaban dasar, dan itu membutuhkan waktu sekitar 15 menit pada mesin i7 8-core. Begitu banyak untuk prototyping cepat. Dan yang kedua, pada saat Anda mendapatkan jawaban, Anda telah menghabiskan dua jam pengkodean dan menunggu, hanya untuk mendapatkan hasil yang sama seperti yang Anda miliki dengan efek acak yang sering terjadi dengan kesalahan standar berkerumun. Mungkin ini semua lancang dan salah kepala dan saya tidak mengerti SPC sama sekali.

Saya menyamakan Bayesianisme dengan pisau koki yang sangat berkualitas tinggi, panci, dan panci tumis ; frequentism adalah seperti dapur yang penuh dengan alat As-Seen-On-TV seperti alat pengiris pisang dan pot pasta dengan lubang di tutupnya agar mudah dikeringkan . Jika Anda seorang juru masak yang terlatih dengan banyak pengalaman di dapur - memang, di dapur Anda sendiri pengetahuan substantif, yang bersih dan terorganisir dan Anda tahu di mana semuanya berada - Anda dapat melakukan hal-hal menakjubkan dengan pilihan kecil Anda. alat elegan, berkualitas tinggi. Atau, Anda dapat menggunakan banyak alat ad-hoc * kecil yang berbeda, yang tidak membutuhkan keahlian untuk menggunakan, untuk membuat makanan yang sederhana, benar-benar tidak buruk, dan memiliki beberapa rasa dasar yang dapat menjelaskan maksudnya. Anda baru saja pulang dari tambang data dan Anda lapar akan hasilnya; kamu masak yang mana?

* Bayes sama ad-hoc, tetapi kurang transparan . Berapa banyak anggur dalam coq au vin Anda? Tidak tahu, Anda melihatnya karena Anda seorang profesional. Atau, Anda tidak dapat membedakan antara Pinot Grigio dan Pinot Noir, tetapi resep pertama Epicurious mengatakan untuk menggunakan 2 cangkir yang merah sehingga itulah yang akan Anda lakukan. Mana yang lebih "ad-hoc?"

shadowtalker
sumber
1
+1, jawaban yang bagus. Saya ingin tahu: Bisakah Anda menambahkan paragraf tentang ukuran sampel kecil / adaptif? Dalam SPC, ukuran sampel 3-5 tampaknya umum. Dan jika perangkat lunak SPC dapat memberi tahu teknisi setelah 2 sampel apakah benar-benar membutuhkan 3 sampel lagi atau tidak, itu akan menjadi fitur yang hebat . Dengan model bayesian, itu hampir tidak ada artinya: Tetapkan biaya untuk pengukuran, false positive dan -negative, lalu perkirakan biaya yang diharapkan untuk melakukan pengukuran lain vs berhenti. Dalam statistik frequentist, Anda harus berurusan dengan efek aturan pemberhentian yang aneh (Bisakah Anda mengajari mereka kepada ME dalam 15 menit?)
nikie
1
Adapun ukuran sampel, masalahnya, dan saya akan menyebutkan ini jika saya tahu sampelnya sekecil itu, adalah bahwa dengan sangat sedikit pengamatan perkiraan Anda akan sangat sensitif terhadap pilihan Anda sebelumnya. Anda tidak bisa mendapatkan darah dari batu, jadi itu adalah kompromi: Anda terlalu banyak berpakaian dengan penduga sering, tetapi melakukannya dengan beberapa asumsi, atau Anda memasukkan pengetahuan Anda sendiri (atau ketiadaan) menjadi cukup jelas sebelumnya dan pada dasarnya cocok untuk data yang Anda miliki di depan Anda dan "data" yang ada di kepala Anda. Anda diizinkan memiliki seragam sebelum di kepala Anda.
shadowtalker
1
Pada dasarnya, Bayes memberi lebih banyak beban pada analis untuk menggunakan otaknya sejak awal. Saya pribadi berpikir menjadi benci dengan ide menetapkan prior adalah tanda bahwa Anda salah a) terlalu malas untuk, atau b) tidak benar-benar mengerti bagaimana statistik bekerja (dibutuhkan seseorang untuk mengetahuinya, dll). Saya mengatakan sulit untuk mengukur prior dalam jawaban saya; Saya sebenarnya tidak setuju dengan itu dalam praktek. Satu hal yang selalu dapat Anda lakukan adalah menggambar kurva lonceng pada sebuah halaman, dan tanyakan pada diri Anda "apakah saya akan mengharapkan data saya terlihat seperti itu?" Jika tidak, mulailah mengubah kurva. Dan jika Anda tidak dapat memutuskan di mana harus tetap mode, gunakan hyperprior.
shadowtalker
2
Satu pertanyaan (tidak dimaksudkan sebagai nakal): Anda tahu ada literatur tentang (secara kuantitatif) meminta kepercayaan sebelumnya, kan? Termasuk keyakinan yang dipublikasikan, keyakinan ahli dan non-pakar yang diwawancarai, dan kepercayaan diri. Alasan saya bertanya, adalah bahwa saya telah mendengar keluhan ini sebelumnya, tetapi penulis keluhan tersebut berpikir bahwa keberatan mereka adalah akhir dari diskusi, bukan awal dari penyelidikan.
Alexis
1
@CliffAB Menarik ... Saya belum membaca literatur itu secara mendalam (Bernardo, Kaas, Garthwaite ... dari beberapa dekade sebelumnya) ... tapi itu sains yang sarat dengan nilai bagi Anda: keyakinan sebelumnya yang berbeda menginformasikan apakah seseorang lebih suka metode frequentist atau Bayesian. ;)
Alexis
5

Menurut pendapat saya yang sederhana, statistik Bayesian menderita beberapa kelemahan yang bertentangan dengan penggunaannya yang luas (di SPC tetapi di sektor penelitian lainnya juga):

  1. Lebih sulit untuk mendapatkan perkiraan vs rekannya yang sering (bagian terluas dari statistik mengadopsi pendekatan frequentist. Omong-omong, akan menarik untuk menyelidiki apakah ini adalah penyebab atau efek dari popularitas yang terbatas dari statistik Bayesian ).

  2. Sangat sering statistik Bayesian memaksakan pilihan tentang berbagai cara untuk menghadapi masalah yang sama (misalnya, mana yang terbaik sebelumnya?), Bukan hanya klik-dan-lihat (lagi pula, pendekatan ini tidak boleh didorong dalam kerangka kerja yang sering terjadi, baik).

  3. Statistik Bayesian memiliki beberapa topik yang sulit dikelola oleh ahli statistik yang kurang berpengalaman (misalnya, prior yang tidak patut );

  4. Ini membutuhkan analisis sensitivitas (biasanya dihindari di bawah kerangka frequentist), dan pengecualian dibuat untuk beberapa topik, seperti analisis data yang hilang.

  5. Ini hanya memiliki satu (secara mengagumkan, dapat diunduh gratis) tersedia untuk perhitungan.

  6. Ini membutuhkan waktu lebih lama untuk menjadi seorang peneliti otonom dengan Bayesian daripada dengan alat frequentist.

Carlo Lazzaro
sumber
6
Jawaban yang bagus tetapi saya tidak setuju dengan poin 5: Saya bisa memikirkan banyak perangkat lunak (gratis) yang berbeda untuk analisis Bayesian: WinBUGS, OpenBUGS, JAGS, Stan, PyMC ... dan saya yakin masih ada lagi. Apa yang akan saya katakan adalah bahwa semua perangkat lunak ini memiliki kurva belajar yang curam dan membutuhkan jumlah pemrograman dan pengetahuan statistik yang layak.
COOLSerdash
COOLSerdash benar dan saya menyambut baik klarifikasi dan komentar. Kurangnya kelengkapan saya dalam daftar perangkat lunak analisis Bayesian mungkin didorong oleh keakraban saya (longgar) dengan WinBugs saja.
Carlo Lazzaro
@CarloLazzaro Saya setuju dengan poin COOLSerdash tentang # 5, juga: Pada versi 14, paket statistik mainstream namun berlisensi Stata sekarang menggabungkan model Bayesian dan estimasi dalam paket vanilla. Saya pikir ketersediaan komputasi Bayesian hanya akan tumbuh. Tetapi poin Anda yang lain adalah penting, dan harus membantu menginformasikan agenda untuk pendukung Bayesian.
Alexis
@Alexis: menjadi pengguna Stata saya senang dengan rasa Bayesian yang cukup baru. Sebagai pemikiran yang lebih umum, saya akan menjamin belajar pendekatan frequentist dan Bayesian selama kelas statistik di universitas (mungkin para likelihoodist mulai menggerutu !!).
Carlo Lazzaro
3

Salah satu alasannya adalah bahwa statistik Bayes dibekukan keluar dari arus utama sampai sekitar tahun 1990. Ketika saya mempelajari statistik pada tahun 1970-an, hampir bid'ah (tidak di mana-mana, tetapi di sebagian besar program pascasarjana). Itu tidak membantu bahwa sebagian besar masalah menarik tidak terselesaikan. Akibatnya, hampir semua orang yang mengajar statistik hari ini (dan meninjau artikel untuk jurnal, dan merancang kurikulum) dilatih sebagai sering. Hal-hal mulai berubah sekitar tahun 1990 dengan mempopulerkan metode Markov Chain Monte Carlo (MCMC) yang secara bertahap menemukan jalan mereka ke dalam paket-paket seperti SAS dan Stata. Secara pribadi saya pikir mereka akan jauh lebih umum dalam 10 tahun meskipun dalam aplikasi khusus (SPC) mereka mungkin tidak memiliki banyak keuntungan.

Satu kelompok yang terbangun membuat analisis Bayesian lebih banyak tersedia adalah kelompok yang mengembangkan paket STAN (mc-stan.org).

persamaan1
sumber
Selamat datang di situs kami! Hanya catatan bahwa itu "Stata" dan bukan "STATA" - Saya telah berada di ujung yang salah dari pengguna Stata ketika saya telah memanfaatkannya sendiri! (Saya pikir itu seperti SAS, SPSS dll, tetapi ternyata tidak ...)
Silverfish