Dengan paket Stan dan frontend rstanarm
atau brms
saya dapat dengan mudah menganalisis data dengan cara Bayesian seperti yang saya lakukan sebelumnya dengan model campuran seperti lme
. Sementara saya memiliki sebagian besar buku dan artikel oleh Kruschke-Gelman-Wagenmakers-dll di meja saya, ini tidak memberi tahu saya bagaimana meringkas hasil untuk audiens medis, terpecah antara Skylla murka Bayesian dan Charybdis pengulas medis ( "Kami ingin signifikansi, bukan hal-hal yang menyebar").
Contoh: Frekuensi lambung (1 / mnt) diukur dalam tiga kelompok; kontrol yang sehat adalah rujukan. Ada beberapa pengukuran untuk setiap peserta, jadi à la frequentist saya menggunakan model campuran berikut lme
:
summary(lme(freq_min~ group, random = ~1|study_id, data = mo))
Hasil yang sedikit diedit:
Fixed effects: freq_min ~ group
Value Std.Error DF t-value p-value
(Intercept) 2.712 0.0804 70 33.7 0.0000
groupno_symptoms 0.353 0.1180 27 3.0 0.0058
groupwith_symptoms 0.195 0.1174 27 1.7 0.1086
Untuk kesederhanaan, saya akan menggunakan kesalahan 2 * std sebagai 95% CI.
Dalam konteks frequentist, saya akan meringkas ini sebagai:
- Pada kelompok kontrol, frekuensi yang diperkirakan adalah 2,7 / mnt (mungkin tambahkan CI di sini, tapi saya kadang-kadang menghindari ini karena kebingungan yang diciptakan oleh CI absolut dan perbedaan).
- Pada kelompok gejala no_sim, frekuensi lebih tinggi sebesar 0,4 / mnt, CI (0,11 hingga 0,59) / mnt, p = 0,006 daripada kontrol.
- Pada kelompok with_symacter, frekuensi lebih tinggi sebesar 0,2 / menit, CI (-0,04 hingga 0,4) / menit, p = 0,11 dari kontrol.
Ini adalah tentang kompleksitas maksimum yang dapat diterima untuk publikasi medis, peninjau mungkin akan meminta saya untuk menambahkan "tidak signifikan" dalam kasus kedua.
Di sini adalah sama dengan stan_lmer
dan standar bawaan.
freq_stan = stan_lmer(freq_min~ group + (1|study_id), data = mo)
contrast lower_CredI frequency upper_CredI
(Intercept) 2.58322 2.714 2.846
groupno_symptoms 0.15579 0.346 0.535
groupwith_symptoms -0.00382 0.188 0.384
di mana CredI adalah interval kredibel 90% (lihat sketsa rstanarm mengapa 90% digunakan sebagai default.)
Pertanyaan:
- Bagaimana menerjemahkan ringkasan di atas ke dunia Bayesian?
- Sejauh mana diperlukan diskusi sebelumnya? Saya cukup yakin makalah itu akan kembali dengan "asumsi subyektif" yang biasa ketika saya menyebutkan prior; atau setidaknya dengan "tidak ada diskusi teknis, silakan". Namun semua otoritas Bayesian meminta agar interpretasi hanya berlaku dalam konteks prior.
- Bagaimana saya bisa memberikan pengganti "signifikansi" dalam perumusan, tanpa mengkhianati konsep Bayesian? Sesuatu seperti "berbeda secara kredibel" (uuuh ...) atau hampir berbeda secara kredibel (buoha ..., terdengar seperti "hampir penuh makna).
Jonah Gabry dan Ben Goodrich (2016). rstanarm: Pemodelan Regresi Terapan Bayesian melalui Stan. Paket R versi 2.9.0-3. https://CRAN.R-project.org/package=rstanarm
Tim Pengembangan Stan (2015). Stan: Perpustakaan C ++ untuk Probabilitas dan Pengambilan Sampel, Versi 2.8.0. URL http://mc-stan.org/ .
Paul-Christian Buerkner (2016). brms: Model Regresi Bayesian menggunakan Stan. Paket R versi 0.8.0. https://CRAN.R-project.org/package=brms
Pinheiro J, Bates D, DebRoy S, Sarkar D dan R Core Team (2016). nlme: Model Efek Campuran Linier dan Nonlinier . Paket R versi 3.1-124, http://CRAN.R-project.org/package=nlme>.
sumber
mean(as.matrix(freq_stan)[,"groupwith_symptoms"] < 0)
.group_nosymptoms
dan kemudian mengatakan probabilitasnya negatif1 / draws
. Tetapi untuk intersep, rantai tidak akan pernah berjalan ke wilayah negatif untuk data ini, jadi saya kira Anda bisa mengatakan probabilitasnya kurang dari1 / draws
.Jawaban:
Pikiran cepat:
1) Masalah utama adalah pertanyaan terapan yang Anda coba jawab untuk audiens Anda, karena itu menentukan informasi apa yang Anda inginkan dari analisis statistik Anda. Dalam hal ini, menurut saya Anda ingin memperkirakan besarnya perbedaan antara kelompok (atau mungkin besarnya rasio kelompok jika itu adalah ukuran yang lebih akrab bagi audiens Anda). Besarnya perbedaan tidak secara langsung disediakan oleh analisis yang Anda sajikan dalam pertanyaan. Tapi itu lurus ke depan untuk mendapatkan apa yang Anda inginkan dari analisis Bayesian: Anda ingin distribusi posterior perbedaan (atau rasio). Kemudian, dari distribusi posterior perbedaan (atau rasio), Anda dapat membuat pernyataan probabilitas langsung seperti ini:
"Perbedaan 95% paling kredibel jatuh di antara [batas HDI 95% rendah] dan [batas HDI 95% tinggi]" (di sini saya menggunakan interval kepadatan tertinggi [HDI] 95% sebagai interval kredibel, dan karena itu adalah dengan definisi nilai parameter kerapatan tertinggi yang dipoles sebagai 'paling kredibel')
Audiens jurnal medis akan secara intuitif dan benar memahami pernyataan itu, karena itulah yang biasanya dipikirkan oleh audiens adalah makna dari interval kepercayaan yang sering terjadi (walaupun itu bukan arti dari interval kepercayaan yang sering terjadi).
Bagaimana Anda mendapatkan perbedaan (atau rasio) dari Stan atau JAGS? Hanya dengan pasca-pemrosesan rantai MCMC yang lengkap. Pada setiap langkah dalam rantai, hitung perbedaan yang relevan (atau rasio), kemudian periksa distribusi posterior perbedaan (atau rasio). Contoh diberikan dalam DBDA2E https://sites.google.com/site/doingbayesiandataanalysis/ untuk MCMC umumnya pada Gambar 7.9 (p. 177), untuk JAGS pada Gambar 8.6 (p. 211), dan untuk Stan di Bagian 16.3 (p 468), dll!
2) Jika Anda dipaksa oleh tradisi untuk membuat pernyataan tentang apakah perbedaan nol ditolak atau tidak, Anda memiliki dua opsi Bayesian.
2A) Salah satu opsi adalah membuat pernyataan probabilitas tentang interval mendekati nol, dan hubungannya dengan HDI. Untuk ini, Anda menyiapkan wilayah kesetaraan praktis (ROPE) sekitar nol, yang hanya merupakan ambang batas keputusan yang sesuai untuk domain terapan Anda --- seberapa besar perbedaannya kecil? Pengaturan batas-batas tersebut secara rutin dilakukan dalam pengujian non-inferioritas klinis, misalnya. Jika Anda memiliki ukuran 'efek ukuran' di bidang Anda, mungkin ada konvensi untuk ukuran efek 'kecil', dan batas ROPE bisa, katakanlah, setengah dari efek kecil. Kemudian Anda dapat membuat pernyataan probabilitas langsung seperti ini:
"Hanya 1,2% dari distribusi perbedaan posterior praktis setara dengan nol"
dan
"Perbedaan 95% yang paling kredibel secara praktis tidak sama dengan nol (yaitu, HDI 95% dan ROPE tidak tumpang tindih) dan oleh karena itu kami menolak nol." (perhatikan perbedaan antara pernyataan probabilitas dari distribusi posterior, versus keputusan selanjutnya berdasarkan pernyataan itu)
Anda juga dapat menerima perbedaan nol, untuk tujuan praktis, jika 95% nilai yang paling kredibel semuanya praktis setara dengan nol.
2B) Pilihan Bayesian kedua adalah pengujian hipotesis nol Bayesian. (Perhatikan bahwa metode di atas tidakdisebut "pengujian hipotesis"!) Bayesian null hipotesis pengujian melakukan perbandingan model Bayesian dari distribusi sebelumnya yang mengasumsikan perbedaan hanya dapat nol terhadap distribusi sebelum alternatif yang mengasumsikan perbedaan itu bisa beberapa rentang kemungkinan yang tersebar. Hasil perbandingan model seperti itu (biasanya) sangat bergantung pada pilihan distribusi alternatif tertentu, dan oleh karena itu justifikasi yang cermat harus dilakukan untuk pemilihan alternatif sebelumnya. Yang terbaik adalah menggunakan setidaknya-sedikit-informasi awal untuk nol dan alternatif sehingga perbandingan model benar-benar bermakna. Perhatikan bahwa perbandingan model memberikan informasi yang berbeda dari perkiraan perbedaan antara kelompok karena perbandingan model ini membahas pertanyaan yang berbeda. Jadi, bahkan dengan perbandingan model,
Mungkin ada cara untuk melakukan uji hipotesis nol Bayesian dari keluaran Stan / JAGS / MCMC, tapi saya tidak tahu dalam kasus ini. Sebagai contoh, seseorang dapat mencoba pendekatan Savage-Dickey ke faktor Bayes, tetapi itu akan bergantung pada mengetahui kepadatan sebelumnya pada perbedaan, yang akan memerlukan beberapa analisis matematika atau beberapa perkiraan MCMC tambahan dari sebelumnya.
Dua metode untuk memutuskan nilai-nilai nol dibahas dalam Bab. 12 dari DBDA2E https://sites.google.com/site/doingbayesiandataanalysis/ . Tapi saya benar-benar tidak ingin diskusi ini dilacak oleh perdebatan tentang cara yang "tepat" untuk menilai nilai-nilai nol; mereka hanya berbeda dan mereka memberikan informasi yang berbeda. Poin utama dari jawaban saya adalah poin 1, di atas: Lihatlah distribusi posterior perbedaan antar kelompok.
sumber
Mengikuti etiket SO, ini seharusnya ditulis sebagai komentar ke @John K. Kruschke, tetapi komentar yang lebih panjang sulit untuk disusun. Maaf.
lower_CredI
danupper_CredI
dalam posting asli dihitung seperti yang Anda sebutkan dari rantai MCMC lengkap dan hanya sedikit diformat ulang untuk perbandingan yang lebih baik denganlme
output. Meskipun Anda menyukai HDI, ini adalah kuantil sederhana; dengan posterior simetris dalam contoh ini tidak membuat perbedaan besar.Saya telah melihat aplikasi untuk komite etika yang kekuatan statistik dihitung tanpa menyatakan asumsi tentang ukuran efek. Bahkan untuk kasus di mana tidak ada cara untuk mendefinisikan "efek yang relevan secara klinis", sulit untuk menjelaskan konsep tersebut kepada peneliti medis. Ini sedikit lebih mudah untuk uji coba non-inferioritas, tetapi ini tidak sering menjadi subjek penelitian.
Jadi saya cukup yakin bahwa memperkenalkan TALI tidak akan diterima - asumsi lain, orang tidak dapat mengingat lebih dari satu angka. Faktor Bayes mungkin bekerja, karena hanya ada satu nomor untuk dibawa pulang seperti nilai p sebelumnya.
Saya terkejut bahwa baik @John K. Kruschke maupun @Ben Goodrich dari tim Stan tidak menyebutkan prior; sebagian besar makalah tentang subjek meminta diskusi rinci tentang sensitivitas sebelumnya ketika mempresentasikan hasil.
Alangkah baiknya jika dalam edisi berikutnya buku Anda - semoga dengan Stan - Anda dapat menambahkan kotak "Cara mempublikasikan ini (dalam makalah non-statistik) dengan 100 kata" untuk contoh yang dipilih. Ketika saya akan mengambil bab 23.1 Anda dengan kata, makalah penelitian medis khas akan 100 halaman dan angka panjangnya ...
sumber