Cara merangkum interval yang kredibel untuk audiens medis

Dengan paket Stan dan frontend rstanarmatau brmssaya dapat dengan mudah menganalisis data dengan cara Bayesian seperti yang saya lakukan sebelumnya dengan model campuran seperti lme. Sementara saya memiliki sebagian besar buku dan artikel oleh Kruschke-Gelman-Wagenmakers-dll di meja saya, ini tidak memberi tahu saya bagaimana meringkas hasil untuk audiens medis, terpecah antara Skylla murka Bayesian dan Charybdis pengulas medis ( "Kami ingin signifikansi, bukan hal-hal yang menyebar").

Contoh: Frekuensi lambung (1 / mnt) diukur dalam tiga kelompok; kontrol yang sehat adalah rujukan. Ada beberapa pengukuran untuk setiap peserta, jadi à la frequentist saya menggunakan model campuran berikut lme:

summary(lme(freq_min~ group, random = ~1|study_id, data = mo))

Hasil yang sedikit diedit:

Fixed effects: freq_min ~ group 
                   Value Std.Error DF t-value p-value
(Intercept)        2.712    0.0804 70    33.7  0.0000
groupno_symptoms   0.353    0.1180 27     3.0  0.0058
groupwith_symptoms 0.195    0.1174 27     1.7  0.1086

Untuk kesederhanaan, saya akan menggunakan kesalahan 2 * std sebagai 95% CI.

Dalam konteks frequentist, saya akan meringkas ini sebagai:

Pada kelompok kontrol, frekuensi yang diperkirakan adalah 2,7 / mnt (mungkin tambahkan CI di sini, tapi saya kadang-kadang menghindari ini karena kebingungan yang diciptakan oleh CI absolut dan perbedaan).
Pada kelompok gejala no_sim, frekuensi lebih tinggi sebesar 0,4 / mnt, CI (0,11 hingga 0,59) / mnt, p = 0,006 daripada kontrol.
Pada kelompok with_symacter, frekuensi lebih tinggi sebesar 0,2 / menit, CI (-0,04 hingga 0,4) / menit, p = 0,11 dari kontrol.

Ini adalah tentang kompleksitas maksimum yang dapat diterima untuk publikasi medis, peninjau mungkin akan meminta saya untuk menambahkan "tidak signifikan" dalam kasus kedua.

Di sini adalah sama dengan stan_lmerdan standar bawaan.

freq_stan = stan_lmer(freq_min~ group + (1|study_id), data = mo)


           contrast lower_CredI frequency upper_CredI
        (Intercept)     2.58322     2.714       2.846
   groupno_symptoms     0.15579     0.346       0.535
 groupwith_symptoms    -0.00382     0.188       0.384

di mana CredI adalah interval kredibel 90% (lihat sketsa rstanarm mengapa 90% digunakan sebagai default.)

Pertanyaan:

Bagaimana menerjemahkan ringkasan di atas ke dunia Bayesian?
Sejauh mana diperlukan diskusi sebelumnya? Saya cukup yakin makalah itu akan kembali dengan "asumsi subyektif" yang biasa ketika saya menyebutkan prior; atau setidaknya dengan "tidak ada diskusi teknis, silakan". Namun semua otoritas Bayesian meminta agar interpretasi hanya berlaku dalam konteks prior.
Bagaimana saya bisa memberikan pengganti "signifikansi" dalam perumusan, tanpa mengkhianati konsep Bayesian? Sesuatu seperti "berbeda secara kredibel" (uuuh ...) atau hampir berbeda secara kredibel (buoha ..., terdengar seperti "hampir penuh makna).

Jonah Gabry dan Ben Goodrich (2016). rstanarm: Pemodelan Regresi Terapan Bayesian melalui Stan. Paket R versi 2.9.0-3. https://CRAN.R-project.org/package=rstanarm

Tim Pengembangan Stan (2015). Stan: Perpustakaan C ++ untuk Probabilitas dan Pengambilan Sampel, Versi 2.8.0. URL http://mc-stan.org/ .

Paul-Christian Buerkner (2016). brms: Model Regresi Bayesian menggunakan Stan. Paket R versi 0.8.0. https://CRAN.R-project.org/package=brms

Pinheiro J, Bates D, DebRoy S, Sarkar D dan R Core Team (2016). nlme: Model Efek Campuran Linier dan Nonlinier . Paket R versi 3.1-124, http://CRAN.R-project.org/package=nlme>.

statistical-significance bayesian stan credible-interval medicine Dieter Menne
sumber

Saya tidak punya pengalaman dengan pengulas / editor jurnal medis, tetapi mungkin Anda bisa mencoba mengatakan tidak ada probabilitas bahwa intersepsi negatif, nol probabilitas bahwa koefisien pada variabel dummy "tidak ada gejala" adalah negatif, dan sekitar 5% probabilitas bahwa koefisien pada variabel dummy "dengan gejala" adalah negatif. Anda dapat menghitung sekitar 5% lebih tepat dengan melakukan mean(as.matrix(freq_stan)[,"groupwith_symptoms"] < 0).

Ben Goodrich

Kami memikirkan hal itu, dan 5% terdengar OK; peneliti akan menerjemahkannya ke "signifikansi", tetapi karena mereka biasanya salah paham tentang signifikansi, mereka akan menjadi benar dengan negasi ganda. "Nol probabilitas", di sisi lain, adalah seorang pembunuh: apakah Anda akan menerimanya? Mungkin <1 / Reff (p <0,001) akan menjadi perkiraan? Tetapi sekali lagi: ketika saya menulis p <xxx, saya berada di dunia yang penting.

Dieter Menne

Koreksi Reff ke n_eff di atas.

Dieter Menne

Saya pribadi tidak akan merujuk ke probabilitas ekor sebagai memiliki "kurang dari 1 dalam kesempatan n_eff" karena n_eff berkaitan dengan ketepatan yang diestimasi dengan rata-rata. Mungkin Anda bisa menjalankan rantai Anda cukup lama untuk mendapatkan 1 draw negatif untuk koefisien group_nosymptomsdan kemudian mengatakan probabilitasnya negatif 1 / draws. Tetapi untuk intersep, rantai tidak akan pernah berjalan ke wilayah negatif untuk data ini, jadi saya kira Anda bisa mengatakan probabilitasnya kurang dari 1 / draws.

Ben Goodrich

Saya mendapat beberapa saran bagus tentang penyertaan nilai-p untuk pakar domain tetapi bukan peninjau ahli statistik di sini: stats.stackexchange.com/questions/148649/… . Kami menggunakan p <minimum (n_eff dari semua parameter) sebagai upperbound konservatif ketika p = 0.

stijn

Jawaban:

Pikiran cepat:

1) Masalah utama adalah pertanyaan terapan yang Anda coba jawab untuk audiens Anda, karena itu menentukan informasi apa yang Anda inginkan dari analisis statistik Anda. Dalam hal ini, menurut saya Anda ingin memperkirakan besarnya perbedaan antara kelompok (atau mungkin besarnya rasio kelompok jika itu adalah ukuran yang lebih akrab bagi audiens Anda). Besarnya perbedaan tidak secara langsung disediakan oleh analisis yang Anda sajikan dalam pertanyaan. Tapi itu lurus ke depan untuk mendapatkan apa yang Anda inginkan dari analisis Bayesian: Anda ingin distribusi posterior perbedaan (atau rasio). Kemudian, dari distribusi posterior perbedaan (atau rasio), Anda dapat membuat pernyataan probabilitas langsung seperti ini:

"Perbedaan 95% paling kredibel jatuh di antara [batas HDI 95% rendah] dan [batas HDI 95% tinggi]" (di sini saya menggunakan interval kepadatan tertinggi [HDI] 95% sebagai interval kredibel, dan karena itu adalah dengan definisi nilai parameter kerapatan tertinggi yang dipoles sebagai 'paling kredibel')

Audiens jurnal medis akan secara intuitif dan benar memahami pernyataan itu, karena itulah yang biasanya dipikirkan oleh audiens adalah makna dari interval kepercayaan yang sering terjadi (walaupun itu bukan arti dari interval kepercayaan yang sering terjadi).

Bagaimana Anda mendapatkan perbedaan (atau rasio) dari Stan atau JAGS? Hanya dengan pasca-pemrosesan rantai MCMC yang lengkap. Pada setiap langkah dalam rantai, hitung perbedaan yang relevan (atau rasio), kemudian periksa distribusi posterior perbedaan (atau rasio). Contoh diberikan dalam DBDA2E https://sites.google.com/site/doingbayesiandataanalysis/ untuk MCMC umumnya pada Gambar 7.9 (p. 177), untuk JAGS pada Gambar 8.6 (p. 211), dan untuk Stan di Bagian 16.3 (p 468), dll!

2) Jika Anda dipaksa oleh tradisi untuk membuat pernyataan tentang apakah perbedaan nol ditolak atau tidak, Anda memiliki dua opsi Bayesian.

2A) Salah satu opsi adalah membuat pernyataan probabilitas tentang interval mendekati nol, dan hubungannya dengan HDI. Untuk ini, Anda menyiapkan wilayah kesetaraan praktis (ROPE) sekitar nol, yang hanya merupakan ambang batas keputusan yang sesuai untuk domain terapan Anda --- seberapa besar perbedaannya kecil? Pengaturan batas-batas tersebut secara rutin dilakukan dalam pengujian non-inferioritas klinis, misalnya. Jika Anda memiliki ukuran 'efek ukuran' di bidang Anda, mungkin ada konvensi untuk ukuran efek 'kecil', dan batas ROPE bisa, katakanlah, setengah dari efek kecil. Kemudian Anda dapat membuat pernyataan probabilitas langsung seperti ini:

"Hanya 1,2% dari distribusi perbedaan posterior praktis setara dengan nol"

dan

"Perbedaan 95% yang paling kredibel secara praktis tidak sama dengan nol (yaitu, HDI 95% dan ROPE tidak tumpang tindih) dan oleh karena itu kami menolak nol." (perhatikan perbedaan antara pernyataan probabilitas dari distribusi posterior, versus keputusan selanjutnya berdasarkan pernyataan itu)

Anda juga dapat menerima perbedaan nol, untuk tujuan praktis, jika 95% nilai yang paling kredibel semuanya praktis setara dengan nol.

2B) Pilihan Bayesian kedua adalah pengujian hipotesis nol Bayesian. (Perhatikan bahwa metode di atas tidakdisebut "pengujian hipotesis"!) Bayesian null hipotesis pengujian melakukan perbandingan model Bayesian dari distribusi sebelumnya yang mengasumsikan perbedaan hanya dapat nol terhadap distribusi sebelum alternatif yang mengasumsikan perbedaan itu bisa beberapa rentang kemungkinan yang tersebar. Hasil perbandingan model seperti itu (biasanya) sangat bergantung pada pilihan distribusi alternatif tertentu, dan oleh karena itu justifikasi yang cermat harus dilakukan untuk pemilihan alternatif sebelumnya. Yang terbaik adalah menggunakan setidaknya-sedikit-informasi awal untuk nol dan alternatif sehingga perbandingan model benar-benar bermakna. Perhatikan bahwa perbandingan model memberikan informasi yang berbeda dari perkiraan perbedaan antara kelompok karena perbandingan model ini membahas pertanyaan yang berbeda. Jadi, bahkan dengan perbandingan model,

Mungkin ada cara untuk melakukan uji hipotesis nol Bayesian dari keluaran Stan / JAGS / MCMC, tapi saya tidak tahu dalam kasus ini. Sebagai contoh, seseorang dapat mencoba pendekatan Savage-Dickey ke faktor Bayes, tetapi itu akan bergantung pada mengetahui kepadatan sebelumnya pada perbedaan, yang akan memerlukan beberapa analisis matematika atau beberapa perkiraan MCMC tambahan dari sebelumnya.

Dua metode untuk memutuskan nilai-nilai nol dibahas dalam Bab. 12 dari DBDA2E https://sites.google.com/site/doingbayesiandataanalysis/ . Tapi saya benar-benar tidak ingin diskusi ini dilacak oleh perdebatan tentang cara yang "tepat" untuk menilai nilai-nilai nol; mereka hanya berbeda dan mereka memberikan informasi yang berbeda. Poin utama dari jawaban saya adalah poin 1, di atas: Lihatlah distribusi posterior perbedaan antar kelompok.

John K. Kruschke
sumber

Selamat datang di situs kami! Senang sekali Anda menjadi bagian dari komunitas kami!

Tim

Jika Anda ingin menggabungkan akun Anda dengan ini stats.stackexchange.com/users/16592 (yang tampaknya milik Anda juga), Anda dapat melakukannya secara otomatis melalui stats.stackexchange.com/contact .

Amuba kata Reinstate Monica

Anda dapat melakukan tes hipotesis yang dijelaskan di sini menggunakan brms. Lihat: github.com/paul-buerkner/brms

bjw

Mengikuti etiket SO, ini seharusnya ditulis sebagai komentar ke @John K. Kruschke, tetapi komentar yang lebih panjang sulit untuk disusun. Maaf.

@John K. Kruschke menulis: Hanya dengan pasca-pemrosesan rantai MCMC yang lengkap ...

lower_CredIdan upper_CredIdalam posting asli dihitung seperti yang Anda sebutkan dari rantai MCMC lengkap dan hanya sedikit diformat ulang untuk perbandingan yang lebih baik dengan lmeoutput. Meskipun Anda menyukai HDI, ini adalah kuantil sederhana; dengan posterior simetris dalam contoh ini tidak membuat perbedaan besar.

TALI dan ukuran efek

Saya telah melihat aplikasi untuk komite etika yang kekuatan statistik dihitung tanpa menyatakan asumsi tentang ukuran efek. Bahkan untuk kasus di mana tidak ada cara untuk mendefinisikan "efek yang relevan secara klinis", sulit untuk menjelaskan konsep tersebut kepada peneliti medis. Ini sedikit lebih mudah untuk uji coba non-inferioritas, tetapi ini tidak sering menjadi subjek penelitian.

Jadi saya cukup yakin bahwa memperkenalkan TALI tidak akan diterima - asumsi lain, orang tidak dapat mengingat lebih dari satu angka. Faktor Bayes mungkin bekerja, karena hanya ada satu nomor untuk dibawa pulang seperti nilai p sebelumnya.

Priors

Saya terkejut bahwa baik @John K. Kruschke maupun @Ben Goodrich dari tim Stan tidak menyebutkan prior; sebagian besar makalah tentang subjek meminta diskusi rinci tentang sensitivitas sebelumnya ketika mempresentasikan hasil.

Alangkah baiknya jika dalam edisi berikutnya buku Anda - semoga dengan Stan - Anda dapat menambahkan kotak "Cara mempublikasikan ini (dalam makalah non-statistik) dengan 100 kata" untuk contoh yang dipilih. Ketika saya akan mengambil bab 23.1 Anda dengan kata, makalah penelitian medis khas akan 100 halaman dan angka panjangnya ...

Dieter Menne
sumber

* Poin utama adalah untuk melihat distribusi perbedaan posterior (antara kelompok, antara kombinasi kelompok). Itulah yang membutuhkan pasca-pemrosesan rantai MCMC.

John K. Kruschke

* TALI: Anda "sangat yakin bahwa TALI tidak akan diterima" dan "sulit untuk menjelaskan konsepnya kepada peneliti medis". Saya tidak melihat bagaimana faktor Bayes akan lebih mudah untuk dijelaskan atau diterima, karena faktor Bayes mengambil penjelasan yang lebih rumit dan pembenaran beberapa ambang batas BF tertentu untuk pengambilan keputusan !! Menurut saya, Anda berasumsi bahwa audiens Anda secara permanen dikeraskan dalam kerangka kerja yang sering; jika itu masalahnya, gunakan statistik frequentist atau kirimkan karya Anda ke jurnal yang lebih tercerahkan.

John K. Kruschke

* Anda membesar-besarkan rekomendasi dari Bab 23.1, yang sebenarnya dapat diatasi secara ringkas dalam sejumlah kecil teks, terutama untuk model sederhana seperti yang Anda gunakan di sini. Melanjutkan komentar berikutnya ...

John K. Kruschke

(i) Memotivasi penggunaan Bayesian - itu memberi Anda distribusi posterior kaya informatif. (ii) Jelaskan model dan parameternya, yang mudah dalam hal ini. (iii) Membenarkan sepele yang sebelumnya - lagi dalam kasus ini hanya untuk mengatakan Anda menggunakan prior difus yang pada dasarnya tidak berdampak pada posterior. (Tapi BUKAN jika Anda menggunakan faktor Bayes, yang prioritasnya sangat penting.) (Iv) Laporkan kelancaran rantai MCMC - sepele untuk mengatakan ESS adalah sekitar 10.000 untuk semua parameter dan perbedaan. Melanjutkan komentar berikutnya ...

John K. Kruschke

(v) Mengartikan posterior: Nyatakan kecenderungan sentral (misalnya mode) posterior dan 95% HDI-nya, untuk setiap perbedaan minat. Ini tidak sependek tweet, tetapi hanya beberapa paragraf.

John K. Kruschke