Haruskah kita membahas beberapa penyesuaian perbandingan saat menggunakan interval kepercayaan?

Misalkan kita memiliki beberapa skenario perbandingan seperti inferensi post hoc pada statistik berpasangan, atau seperti regresi berganda, di mana kita membuat total perbandingan . Andaikan juga, bahwa kami ingin mendukung inferensi dalam kelipatan ini menggunakan interval kepercayaan. $m$

1. Apakah kita menerapkan beberapa penyesuaian perbandingan pada CI? Yaitu, sama seperti beberapa perbandingan memaksa redefinisi menjadi tingkat kesalahan keluarga (FWER) atau tingkat penemuan palsu (FDR), apakah arti kepercayaan (atau kredibilitas ¹ , atau ketidakpastian, atau prediksi, atau inferensial ... pilih interval Anda) dapat dengan cara yang sama diubah oleh beberapa perbandingan? Saya menyadari bahwa jawaban negatif di sini akan mempermasalahkan sisa pertanyaan saya. $\alpha$

2. Apakah ada terjemahan langsung dari berbagai prosedur penyesuaian perbandingan dari pengujian hipotesis, hingga estimasi interval? Misalnya, penyesuaian akan fokus pada mengubah istilah dalam interval kepercayaan: ? $\text{CI-level}$ $\text{CI}_{\theta} = (\hat{\theta} \pm t_{(1-\text{CI-level)/2}}\hat{\sigma}_{\theta})$

3. Bagaimana kita menangani prosedur pengendalian step-up atau step-down untuk CI? Beberapa penyesuaian tingkat kesalahan keluarga-bijaksana dari pendekatan pengujian hipotesis untuk inferensi adalah 'statis' di mana penyesuaian yang sama dibuat untuk setiap inferensi yang terpisah. Misalnya, penyesuaian Bonferroni dilakukan dengan mengubah kriteria penolakan dari:

tolak jika ke: $p\le \frac{\alpha}{2}$
tolak jika , $p\le \frac{\frac{\alpha}{2}}{m}$

tetapi penyesuaian langkah Holm-Bonferroni bukan 'statis', melainkan dibuat oleh:

pertama memesan -nilai terkecil ke terbesar, dan kemudian $p$
tolak jika , (di mana mengindeks urutan nilai) sampai $p\le 1 - (1- \frac{\alpha}{2})^{\frac{1}{m+1-i}}$ $i$ $p$
kami gagal menolak hipotesis nol, dan secara otomatis gagal menolak semua hipotesis nol berikutnya.

Karena penolakan / kegagalan untuk menolak tidak terjadi dengan CI (lebih formal, lihat referensi di bawah) apakah itu berarti prosedur bertahap tidak menerjemahkan (yaitu termasuk semua metode FDR)? Saya harus memberi peringatan di sini bahwa saya tidak bertanya bagaimana menerjemahkan CI ke dalam tes hipotesis (perwakilan dari literatur 'pengujian hipotesis visual' yang dikutip di bawah ini menjawab pertanyaan non-sepele).

4. Bagaimana dengan interval lain yang saya sebutkan dalam 1?

¹ Astaga, saya harap saya tidak mendapat masalah dengan gaya Bayesian yang manis dan manis dengan menggunakan kata ini di sini. :)

Referensi
Afshartous, D. dan Preston, R. (2010). Interval kepercayaan untuk data dependen: Menyamakan non-tumpang tindih dengan signifikansi statistik. Statistik Komputasi & Analisis Data , 54 (10): 2296–2305.

Cumming, G. (2009). Kesimpulan dengan mata: membaca tumpang tindih interval kepercayaan independen. Statistik Dalam Kedokteran , 28 (2): 205-220.

Payton, ME, Greenstone, MH, dan Schenker, N. (2003). Interval kepercayaan yang tumpang tindih atau interval kesalahan standar: Apa artinya dalam hal signifikansi statistik? Jurnal Ilmu Serangga , 3 (34): 1–6.

Tryon, WW dan Lewis, C. (2008). Metode interval kepercayaan inferensial untuk menetapkan kesetaraan statistik yang mengoreksi faktor reduksi Tryon (2001). Metode Psikologis , 13 (3): 272-277.

confidence-interval multiple-comparisons inference Alexis
sumber

Saya tidak punya waktu untuk meneliti jawaban lengkap sekarang, jadi saya akan menjawab dalam komentar.

Harvey Motulsky

[Komentar terakhir terpotong. [Saya tidak punya waktu untuk meneliti jawaban lengkap sekarang, jadi saya akan menjawab dalam komentar. 1) Ya itu masuk akal dalam situasi yang sama dengan beberapa perbandingan untuk pengujian hipotesis masuk akal. 2. Beberapa perbandingan Bonferroni, Tukey dan Dunnet dapat dengan mudah diadaptasi untuk membuat interval kepercayaan di mana tingkat kepercayaan berlaku untuk seluruh keluarga. 3. Sejauh yang saya tahu, tidak ada kemungkinan membuat interval kepercayaan dari metode Holm. 4. Saya tidak tahu!

Harvey Motulsky

@ HarveyMotulsky Hebat! Adapun dua jawaban pertama Anda: (1) Mengapa? (2) Cukup dengan membalikkan matematika dari penyesuaian value menjadi -adjustments ketika menghitung nilai-nilai kritis dari distribusi yang dengannya seseorang membangun CI? Anda bisa (nudge) selalu menulis (nudge) jawaban formal alih-alih menguatkan komentar (nudgitty-nudge nudge).

p

$p$

α

$\alpha$

Alexis

Jawaban:

Topik yang sangat bagus, sayangnya, tidak diberi perhatian yang cukup.

Ketika membahas beberapa parameter dan interval kepercayaan, perbedaan harus dibuat antara inferensi simultan dan inferensi selektif . Pustaka [2] memberikan demonstrasi yang sangat baik tentang masalah ini.

$1-\alpha$

Dua konsep ini dapat digabungkan: Katakan Anda membuat interval hanya pada parameter yang Anda tolak hipotesis nolnya. Anda jelas berurusan dengan inferensi selektif. Anda mungkin ingin menjamin cakupan parameter yang dipilih secara simultan, atau cakupan marginal dari parameter yang dipilih. Yang pertama akan menjadi mitra kontrol FWER, dan yang kedua kontrol FDR.

Sekarang lebih pada intinya: Tidak semua prosedur pengujian memiliki interval yang menyertainya. Untuk prosedur FWER dan interval yang menyertainya, lihat [3]. Sayangnya, referensi ini agak ketinggalan jaman. Untuk mitra interval kontrol BH FDR, lihat [1] dan aplikasi dalam [4] (yang juga mencakup ulasan singkat tentang masalah ini). Harap perhatikan bahwa ini adalah bidang penelitian yang baru dan aktif sehingga Anda dapat mengharapkan lebih banyak hasil dalam waktu dekat.

[1] Benjamini, Y., dan D. Yekutieli. "Interval Kepercayaan Beberapa Tingkat Penemuan Palsu Disesuaikan untuk Parameter yang Dipilih." Jurnal Asosiasi Statistik Amerika 100, no. 469 (2005): 71–81.

[2] Cox, DR "Pernyataan tentang Berbagai Metode Perbandingan." Technometrics 7, no. 2 (1965): 223–24.

[3] Hochberg, Y., dan AC Tamhane. Berbagai Prosedur Perbandingan. New York, NY, AS: John Wiley & Sons, Inc., 1987.

[4] Rosenblatt, JD, dan Y. Benjamini. “Korelasi Selektif; Bukan Voodoo. ”NeuroImage 103 (Desember 2014): 401–10.

JohnRos
sumber

Saya tidak akan pernahsesuaikan interval kepercayaan untuk beberapa pengujian. Saya bukan penggemar nilai-p, karena saya percaya bahwa mengestimasi parameter adalah penggunaan statistik yang lebih baik daripada menguji hipotesis yang tidak pernah sepenuhnya benar. Namun saya mengakui bahwa pengujian hipotesis memiliki nilainya, dalam katakanlah uji coba terkontrol secara acak di mana setidaknya satu dapat berpendapat bahwa tanpa gejala, jika pengobatan tidak bekerja, hipotesis nol adalah benar. Namun seperti yang telah saya katakan di tempat lain, biasanya ini melibatkan memiliki satu hasil utama. Namun, interval kepercayaan, dalam definisi sering, tidak melibatkan hipotesis dan karenanya tidak perlu penyesuaian untuk perbandingan lain yang berpotensi tidak relevan. Misalkan saya sedang menguji fenotipe yang terkait dengan gen tertentu, katakanlah tinggi dan tekanan darah. SAYA' Saya ingin tahu seberapa besar perbedaan ketinggian antara mereka dengan dan tanpa gen, dan seberapa baik saya memperkirakannya. Saya tidak melihat fakta bahwa saya juga mengukur tekanan darah ada hubungannya dengan itu. Yang bisa menjadi masalah adalah jika keduanya adalah satu-satunya yang signifikan dari ratusan yang kami uji. Maka kemungkinan bahwa perbedaannya, secara kebetulan, lebih besar dari eksperimen kontrafaktual yang diharapkan di mana kami hanya mengukur tinggi dan tekanan darah, tetapi melakukannya ratusan percobaan. Namun dalam keadaan itu, tidak ada penyesuaian sederhana yang akan berhasil, dan lebih baik untuk memberikan perkiraan yang tidak disesuaikan tetapi berterus terang bagaimana Anda mendapatkan perbandingan ini. Kami juga telah menerbitkan beberapa hasil tentang interval kepercayaan yang tumpang tindih. [2] Saya tidak melihat kenyataan bahwa saya juga mengukur tekanan darah. Yang bisa menjadi masalah adalah jika keduanya adalah satu-satunya yang signifikan dari ratusan yang kami uji. Maka kemungkinan bahwa perbedaannya, secara kebetulan, lebih besar dari eksperimen kontrafaktual yang diharapkan di mana kami hanya mengukur tinggi dan tekanan darah, tetapi melakukannya ratusan percobaan. Namun dalam keadaan itu, tidak ada penyesuaian sederhana yang akan berhasil, dan lebih baik untuk memberikan perkiraan yang tidak disesuaikan tetapi berterus terang bagaimana Anda mendapatkan perbandingan ini. Kami juga telah menerbitkan beberapa hasil tentang interval kepercayaan yang tumpang tindih. [2] Saya tidak melihat kenyataan bahwa saya juga mengukur tekanan darah. Yang bisa menjadi masalah adalah jika keduanya adalah satu-satunya yang signifikan dari ratusan yang kami uji. Maka kemungkinan bahwa perbedaannya, secara kebetulan, lebih besar dari eksperimen kontrafaktual yang diharapkan di mana kami hanya mengukur tinggi dan tekanan darah, tetapi melakukannya ratusan percobaan. Namun dalam keadaan itu, tidak ada penyesuaian sederhana yang akan berhasil, dan lebih baik untuk memberikan perkiraan yang tidak disesuaikan tetapi berterus terang bagaimana Anda mendapatkan perbandingan ini. Kami juga telah menerbitkan beberapa hasil tentang interval kepercayaan yang tumpang tindih. [2] lebih besar dari eksperimen kontrafaktual yang diharapkan di mana kami hanya mengukur tinggi dan tekanan darah, tetapi melakukannya ratusan percobaan. Namun dalam keadaan itu, tidak ada penyesuaian sederhana yang akan berhasil, dan lebih baik untuk memberikan perkiraan yang tidak disesuaikan tetapi berterus terang bagaimana Anda mendapatkan perbandingan ini. Kami juga telah menerbitkan beberapa hasil tentang interval kepercayaan yang tumpang tindih. [2] lebih besar dari eksperimen kontrafaktual yang diharapkan di mana kami hanya mengukur tinggi dan tekanan darah, tetapi melakukannya ratusan percobaan. Namun dalam keadaan itu, tidak ada penyesuaian sederhana yang akan berhasil, dan lebih baik untuk memberikan perkiraan yang tidak disesuaikan tetapi berterus terang bagaimana Anda mendapatkan perbandingan ini. Kami juga telah menerbitkan beberapa hasil tentang interval kepercayaan yang tumpang tindih. [2]

[1] Campbell MJ dan Swinscow TDV (2009) Statistik di Square One. 11 ed Oxford; BMJ Books Blackwell Publishing

[2] Julious SA, Campbell MJ, Walters SJ (2007) Memprediksi di mana cara masa depan akan terletak berdasarkan hasil uji coba saat ini. Percobaan Klinis Kontemporer, 28, 352-357.

Mike Campbell
sumber

Terima kasih atas jawaban yang memancing pikiran, Mike. Benjamini, Hochberg dan Yekutieli tampaknya berpendapat bahwa perbandingan tidak "tidak relevan," tetapi pada kenyataannya simultan: "Cakupan simultan juga diperlukan ketika suatu tindakan harus diambil berdasarkan nilai dari semua parameter. Dengan demikian membandingkan titik akhir primer antara dua perawatan dalam uji klinis kemungkinan akan melibatkan inspeksi semua dari mereka, apakah mereka berbeda secara signifikan atau tidak. Ini adalah situasi yang jelas di mana cakupan simultan diperlukan. " (Mengesampingkan masalah presentasi selektif hanya dari beberapa CI.)

Alexis

Secara kebetulan, mengingat "Saya bukan penggemar nilai-p, karena saya percaya bahwa mengestimasi parameter adalah penggunaan statistik yang lebih baik daripada menguji hipotesis yang tidak pernah benar," Anda mungkin menikmati Mengapa pengujian hipotesis frequentist menjadi bias terhadap penolakan hipotesis nol dengan sampel yang cukup besar? . Tepuk tangan.

Alexis

Meskipun saya setuju dengan Anda bahwa interval kepercayaan untuk parameter lebih unggul daripada nilai p untuk sebagian besar bentuk inferensi, saya tidak yakin apakah itu selalu berarti bahwa tidak ada koreksi untuk beberapa perbandingan yang diperlukan dengan interval kepercayaan. Sebagian besar interval kepercayaan ditentukan oleh penggunaan alpha, untuk menentukan cakupan. Bahkan bercerai dari kerangka pengujian hipotesis yang ketat, bagi saya (naif, tanpa repot-repot melakukan simulasi untuk memeriksa) bahwa mungkin menyesatkan untuk tetap dogmatis pada cakupan nominal (misalnya 95%, jadi alpha = 0,05) ketika beberapa perbandingan dilakukan terlibat.

Ryan Simmons

Mike Campbell mengatakan bahwa "interval kepercayaan, dalam definisi yang sering, tidak melibatkan hipotesis dan karenanya tidak perlu penyesuaian untuk perbandingan lain yang berpotensi tidak relevan." Itu pernyataan yang aneh. Meskipun CIs mungkin tidak mencerminkan "tes hipotesis" per se, mereka mencerminkan tes statistik yang memiliki tingkat kesalahan tertentu (misalnya, 0,05), dan bahwa tingkat kesalahan meningkat ketika jumlah tes meningkat - dengan dasar matematika yang persis sama prinsip yang berlaku untuk tes hipotesis nol. Seseorang tidak luput dari masalah beberapa perbandingan dengan berfokus pada CI bukannya nilai-p.

Bonferroni