Misalkan kita memiliki beberapa skenario perbandingan seperti inferensi post hoc pada statistik berpasangan, atau seperti regresi berganda, di mana kita membuat total perbandingan . Andaikan juga, bahwa kami ingin mendukung inferensi dalam kelipatan ini menggunakan interval kepercayaan.
1. Apakah kita menerapkan beberapa penyesuaian perbandingan pada CI? Yaitu, sama seperti beberapa perbandingan memaksa redefinisi menjadi tingkat kesalahan keluarga (FWER) atau tingkat penemuan palsu (FDR), apakah arti kepercayaan (atau kredibilitas 1 , atau ketidakpastian, atau prediksi, atau inferensial ... pilih interval Anda) dapat dengan cara yang sama diubah oleh beberapa perbandingan? Saya menyadari bahwa jawaban negatif di sini akan mempermasalahkan sisa pertanyaan saya.
2. Apakah ada terjemahan langsung dari berbagai prosedur penyesuaian perbandingan dari pengujian hipotesis, hingga estimasi interval? Misalnya, penyesuaian akan fokus pada mengubah istilah dalam interval kepercayaan: ?
3. Bagaimana kita menangani prosedur pengendalian step-up atau step-down untuk CI? Beberapa penyesuaian tingkat kesalahan keluarga-bijaksana dari pendekatan pengujian hipotesis untuk inferensi adalah 'statis' di mana penyesuaian yang sama dibuat untuk setiap inferensi yang terpisah. Misalnya, penyesuaian Bonferroni dilakukan dengan mengubah kriteria penolakan dari:
- tolak jika ke:
- tolak jika ,
tetapi penyesuaian langkah Holm-Bonferroni bukan 'statis', melainkan dibuat oleh:
- pertama memesan -nilai terkecil ke terbesar, dan kemudian
- tolak jika , (di mana mengindeks urutan nilai) sampai
- kami gagal menolak hipotesis nol, dan secara otomatis gagal menolak semua hipotesis nol berikutnya.
Karena penolakan / kegagalan untuk menolak tidak terjadi dengan CI (lebih formal, lihat referensi di bawah) apakah itu berarti prosedur bertahap tidak menerjemahkan (yaitu termasuk semua metode FDR)? Saya harus memberi peringatan di sini bahwa saya tidak bertanya bagaimana menerjemahkan CI ke dalam tes hipotesis (perwakilan dari literatur 'pengujian hipotesis visual' yang dikutip di bawah ini menjawab pertanyaan non-sepele).
4. Bagaimana dengan interval lain yang saya sebutkan dalam 1?
1 Astaga, saya harap saya tidak mendapat masalah dengan gaya Bayesian yang manis dan manis dengan menggunakan kata ini di sini. :)
Referensi
Afshartous, D. dan Preston, R. (2010). Interval kepercayaan untuk data dependen: Menyamakan non-tumpang tindih dengan signifikansi statistik. Statistik Komputasi & Analisis Data , 54 (10): 2296–2305.
Cumming, G. (2009). Kesimpulan dengan mata: membaca tumpang tindih interval kepercayaan independen. Statistik Dalam Kedokteran , 28 (2): 205-220.
Payton, ME, Greenstone, MH, dan Schenker, N. (2003). Interval kepercayaan yang tumpang tindih atau interval kesalahan standar: Apa artinya dalam hal signifikansi statistik? Jurnal Ilmu Serangga , 3 (34): 1–6.
Tryon, WW dan Lewis, C. (2008). Metode interval kepercayaan inferensial untuk menetapkan kesetaraan statistik yang mengoreksi faktor reduksi Tryon (2001). Metode Psikologis , 13 (3): 272-277.
Jawaban:
Topik yang sangat bagus, sayangnya, tidak diberi perhatian yang cukup.
Ketika membahas beberapa parameter dan interval kepercayaan, perbedaan harus dibuat antara inferensi simultan dan inferensi selektif . Pustaka [2] memberikan demonstrasi yang sangat baik tentang masalah ini.
Dua konsep ini dapat digabungkan: Katakan Anda membuat interval hanya pada parameter yang Anda tolak hipotesis nolnya. Anda jelas berurusan dengan inferensi selektif. Anda mungkin ingin menjamin cakupan parameter yang dipilih secara simultan, atau cakupan marginal dari parameter yang dipilih. Yang pertama akan menjadi mitra kontrol FWER, dan yang kedua kontrol FDR.
Sekarang lebih pada intinya: Tidak semua prosedur pengujian memiliki interval yang menyertainya. Untuk prosedur FWER dan interval yang menyertainya, lihat [3]. Sayangnya, referensi ini agak ketinggalan jaman. Untuk mitra interval kontrol BH FDR, lihat [1] dan aplikasi dalam [4] (yang juga mencakup ulasan singkat tentang masalah ini). Harap perhatikan bahwa ini adalah bidang penelitian yang baru dan aktif sehingga Anda dapat mengharapkan lebih banyak hasil dalam waktu dekat.
[1] Benjamini, Y., dan D. Yekutieli. "Interval Kepercayaan Beberapa Tingkat Penemuan Palsu Disesuaikan untuk Parameter yang Dipilih." Jurnal Asosiasi Statistik Amerika 100, no. 469 (2005): 71–81.
[2] Cox, DR "Pernyataan tentang Berbagai Metode Perbandingan." Technometrics 7, no. 2 (1965): 223–24.
[3] Hochberg, Y., dan AC Tamhane. Berbagai Prosedur Perbandingan. New York, NY, AS: John Wiley & Sons, Inc., 1987.
[4] Rosenblatt, JD, dan Y. Benjamini. “Korelasi Selektif; Bukan Voodoo. ”NeuroImage 103 (Desember 2014): 401–10.
sumber
Saya tidak akan pernahsesuaikan interval kepercayaan untuk beberapa pengujian. Saya bukan penggemar nilai-p, karena saya percaya bahwa mengestimasi parameter adalah penggunaan statistik yang lebih baik daripada menguji hipotesis yang tidak pernah sepenuhnya benar. Namun saya mengakui bahwa pengujian hipotesis memiliki nilainya, dalam katakanlah uji coba terkontrol secara acak di mana setidaknya satu dapat berpendapat bahwa tanpa gejala, jika pengobatan tidak bekerja, hipotesis nol adalah benar. Namun seperti yang telah saya katakan di tempat lain, biasanya ini melibatkan memiliki satu hasil utama. Namun, interval kepercayaan, dalam definisi sering, tidak melibatkan hipotesis dan karenanya tidak perlu penyesuaian untuk perbandingan lain yang berpotensi tidak relevan. Misalkan saya sedang menguji fenotipe yang terkait dengan gen tertentu, katakanlah tinggi dan tekanan darah. SAYA' Saya ingin tahu seberapa besar perbedaan ketinggian antara mereka dengan dan tanpa gen, dan seberapa baik saya memperkirakannya. Saya tidak melihat fakta bahwa saya juga mengukur tekanan darah ada hubungannya dengan itu. Yang bisa menjadi masalah adalah jika keduanya adalah satu-satunya yang signifikan dari ratusan yang kami uji. Maka kemungkinan bahwa perbedaannya, secara kebetulan, lebih besar dari eksperimen kontrafaktual yang diharapkan di mana kami hanya mengukur tinggi dan tekanan darah, tetapi melakukannya ratusan percobaan. Namun dalam keadaan itu, tidak ada penyesuaian sederhana yang akan berhasil, dan lebih baik untuk memberikan perkiraan yang tidak disesuaikan tetapi berterus terang bagaimana Anda mendapatkan perbandingan ini. Kami juga telah menerbitkan beberapa hasil tentang interval kepercayaan yang tumpang tindih. [2] Saya tidak melihat kenyataan bahwa saya juga mengukur tekanan darah. Yang bisa menjadi masalah adalah jika keduanya adalah satu-satunya yang signifikan dari ratusan yang kami uji. Maka kemungkinan bahwa perbedaannya, secara kebetulan, lebih besar dari eksperimen kontrafaktual yang diharapkan di mana kami hanya mengukur tinggi dan tekanan darah, tetapi melakukannya ratusan percobaan. Namun dalam keadaan itu, tidak ada penyesuaian sederhana yang akan berhasil, dan lebih baik untuk memberikan perkiraan yang tidak disesuaikan tetapi berterus terang bagaimana Anda mendapatkan perbandingan ini. Kami juga telah menerbitkan beberapa hasil tentang interval kepercayaan yang tumpang tindih. [2] Saya tidak melihat kenyataan bahwa saya juga mengukur tekanan darah. Yang bisa menjadi masalah adalah jika keduanya adalah satu-satunya yang signifikan dari ratusan yang kami uji. Maka kemungkinan bahwa perbedaannya, secara kebetulan, lebih besar dari eksperimen kontrafaktual yang diharapkan di mana kami hanya mengukur tinggi dan tekanan darah, tetapi melakukannya ratusan percobaan. Namun dalam keadaan itu, tidak ada penyesuaian sederhana yang akan berhasil, dan lebih baik untuk memberikan perkiraan yang tidak disesuaikan tetapi berterus terang bagaimana Anda mendapatkan perbandingan ini. Kami juga telah menerbitkan beberapa hasil tentang interval kepercayaan yang tumpang tindih. [2] lebih besar dari eksperimen kontrafaktual yang diharapkan di mana kami hanya mengukur tinggi dan tekanan darah, tetapi melakukannya ratusan percobaan. Namun dalam keadaan itu, tidak ada penyesuaian sederhana yang akan berhasil, dan lebih baik untuk memberikan perkiraan yang tidak disesuaikan tetapi berterus terang bagaimana Anda mendapatkan perbandingan ini. Kami juga telah menerbitkan beberapa hasil tentang interval kepercayaan yang tumpang tindih. [2] lebih besar dari eksperimen kontrafaktual yang diharapkan di mana kami hanya mengukur tinggi dan tekanan darah, tetapi melakukannya ratusan percobaan. Namun dalam keadaan itu, tidak ada penyesuaian sederhana yang akan berhasil, dan lebih baik untuk memberikan perkiraan yang tidak disesuaikan tetapi berterus terang bagaimana Anda mendapatkan perbandingan ini. Kami juga telah menerbitkan beberapa hasil tentang interval kepercayaan yang tumpang tindih. [2]
[1] Campbell MJ dan Swinscow TDV (2009) Statistik di Square One. 11 ed Oxford; BMJ Books Blackwell Publishing
[2] Julious SA, Campbell MJ, Walters SJ (2007) Memprediksi di mana cara masa depan akan terletak berdasarkan hasil uji coba saat ini. Percobaan Klinis Kontemporer, 28, 352-357.
sumber