Meskipun judul pertanyaan itu tampaknya sepele, saya ingin menjelaskan bahwa itu tidak sepele dalam arti bahwa itu berbeda dari pertanyaan menerapkan uji statistik yang sama dalam kumpulan data yang sama untuk menguji terhadap hipotesis nol total (meta-analisis, misalnya menggunakan metode Fisher untuk menggabungkan nilai-p). Apa yang saya cari, adalah metode (jika ada dan jika pertanyaannya valid dalam istilah statistik) yang akan menggabungkan nilai-p dari dua uji statistik yang berbeda (misalnya uji-t dan uji-u, bahkan jika ada yang parametrik dan yang lainnya tidak), diterapkan untuk membandingkan pusat dua sampel dari dua populasi. Sejauh ini saya telah mencari banyak di web tanpa jawaban yang jelas. Jawaban terbaik yang bisa saya temukan didasarkan pada konsep teori permainan oleh David Bickel ( http://arxiv.org/pdf/1111.6174.pdf ).
Solusi yang sangat sederhana adalah skema pemilihan. Misalkan saya memiliki dua vektor pengamatan dan dan saya ingin menerapkan beberapa statistik seperti-t (uji-t, uji-u, bahkan ANOVA 1-arah) untuk menguji hipotesis bahwa pusat-pusat (rata-rata, median, dll.) dari dua distribusi yang tidak setara sama dengan hipotesis bahwa mereka tidak, pada tingkat signifikansi 0,05. Misalkan saya menjalankan 5 tes. Apakah sah untuk mengatakan bahwa ada bukti yang cukup untuk menolak distribusi nol jika saya memiliki nilai p <0,05 dalam 3 dari 5 tes?
Apakah solusi lain adalah dengan menggunakan hukum probabilitas total atau ini sepenuhnya salah? Misalnya, anggap bahwa adalah peristiwa dimana distribusi nol ditolak. Kemudian, menggunakan 3 tes, , , (artinya ), apakah nilai yang mungkin untuk menjadi , di mana adalah probabilitas bahwa distribusi nol ditolak berdasarkan tes .
Saya minta maaf jika jawabannya jelas atau pertanyaannya terlalu bodoh
Jawaban:
Menggunakan beberapa pengujian koreksi seperti yang dianjurkan oleh Corone tidak apa-apa, tetapi itu akan membebani Anda kekuatan karena nilai-p Anda umumnya akan berkorelasi dengan baik, bahkan menggunakan koreksi Hommel.
Ada solusi yang menuntut komputasi tetapi akan melakukan jauh lebih baik dalam hal kekuatan. Jika adalah nilai-p Anda, misalkan . Pertimbangkan bahwa adalah statistik uji baru Anda: semakin kecil, semakin kuat ia mendukung terhadap hipotesis nol.p1,p2,…,pn p∗=min(p1,…,pn) p∗
Anda perlu menghitung -nilai untuk nilai yang diamati dari (sebut saja ). Untuk ini, Anda dapat mensimulasikan, katakanlah, 100.000 set data di bawah hipotesis nol, dan untuk setiap set data tersebut, hitung . Ini memberi Anda distribusi empiris bawah hipotesis nol. Nilai Anda adalah proporsi nilai simulasi yang .p p∗ p∗obs p∗ p∗ p <p∗obs
Bagaimana Anda mensimulasikan set data di bawah hipotesis nol? Dalam kasus Anda, Anda memiliki, jika saya menebak dengan baik, kasus dan kontrol, dan data RNS-seq untuk memperkirakan tingkat ekspresi. Untuk mensimulasikan set data di bawah nol, itu adalah kebiasaan untuk secara acak mengubah status kasus / kontrol.
sumber
Hal semacam ini biasanya akan dicakup oleh beberapa pengujian hipotesis, meskipun ini bukan situasi yang khas.
Anda benar dalam mencatat bahwa ini berbeda dari meta-analisis, karena Anda menggunakan data yang sama untuk beberapa tes, tetapi situasi itu masih dicakup oleh pengujian multi-hipotesis. Apa yang sedikit aneh di sini adalah bahwa ini adalah hipotesis yang hampir sama dengan yang Anda uji berulang kali, dan kemudian Anda menginginkan hipotesis nol global yang merupakan persimpangan dari semua itu - mungkin patut bertanya-tanya mengapa Anda merasa perlu melakukan ini , tetapi mungkin ada alasan yang sah.
Jika Anda melakukan serangkaian pengujian yang lebih dapat dilacak secara analitis, orang mungkin akan menempuh rute uji Union-Intersection, tetapi saya tidak berpikir itu akan membawa Anda ke mana pun, jadi saya akan merekomendasikan menggunakan koreksi multiplisitas luar kotak.
Saya sarankan Anda mulai dengan melihat apa yang dikatakan Wikipedia tentang masalah ini, tetapi cobalah untuk tidak terlalu macet: http://en.wikipedia.org/wiki/Multiple_comparisons
Jadi, Anda perlu menggunakan koreksi multiplisitas, dan mengesampingkan Union-Intersection, kira-kira opsi Anda adalah sebagai berikut
Masalah terbesar Anda adalah kemungkinan besar Anda akan mendapatkan nilai-p yang sangat serupa dalam berbagai tes Anda. Hommel seharusnya tidak menghukum Anda terlalu banyak untuk ini.
Misalnya, Anda dapat menyesuaikan nilai p dalam R menggunakan
p.adjust
Semua metode ini mengontrol Tingkat Kesalahan Keluarga-bijaksana yang berarti bahwa jika Anda menguji setiap nilai-p pada gilirannya berdasarkan itu melewati ambang Anda, maka probabilitas 1 atau lebih kesalahan masih dikendalikan di . Ini berarti bahwa Anda dapat menolak hipotesis global jika Anda menolak satu atau lebih sub-hipotesis, dan ukuran pengujian Anda masih dikontrol pada .α α
Seperti yang saya ketahui di awal, ini bukan serangan paling ampuh yang bisa Anda lakukan, tetapi hal yang lebih canggih akan membutuhkan lebih banyak pekerjaan.
Mengapa ini mengontrolα
Hipotesis nol global adalah bahwa semua hipotesis nol anak adalah benar.
Biarkan hasil uji tunggal menjadi mengambil nilai 1 jika nol ditolak, 0 sebaliknya.Xi
Karena tidak diragukan lagi berkorelasi positif, kita dapat menggunakan Hommel untuk mengontrol FWER.Xi
Kontrol ini berarti bahwa probabilitas bahwa satu atau lebih tes salah ditolak dikendalikan padaα
Oleh karena itu,P(∑(Xi)>0)≤α
Karena itu jika Anda menolak hipotesis global jika satu atau lebih hipotesis anak ditolak, ukuran tes global adalah≤α
sumber