Menggabungkan nilai-p dari berbagai uji statistik yang diterapkan pada data yang sama

8

Meskipun judul pertanyaan itu tampaknya sepele, saya ingin menjelaskan bahwa itu tidak sepele dalam arti bahwa itu berbeda dari pertanyaan menerapkan uji statistik yang sama dalam kumpulan data yang sama untuk menguji terhadap hipotesis nol total (meta-analisis, misalnya menggunakan metode Fisher untuk menggabungkan nilai-p). Apa yang saya cari, adalah metode (jika ada dan jika pertanyaannya valid dalam istilah statistik) yang akan menggabungkan nilai-p dari dua uji statistik yang berbeda (misalnya uji-t dan uji-u, bahkan jika ada yang parametrik dan yang lainnya tidak), diterapkan untuk membandingkan pusat dua sampel dari dua populasi. Sejauh ini saya telah mencari banyak di web tanpa jawaban yang jelas. Jawaban terbaik yang bisa saya temukan didasarkan pada konsep teori permainan oleh David Bickel ( http://arxiv.org/pdf/1111.6174.pdf ).

Solusi yang sangat sederhana adalah skema pemilihan. Misalkan saya memiliki dua vektor pengamatan dan dan saya ingin menerapkan beberapa statistik seperti-t (uji-t, uji-u, bahkan ANOVA 1-arah) untuk menguji hipotesis bahwa pusat-pusat (rata-rata, median, dll.) dari dua distribusi yang tidak setara sama dengan hipotesis bahwa mereka tidak, pada tingkat signifikansi 0,05. Misalkan saya menjalankan 5 tes. Apakah sah untuk mengatakan bahwa ada bukti yang cukup untuk menolak distribusi nol jika saya memiliki nilai p <0,05 dalam 3 dari 5 tes?A=[a1,a2,...,an]B=[b1,b2,...,bn]

Apakah solusi lain adalah dengan menggunakan hukum probabilitas total atau ini sepenuhnya salah? Misalnya, anggap bahwa adalah peristiwa dimana distribusi nol ditolak. Kemudian, menggunakan 3 tes, , , (artinya ), apakah nilai yang mungkin untuk menjadi , di mana adalah probabilitas bahwa distribusi nol ditolak berdasarkan tes .AT1T2T3P(T1)=P(T2)=P(T3)=1/3P(A)P(A)=P(A|T1)P(T1)+P(A|T2)P(T2)+P(A|T3)P(T3)P(A|Ti)Ti

Saya minta maaf jika jawabannya jelas atau pertanyaannya terlalu bodoh

Panos
sumber
Apa yang wakili dalam hukum perhitungan probabilitas total? P(Ti)
Glen_b -Reinstate Monica
Saya menyesal tidak dapat memberikan penjelasan matematis tentang apa yang Anda cari, tetapi kebetulan saya tahu bahwa perangkat lunak yang kami kembangkan di lab kami menerapkan fitur ini: periksa di sini tentang cara melakukannya: gitools.org/documentation/UserGuide_Combinations .html dan di sini implementasinya: github.com/gitools/gitools/blob/… . Saya akan memeriksa kembali ketika saya menemukan formula di kertas asli.
dmeu
@ Glen_b P (Ti) mewakili "probabilitas" menggunakan uji statistik Ti. Saya tahu bahwa ini bukan probabilitas secara ketat. Agak berat yang mengatakan bahwa saya telah menggunakan n tes untuk dataset yang sama.
Panos
@ Dmeu Terima kasih! Namun saya pikir perangkat lunak Anda menjawab bagian yang sepele (lihat di atas, kombinasi beberapa set data menggunakan satu tes) dan bukan pertanyaan saya. Maaf jika ini bukan masalahnya.
Panos
@Panos Anda mungkin benar. Saya membaca berbeda sebagai "dua tes independen (berbeda) dari jenis yang sama". Maaf sudah terlalu berharap.
dmeu

Jawaban:

5

Menggunakan beberapa pengujian koreksi seperti yang dianjurkan oleh Corone tidak apa-apa, tetapi itu akan membebani Anda kekuatan karena nilai-p Anda umumnya akan berkorelasi dengan baik, bahkan menggunakan koreksi Hommel.

Ada solusi yang menuntut komputasi tetapi akan melakukan jauh lebih baik dalam hal kekuatan. Jika adalah nilai-p Anda, misalkan . Pertimbangkan bahwa adalah statistik uji baru Anda: semakin kecil, semakin kuat ia mendukung terhadap hipotesis nol.p1,p2,,pnp=min(p1,,pn)p

Anda perlu menghitung -nilai untuk nilai yang diamati dari (sebut saja ). Untuk ini, Anda dapat mensimulasikan, katakanlah, 100.000 set data di bawah hipotesis nol, dan untuk setiap set data tersebut, hitung . Ini memberi Anda distribusi empiris bawah hipotesis nol. Nilai Anda adalah proporsi nilai simulasi yang .pppobsppp<pobs

Bagaimana Anda mensimulasikan set data di bawah hipotesis nol? Dalam kasus Anda, Anda memiliki, jika saya menebak dengan baik, kasus dan kontrol, dan data RNS-seq untuk memperkirakan tingkat ekspresi. Untuk mensimulasikan set data di bawah nol, itu adalah kebiasaan untuk secara acak mengubah status kasus / kontrol.

Elvis
sumber
2
+1 Ya, ini adalah salah satu pendekatan yang saya maksud dengan "lebih banyak pekerjaan". Namun, perlu dicatat bahwa ini bukan karena mengambil nilai p terkecil adalah pendekatan terbaik di sini. 99 p-value mendekati 0,5 dan satu di 0,02 sangat berbeda dengan 99 p-value dekat dengan 0,02. Setelah Anda membuka pintu untuk resampling nol, maka akan lebih baik untuk melihat metode "voting", karena konsistensi antara tes mungkin sama pentingnya (lebih) bahwa menjatuhkan nilai p rendah pada satu tes.
Korone
Yap, kamu benar. Namun untuk sebagian besar tes asosiasi saya pikir mengambil min adalah ide yang bagus. Dengan lebih banyak pekerjaan, sebuah 'uji maximin efisiensi yang kuat' 'dapat dibangun dari tes yang berbeda, tetapi ini benar-benar mengharuskan untuk bekerja pada tes ...
Elvis
1
ya, belum lagi hal akan menjadi sangat berbulu / mengasyikkan / menyenangkan jika kita mulai khawatir tentang fakta bahwa beberapa tes akan lebih kuat dari tes lain - di dunia ideal Anda ingin mendengarkan paling banyak untuk tes paling kuat ...
Korone
@ Elvis Sesuatu seperti ini adalah alternatif terdekat dari sesuatu yang melibatkan hukum probabilitas total (yang terbukti salah) yang ada dalam pikiran saya. Saya mencoba memikirkan prosedur resampling tetapi Anda meresmikannya dengan sempurna! Kekuatan komputasi tidak akan menjadi masalah pada saat ini (untungnya!). Sedangkan untuk pemungutan suara, seseorang dapat memasukkan sesuatu seperti metode Whitlock untuk meta-analisis ( ncbi.nlm.nih.gov/pmc/articles/PMC3135688 ) tetapi memberikan bobot pada uji statistik. Info tersebut dapat diperoleh dari publikasi relatif (mis. Biomedcentral.com/1471-2105/14/91 ).
Panos
ya! Anda dapat mengambil fungsi apa pun dari nilai- , asalkan itu tidak menurun sehubungan dengan masing-masing . p=f(p1,,pn)ppi
Elvis
4

Hal semacam ini biasanya akan dicakup oleh beberapa pengujian hipotesis, meskipun ini bukan situasi yang khas.

Anda benar dalam mencatat bahwa ini berbeda dari meta-analisis, karena Anda menggunakan data yang sama untuk beberapa tes, tetapi situasi itu masih dicakup oleh pengujian multi-hipotesis. Apa yang sedikit aneh di sini adalah bahwa ini adalah hipotesis yang hampir sama dengan yang Anda uji berulang kali, dan kemudian Anda menginginkan hipotesis nol global yang merupakan persimpangan dari semua itu - mungkin patut bertanya-tanya mengapa Anda merasa perlu melakukan ini , tetapi mungkin ada alasan yang sah.

Jika Anda melakukan serangkaian pengujian yang lebih dapat dilacak secara analitis, orang mungkin akan menempuh rute uji Union-Intersection, tetapi saya tidak berpikir itu akan membawa Anda ke mana pun, jadi saya akan merekomendasikan menggunakan koreksi multiplisitas luar kotak.

Saya sarankan Anda mulai dengan melihat apa yang dikatakan Wikipedia tentang masalah ini, tetapi cobalah untuk tidak terlalu macet: http://en.wikipedia.org/wiki/Multiple_comparisons

Jadi, Anda perlu menggunakan koreksi multiplisitas, dan mengesampingkan Union-Intersection, kira-kira opsi Anda adalah sebagai berikut

  • Bonferonni - Sangat didominasi oleh Holm-Bonferroni, hanya kepentingan sejarah
  • Holm-Bonferroni - Akan bekerja untuk Anda, tetapi akan dikenakan biaya daya (mungkin banyak dalam kasus Anda)
  • Sidak - lebih kuat dari BH, tetapi Anda tidak dapat menggunakan ini karena nilai-p Anda akan dikorelasikan
  • Hommel - lebih kuat dari BH, dan Anda harus baik-baik saja, karena nilai-p Anda tidak diragukan lagi berkorelasi positif

Masalah terbesar Anda adalah kemungkinan besar Anda akan mendapatkan nilai-p yang sangat serupa dalam berbagai tes Anda. Hommel seharusnya tidak menghukum Anda terlalu banyak untuk ini.

Misalnya, Anda dapat menyesuaikan nilai p dalam R menggunakan p.adjust

p = c(0.03, 0.034, 0.041)
p.adjust(p, method = "bonferroni")
p.adjust(p, method = "holm")
p.adjust(p, method = "hommel")

> p.adjust(p, method = "bonferroni")
[1] 0.090 0.102 0.123
> p.adjust(p, method = "holm")
[1] 0.09 0.09 0.09
> p.adjust(p, method = "hommel")
[1] 0.041 0.041 0.041

Semua metode ini mengontrol Tingkat Kesalahan Keluarga-bijaksana yang berarti bahwa jika Anda menguji setiap nilai-p pada gilirannya berdasarkan itu melewati ambang Anda, maka probabilitas 1 atau lebih kesalahan masih dikendalikan di . Ini berarti bahwa Anda dapat menolak hipotesis global jika Anda menolak satu atau lebih sub-hipotesis, dan ukuran pengujian Anda masih dikontrol pada .αα

Seperti yang saya ketahui di awal, ini bukan serangan paling ampuh yang bisa Anda lakukan, tetapi hal yang lebih canggih akan membutuhkan lebih banyak pekerjaan.


Mengapa ini mengontrolα

Hipotesis nol global adalah bahwa semua hipotesis nol anak adalah benar.

Biarkan hasil uji tunggal menjadi mengambil nilai 1 jika nol ditolak, 0 sebaliknya.Xi

Karena tidak diragukan lagi berkorelasi positif, kita dapat menggunakan Hommel untuk mengontrol FWER.Xi

Kontrol ini berarti bahwa probabilitas bahwa satu atau lebih tes salah ditolak dikendalikan padaα

Oleh karena itu, P((Xi)>0)α

Karena itu jika Anda menolak hipotesis global jika satu atau lebih hipotesis anak ditolak, ukuran tes global adalahα

Korone
sumber
Terima kasih atas balasan cepat Anda! Gagasan utamanya adalah menggabungkan beberapa algoritma statistik yang mendeteksi ekspresi gen diferensial menggunakan data RNA-Seq, dengan cara yang lebih canggih daripada mengalikan nilai-p yang tidak benar. Apa yang Anda sarankan mirip dengan apa yang saya temukan di researchgate.net/publication/... Namun, saya ingin tahu apakah skema pemungutan suara atau hukum probabilitas total memiliki makna dalam konteks ini.
Panos
@ Piano dalam kasus itu, maka ya saya pasti akan menyarankan sesuatu seperti ini. Kelemahannya adalah kontrolnya konservatif, karena kami mengendalikan P (1 atau lebih yang dipilih salah) dan bukan P (semua yang dipilih salah), tetapi karena algoritme Anda cenderung berkorelasi positif, perbedaannya kemungkinan tidak akan menjadi besar.
Korone
Belum lagi, orang tidak boleh terlalu terikat dengan ambang ukuran tertentu - seperti yang sering dikatakan tidak ada yang istimewa tentang 0,05 atau 0,01.
Korone
@Panos jika Anda harus menentukan arah dari probabilitas yang tepat untuk skema pemungutan suara Anda, maka Anda pada akhirnya akan mendapatkan kembali berbagai tes multiplisitas yang saya sarankan, yang tepat tergantung pada asumsi yang Anda buat di sepanjang jalan.
Korone
1
@Benjamin sementara saya juga menganjurkan membaca tentang itu (ini penting!), Saya pikir itu tidak akan cocok di sini. FDR mengendalikan proporsi positif palsu yang diharapkan dari sejumlah pilihan. Karena semua tes Panos mencoba untuk memberi tahu dia tentang hipotesis global yang sama, tidak masuk akal untuk mengontrol proporsi yang diharapkan dari tes palsu - terutama ketika Anda memiliki korelasi. Dia tidak memilih di antara beberapa pertanyaan yang berbeda, tetapi mencoba banyak cara untuk menjawab pertanyaan yang sama.
Korone