Ini sebenarnya topik hangat dalam studi analisis Genomewide (GWAS)! Saya tidak yakin metode yang Anda pikirkan adalah yang paling tepat dalam konteks ini. Kumpulan nilai-p dijelaskan oleh beberapa penulis, tetapi dalam konteks yang berbeda (studi replikasi atau meta-analisis, lihat misalnya (1) untuk ulasan terbaru). Menggabungkan nilai p SNP dengan metode Fisher umumnya digunakan ketika seseorang ingin mendapatkan nilai p unik untuk gen yang diberikan; ini memungkinkan untuk bekerja pada tingkat gen, dan mengurangi jumlah dimensi pengujian berikutnya, tetapi seperti yang Anda katakan ketidakbergantungan antara penanda (yang timbul dari colocation spasial atau disiquilibrium keterkaitan, LD) menimbulkan bias. Alternatif yang lebih kuat bergantung pada prosedur resampling,
Kekhawatiran utama saya dengan bootstraping (dengan penggantian) adalah bahwa Anda memperkenalkan bentuk keterkaitan buatan, atau dengan kata lain Anda membuat kembar virtual, karenanya mengubah keseimbangan Hardy-Weinberg (tetapi juga frekuensi alel minimum dan tingkat panggilan). Ini tidak akan menjadi kasus dengan pendekatan permutasi di mana Anda mengubah label masing-masing dan menjaga data genotyping seperti apa adanya. Biasanya, perangkat lunak plink dapat memberi Anda nilai-p yang baku dan diijinkan, meskipun menggunakan (secara default) strategi pengujian adaptif dengan jendela geser yang memungkinkan untuk berhenti menjalankan semua permutasi (katakanlah 1000 per SNP) jika tampak bahwa SNP di bawah pertimbangannya tidak "menarik"; itu juga memiliki opsi untuk menghitung maxT, lihat bantuan online .
Tetapi mengingat rendahnya jumlah SNP yang Anda pertimbangkan, saya sarankan mengandalkan tes berbasis FDR atau maxT seperti yang diterapkan dalam paket multtest R (lihat mt.maxT
), tetapi panduan definitif untuk menyusun kembali strategi untuk aplikasi genom adalah Prosedur Pengujian Berganda dengan Aplikasi untuk Genomics , dari Dudoit & van der Laan (Springer, 2008). Lihat juga buku Andrea Foulkes tentang genetika dengan R , yang diulas dalam JSS. Dia memiliki materi yang bagus tentang berbagai prosedur pengujian.
Catatan selanjutnya
Banyak penulis telah menunjukkan fakta bahwa beberapa metode koreksi pengujian sederhana seperti Bonferroni atau Sidak terlalu ketat untuk menyesuaikan hasil untuk masing-masing SNP. Selain itu, tak satu pun dari metode ini memperhitungkan korelasi yang ada antara SNP karena LD yang menandai variasi genetik di seluruh wilayah gen. Alternatif lain telah diusulkan, seperti turunan dari metode Holm untuk perbandingan berganda (3), Hidden Markov Model (4), FDR bersyarat atau positif (5) atau turunannya (6), untuk menyebutkan beberapa. Apa yang disebut statistik gap atau jendela geser telah terbukti berhasil dalam beberapa kasus, tetapi Anda akan menemukan ulasan yang bagus dalam (7) dan (8).
Saya juga pernah mendengar tentang metode yang memanfaatkan struktur haplotype atau LD secara efektif, misalnya (9), tetapi saya tidak pernah menggunakannya. Namun, mereka tampaknya lebih terkait dengan memperkirakan korelasi antara penanda, bukan nilai p seperti yang Anda maksudkan. Tetapi pada kenyataannya, Anda mungkin berpikir lebih baik dalam hal struktur ketergantungan antara statistik tes berturut-turut, daripada antara p-nilai berkorelasi.
Referensi
- Cantor, RM, Lange, K dan Sinsheimer, JS. Memprioritaskan Hasil GWAS: Tinjauan Metode Statistik dan Rekomendasi untuk Aplikasi Mereka . Am J Hum Genet. 2010 86 (1): 6-22.
- Corley, RP, Zeiger, JS, Crowley, T et al. Asosiasi gen kandidat dengan ketergantungan obat antisosial pada remaja . Ketergantungan Obat dan Alkohol 2008 96: 90–98.
- Dalmasso, C, Génin, E dan Trégouet DA. Sebuah Prosedur Tertimbang-Holm Akuntansi untuk Frekuensi Allele dalam Studi Asosiasi Genomewide . Genetika 2008 180 (1): 697–702.
- Wei, Z, Sun, W, Wang, K, dan Hakonarson, H. Beberapa Pengujian dalam Studi Asosiasi Genome-Wide melalui Hidden Markov Models . Bioinformatika 2009 25 (21): 2802-2808.
- Broberg, P. Tinjauan perbandingan estimasi proporsi gen yang tidak berubah dan tingkat penemuan palsu . BMC Bioinformatics 2005 6: 199.
- Perlu, AC, Ge, D, Weale, ME, dan lain-lain. Investigasi Genom-Wide SNP dan CNV di Skizofrenia . Geno PLoS. 2009 5 (2): e1000373.
- Han, B, Kang, HM, dan Eskin, E. Koreksi Pengujian Berganda dan Estimasi Cepat dan Akurat untuk Jutaan Penanda Terkait . PLoS Genetics 2009
- Liang, Y dan Kelemen, A. Kemajuan statistik dan tantangan untuk menganalisis data snp dimensi tinggi berkorelasi dalam studi genom untuk penyakit kompleks . Survei Statistik 2008 2: 43–60. - ulasan terbaru terbaik yang pernah ada
- Nyholt, DR. Koreksi Sederhana untuk Pengujian Berganda untuk Polimorfisme Nukleotida-Tunggal dalam Ketidakseimbangan Tautan Satu Sama Lain . Am J Hum Genet. 2004 74 (4): 765-769.
- Nikodemus, KK, Liu, W, Chase, GA, Tsai, YY, dan Fallin, MD. Perbandingan kesalahan tipe I untuk koreksi beberapa pengujian dalam studi polimorfisme nukleotida tunggal besar menggunakan komponen utama versus algoritma pemblokiran haplotype . BMC Genetics 2005; 6 (Suppl 1): S78.
- Tes interval kepercayaan bootstrap bootstrap berbasis Peng, Q, Zhao, J, dan Xue, F. untuk asosiasi penyakit gen yang melibatkan banyak SNP . BMC Genetics 2010, 11: 6
- Li, M, Romero, R, Fu, WJ, dan Cui, Y (2010). Memetakan Interaksi Haplotype-haplotype dengan LASSO Adaptif . BMC Genetics 2010, 11:79 - meskipun tidak terkait langsung dengan pertanyaan, itu mencakup analisis berbasis haplotype / efek epistatik
snpMatrix
atau hanyaglm()
berkinerja lebih baik pada titik ini, tetapi Anda tidak dapat menanamkan banyak SNP dalamglm()
...); masalahnya adalah mendapatkan nilai-p yang dikoreksi pada akhir analisis ke-2 Anda agak rumit (karena Anda harus memperhitungkan parameter yang sudah diperkirakan).Menggunakan metode seperti bonferroni baik-baik saja, masalahnya adalah jika Anda memiliki banyak tes Anda tidak akan menemukan banyak "penemuan".
Anda bisa menggunakan pendekatan FDR untuk tes dependen (lihat di sini untuk detail ) masalahnya adalah bahwa saya tidak yakin apakah Anda dapat mengatakan di muka jika korelasi Anda semuanya positif.
Dalam R Anda dapat melakukan FDR sederhana dengan p.adjust. Untuk hal-hal yang lebih kompleks, saya akan melihatnya multcomp , tetapi saya tidak melihatnya untuk mencari solusi dalam kasus dependensi.
Semoga berhasil.
sumber
Saya pikir Multivariate Normal Model sedang digunakan untuk memodelkan nilai-p yang berkorelasi dan untuk mendapatkan jenis koreksi pengujian yang tepat. Koreksi Pengujian Cepat dan Akurat Beberapa dan Estimasi Daya untuk Jutaan Penanda Terkait. PLoS Genet 2009 berbicara tentang mereka dan juga memberikan referensi lain. Kedengarannya mirip dengan apa yang Anda bicarakan, tapi saya pikir selain mendapatkan koreksi nilai-p global yang lebih akurat, pengetahuan struktur LD juga harus digunakan untuk menghilangkan positif palsu yang muncul dari marker yang berkorelasi dengan marker kausal.
sumber
Saya mencari solusi untuk masalah yang sama persis. Yang terbaik yang saya temukan adalah Null Unrestricted Bootstrap yang diperkenalkan oleh Foulkes Andrea dalam bukunya Applied Statistics Genetics with R (2009) . Bertolak belakang dengan semua artikel dan buku lain yang dia anggap secara khusus regresi. Selain metode lain ia menyarankan Null Unrestricted Bootstrap, yang cocok di mana orang tidak dapat dengan mudah menghitung residu (seperti dalam kasus saya, di mana saya memodelkan banyak regresi independen (pada dasarnya korelasi sederhana), masing-masing dengan variabel respon yang sama dan snip berbeda). Saya menemukan metode ini juga disebut metode maxT .
Setelah kita memiliki semuaT⃗ ∗^ statistik) kami temukan untuk yang mana Tkritik. kami mengamati dengan tepat α = 0,05 persen lebih signifikan T⃗ ∗^ statistik (lebih signifikan berarti bahwa dengan nilai absolut lebih besar dari Tkritik. ).
TestStatBoot
matriks (dalam baris kita memiliki replikasi bootstrap, dan dalam kolom kita telah bootstrapKami melaporkansaya -komponen model yang signifikan, jika T⃗ saya^> Tkritik.
Langkah terakhir dapat dilakukan dengan kode ini
sumber