Sebelum mengajukan pertanyaan ini, apakah Anda mencari "PCA" di situs ini atau menjelajahi tag "PCA"? Sebagian besar pertanyaan Anda sudah dijawab di sana.
whuber
1
@whuber Saya pikir OP sedang mencari penggunaan PCA sebagai cara untuk memperhitungkan dan menyesuaikan stratifikasi populasi ketika memodelkan hasil yang diberikan (fenotipe atau studi kasus / kontrol kontinu) dan penanda DNA (SNP). Saya memberikan referensi di sini: stats.stackexchange.com/questions/1708/variation-in-pca-weights/… .
chl
1
GWAS tentu dapat dilakukan tanpa komponen utama. Dengan tidak adanya stratifikasi penduduk, yang Anda butuhkan adalah ribuan -tests atau ribuan tes chi-kuadrat. t
onestop
@onestop (+1) Saya akan menganggap Anda menjawab pertanyaan ke-2, yang bahkan tidak saya pertimbangkan dalam tanggapan saya sendiri.
chl
@onestop, bagaimana jika hanya dikelompokkan berdasarkan jenis kelamin / ras? bisakah Anda menguraikan jawaban Anda?
suprvisr
Jawaban:
27
Dalam konteks khusus ini, PCA terutama digunakan untuk menjelaskan variasi populasi spesifik dalam distribusi alel pada SNP (atau penanda DNA lainnya, meskipun saya hanya akrab dengan kasus SNP) yang sedang diselidiki. "Substruktur populasi" semacam itu terutama muncul sebagai akibat dari berbagai frekuensi alel minor pada keturunan yang jauh secara genetik (mis. Jepang dan Afrika-hitam atau Eropa-Amerika). Gagasan umum dijelaskan dengan baik dalam Struktur Populasi dan Analisis Eigen , oleh Patterson et al. ( PLoS Genetics 2006, 2 (12)), atau edisi khusus Lancet tentang epidemiologi genetik (2005, 366; sebagian besar artikel dapat ditemukan di web, mulai dengan Cordell & Clayton, Genetic Association Studies ).
Konstruksi sumbu utama mengikuti dari pendekatan klasik terhadap PCA, yang diterapkan pada matriks berskala (individu oleh SNPs) dari genotipe yang diamati (AA, AB, BB; katakanlah B adalah alel minor dalam semua kasus), dengan pengecualian bahwa normalisasi tambahan untuk memperhitungkan pergeseran populasi mungkin diterapkan. Itu semua mengasumsikan bahwa frekuensi alel minor (mengambil nilai dalam {0,1,2}) dapat dianggap sebagai numerik, yaitu kita bekerja di bawah model aditif (juga disebut dosis alelik) atau yang setara yang masuk akal . Karena PC ortogonal berturut-turut akan menjelaskan varians maksimum, ini menyediakan cara untuk menyoroti kelompok individu yang berbeda pada tingkat frekuensi alel minor. Perangkat lunak yang digunakan untuk ini dikenal sebagai Eigenstrat . Ini juga tersedia di Internetegscore()fungsi dari paket GenABEL R (lihat juga GenABEL.org ). Penting untuk dicatat bahwa metode lain untuk mendeteksi substruktur populasi diusulkan, khususnya rekonstruksi cluster berbasis model (lihat referensi di bagian akhir). Informasi lebih lanjut dapat ditemukan dengan menelusuri proyek Hapmap , dan tutorial yang tersedia berasal dari proyek Bioconductor . (Cari tutorial bagus Vince J Carey atau David Clayton di Google).
Mempertimbangkan bahwa analisis eigen memungkinkan untuk mengungkap beberapa struktur pada tingkat individu, kita dapat menggunakan informasi ini ketika mencoba menjelaskan variasi yang diamati dalam fenotipe yang diberikan (atau distribusi apa pun yang mungkin didefinisikan menurut kriteria biner, misalnya penyakit atau kontrol kasus situasi). Secara khusus, kami dapat menyesuaikan analisis kami dengan PC tersebut (yaitu, skor faktor individu), seperti yang diilustrasikan dalam analisis komponen Utama yang dikoreksi untuk stratifikasi dalam studi asosiasi genome-lebar , oleh Price et al. ( Nature Genetics 2006, 38 (8)), dan karya selanjutnya (ada gambar bagus yang menunjukkan sumbu variasi genetik di Eropa dalam geografi cermin Gen di Eropa; Nature 2008; Gambar 1A direproduksi di bawah). Perhatikan juga bahwa solusi lain adalah dengan melakukan analisis bertingkat (dengan memasukkan etnis dalam GLM) - ini sudah tersedia dalam paket snpMatrix , misalnya.
Terima kasih banyak. Secara alami lebih banyak pertanyaan berikut: 1) Apa yang terjadi jika saya mengabaikan PCA dan membuat stratifikasi sampel GWAS saya hanya dengan GENDER / RACE / AGE dan mengabaikan PCA. Bagaimana ini akan mencerminkan analisis asosiasi saya dan hasilnya? 2) Jika saya sebenarnya ingin menggunakan PCA berapa banyak SNPS saya harus memiliki genotipe setidaknya untuk memiliki PCA yang benar? Cukup 200? Apakah mereka harus tersebar secara merata di semua kromosom? 3) SNP mana yang digunakan dalam PCA? Apakah ini set yang sudah ditentukan atau ada?
suprvisr
@suprvisr Saya dapat menjawab di sana atau memperbarui tanggapan saya, tetapi saya pikir lebih baik untuk mengajukan pertanyaan baru (sth sepanjang gagasan "pro dan kontra penyesuaian dengan PCA vs stratifikasi") dan tautan ke yang ini sehingga orang-orang dapat dengan jelas membuat koneksi yang diperlukan.
chl
@AndyFrost menyarankan yang berikut ini mungkin memiliki angka yang direferensikan: goo.gl/jNXx0x dan gambar yang Anda rujuk mungkin ada di goo.gl/TcK3g8 .
gung - Reinstate Monica
@chl Bisakah Anda jelaskan apa yang Anda maksud dengan ini: "Apa yang biasanya dilakukan dalam hal ini adalah menerapkan PCA secara berulang, dan menghapus individu yang nilainya di bawah ± 6 ± 6 SD pada setidaknya satu dari 20 kepala sekolah pertama kapak ". Saya sedang mencari jawaban untuk posting saya di sini: biostars.org/p/180336
Jawaban:
Dalam konteks khusus ini, PCA terutama digunakan untuk menjelaskan variasi populasi spesifik dalam distribusi alel pada SNP (atau penanda DNA lainnya, meskipun saya hanya akrab dengan kasus SNP) yang sedang diselidiki. "Substruktur populasi" semacam itu terutama muncul sebagai akibat dari berbagai frekuensi alel minor pada keturunan yang jauh secara genetik (mis. Jepang dan Afrika-hitam atau Eropa-Amerika). Gagasan umum dijelaskan dengan baik dalam Struktur Populasi dan Analisis Eigen , oleh Patterson et al. ( PLoS Genetics 2006, 2 (12)), atau edisi khusus Lancet tentang epidemiologi genetik (2005, 366; sebagian besar artikel dapat ditemukan di web, mulai dengan Cordell & Clayton, Genetic Association Studies ).
Konstruksi sumbu utama mengikuti dari pendekatan klasik terhadap PCA, yang diterapkan pada matriks berskala (individu oleh SNPs) dari genotipe yang diamati (AA, AB, BB; katakanlah B adalah alel minor dalam semua kasus), dengan pengecualian bahwa normalisasi tambahan untuk memperhitungkan pergeseran populasi mungkin diterapkan. Itu semua mengasumsikan bahwa frekuensi alel minor (mengambil nilai dalam {0,1,2}) dapat dianggap sebagai numerik, yaitu kita bekerja di bawah model aditif (juga disebut dosis alelik) atau yang setara yang masuk akal . Karena PC ortogonal berturut-turut akan menjelaskan varians maksimum, ini menyediakan cara untuk menyoroti kelompok individu yang berbeda pada tingkat frekuensi alel minor. Perangkat lunak yang digunakan untuk ini dikenal sebagai Eigenstrat . Ini juga tersedia di Internet
egscore()
fungsi dari paket GenABEL R (lihat juga GenABEL.org ). Penting untuk dicatat bahwa metode lain untuk mendeteksi substruktur populasi diusulkan, khususnya rekonstruksi cluster berbasis model (lihat referensi di bagian akhir). Informasi lebih lanjut dapat ditemukan dengan menelusuri proyek Hapmap , dan tutorial yang tersedia berasal dari proyek Bioconductor . (Cari tutorial bagus Vince J Carey atau David Clayton di Google).Mempertimbangkan bahwa analisis eigen memungkinkan untuk mengungkap beberapa struktur pada tingkat individu, kita dapat menggunakan informasi ini ketika mencoba menjelaskan variasi yang diamati dalam fenotipe yang diberikan (atau distribusi apa pun yang mungkin didefinisikan menurut kriteria biner, misalnya penyakit atau kontrol kasus situasi). Secara khusus, kami dapat menyesuaikan analisis kami dengan PC tersebut (yaitu, skor faktor individu), seperti yang diilustrasikan dalam analisis komponen Utama yang dikoreksi untuk stratifikasi dalam studi asosiasi genome-lebar , oleh Price et al. ( Nature Genetics 2006, 38 (8)), dan karya selanjutnya (ada gambar bagus yang menunjukkan sumbu variasi genetik di Eropa dalam geografi cermin Gen di Eropa; Nature 2008; Gambar 1A direproduksi di bawah). Perhatikan juga bahwa solusi lain adalah dengan melakukan analisis bertingkat (dengan memasukkan etnis dalam GLM) - ini sudah tersedia dalam paket snpMatrix , misalnya.
Referensi
sumber