Dalam studi asosiasi genome, apa komponen utama?

20

Dalam studi asosiasi genom-luas (GWAS):

  1. Apa komponen utama?
  2. Mengapa mereka digunakan?
  3. Bagaimana mereka dihitung?
  4. Bisakah studi asosiasi genome dilakukan tanpa menggunakan PCA?
suprvisr
sumber
1
Sebelum mengajukan pertanyaan ini, apakah Anda mencari "PCA" di situs ini atau menjelajahi tag "PCA"? Sebagian besar pertanyaan Anda sudah dijawab di sana.
whuber
1
@whuber Saya pikir OP sedang mencari penggunaan PCA sebagai cara untuk memperhitungkan dan menyesuaikan stratifikasi populasi ketika memodelkan hasil yang diberikan (fenotipe atau studi kasus / kontrol kontinu) dan penanda DNA (SNP). Saya memberikan referensi di sini: stats.stackexchange.com/questions/1708/variation-in-pca-weights/… .
chl
1
GWAS tentu dapat dilakukan tanpa komponen utama. Dengan tidak adanya stratifikasi penduduk, yang Anda butuhkan adalah ribuan -tests atau ribuan tes chi-kuadrat. t
onestop
@onestop (+1) Saya akan menganggap Anda menjawab pertanyaan ke-2, yang bahkan tidak saya pertimbangkan dalam tanggapan saya sendiri.
chl
@onestop, bagaimana jika hanya dikelompokkan berdasarkan jenis kelamin / ras? bisakah Anda menguraikan jawaban Anda?
suprvisr

Jawaban:

27

Dalam konteks khusus ini, PCA terutama digunakan untuk menjelaskan variasi populasi spesifik dalam distribusi alel pada SNP (atau penanda DNA lainnya, meskipun saya hanya akrab dengan kasus SNP) yang sedang diselidiki. "Substruktur populasi" semacam itu terutama muncul sebagai akibat dari berbagai frekuensi alel minor pada keturunan yang jauh secara genetik (mis. Jepang dan Afrika-hitam atau Eropa-Amerika). Gagasan umum dijelaskan dengan baik dalam Struktur Populasi dan Analisis Eigen , oleh Patterson et al. ( PLoS Genetics 2006, 2 (12)), atau edisi khusus Lancet tentang epidemiologi genetik (2005, 366; sebagian besar artikel dapat ditemukan di web, mulai dengan Cordell & Clayton, Genetic Association Studies ).

Konstruksi sumbu utama mengikuti dari pendekatan klasik terhadap PCA, yang diterapkan pada matriks berskala (individu oleh SNPs) dari genotipe yang diamati (AA, AB, BB; katakanlah B adalah alel minor dalam semua kasus), dengan pengecualian bahwa normalisasi tambahan untuk memperhitungkan pergeseran populasi mungkin diterapkan. Itu semua mengasumsikan bahwa frekuensi alel minor (mengambil nilai dalam {0,1,2}) dapat dianggap sebagai numerik, yaitu kita bekerja di bawah model aditif (juga disebut dosis alelik) atau yang setara yang masuk akal . Karena PC ortogonal berturut-turut akan menjelaskan varians maksimum, ini menyediakan cara untuk menyoroti kelompok individu yang berbeda pada tingkat frekuensi alel minor. Perangkat lunak yang digunakan untuk ini dikenal sebagai Eigenstrat . Ini juga tersedia di Internetegscore()fungsi dari paket GenABEL R (lihat juga GenABEL.org ). Penting untuk dicatat bahwa metode lain untuk mendeteksi substruktur populasi diusulkan, khususnya rekonstruksi cluster berbasis model (lihat referensi di bagian akhir). Informasi lebih lanjut dapat ditemukan dengan menelusuri proyek Hapmap , dan tutorial yang tersedia berasal dari proyek Bioconductor . (Cari tutorial bagus Vince J Carey atau David Clayton di Google).

±6Stratifikasi populasi dalam bantuan online.

Mempertimbangkan bahwa analisis eigen memungkinkan untuk mengungkap beberapa struktur pada tingkat individu, kita dapat menggunakan informasi ini ketika mencoba menjelaskan variasi yang diamati dalam fenotipe yang diberikan (atau distribusi apa pun yang mungkin didefinisikan menurut kriteria biner, misalnya penyakit atau kontrol kasus situasi). Secara khusus, kami dapat menyesuaikan analisis kami dengan PC tersebut (yaitu, skor faktor individu), seperti yang diilustrasikan dalam analisis komponen Utama yang dikoreksi untuk stratifikasi dalam studi asosiasi genome-lebar , oleh Price et al. ( Nature Genetics 2006, 38 (8)), dan karya selanjutnya (ada gambar bagus yang menunjukkan sumbu variasi genetik di Eropa dalam geografi cermin Gen di Eropa; Nature 2008; Gambar 1A direproduksi di bawah). Perhatikan juga bahwa solusi lain adalah dengan melakukan analisis bertingkat (dengan memasukkan etnis dalam GLM) - ini sudah tersedia dalam paket snpMatrix , misalnya.

gen mencerminkan geografi di Eropa

Referensi

  1. Daniel Falush, Matthew Stephens, dan Jonathan K Pritchard (2003). Inferensi struktur populasi menggunakan data genotipe multilokus: lokus terkait dan frekuensi alel berkorelasi . Genetika , 164 (4): 1567–1587.
  2. B Devlin dan K Roeder (1999). Kontrol genom untuk studi asosiasi . Biometrik , 55 (4): 997–1004.
  3. JK Pritchard, M Stephens, dan P Donnelly (2000). Inferensi struktur populasi menggunakan data genotipe multilokus . Genetika , 155 (2): 945–959.
  4. Gang Zheng, Boris Freidlin, Zhaohai Li, dan Joseph L Gastwirth (2005). Kontrol genom untuk studi asosiasi di bawah berbagai model genetik . Biometrik , 61 (1): 186–92.
  5. Chao Tian, ​​Peter K. Gregersen, dan Michael F. Seldin1 (2008). Akuntansi leluhur: substruktur populasi dan studi asosiasi genom-lebar . Human Molecular Genetics , 17 (R2): R143-R150.
  6. Kai Yu, Substruktur Populasi dan Seleksi Kontrol dalam Studi Asosiasi Genome .
  7. Alkes L. Price, Noah A. Zaitlen, David Reich dan Nick Patterson (2010). Pendekatan baru untuk stratifikasi populasi dalam studi asosiasi genome , Nature Reviews Genetics
  8. Chao Tian, ​​dkk. (2009). Substruktur Genetik Populasi Eropa: Definisi Lebih Lanjut tentang Penanda Informatif Leluhur untuk Membedakan Kelompok Etnik Eropa yang Beragam , Kedokteran Molekuler, 15 (11-12): 371-383.
chl
sumber
Terima kasih banyak. Secara alami lebih banyak pertanyaan berikut: 1) Apa yang terjadi jika saya mengabaikan PCA dan membuat stratifikasi sampel GWAS saya hanya dengan GENDER / RACE / AGE dan mengabaikan PCA. Bagaimana ini akan mencerminkan analisis asosiasi saya dan hasilnya? 2) Jika saya sebenarnya ingin menggunakan PCA berapa banyak SNPS saya harus memiliki genotipe setidaknya untuk memiliki PCA yang benar? Cukup 200? Apakah mereka harus tersebar secara merata di semua kromosom? 3) SNP mana yang digunakan dalam PCA? Apakah ini set yang sudah ditentukan atau ada?
suprvisr
@suprvisr Saya dapat menjawab di sana atau memperbarui tanggapan saya, tetapi saya pikir lebih baik untuk mengajukan pertanyaan baru (sth sepanjang gagasan "pro dan kontra penyesuaian dengan PCA vs stratifikasi") dan tautan ke yang ini sehingga orang-orang dapat dengan jelas membuat koneksi yang diperlukan.
chl
@AndyFrost menyarankan yang berikut ini mungkin memiliki angka yang direferensikan: goo.gl/jNXx0x dan gambar yang Anda rujuk mungkin ada di goo.gl/TcK3g8 .
gung - Reinstate Monica
@chl Bisakah Anda jelaskan apa yang Anda maksud dengan ini: "Apa yang biasanya dilakukan dalam hal ini adalah menerapkan PCA secara berulang, dan menghapus individu yang nilainya di bawah ± 6 ± 6 SD pada setidaknya satu dari 20 kepala sekolah pertama kapak ". Saya sedang mencari jawaban untuk posting saya di sini: biostars.org/p/180336
MAPK