Penggunaan polandia median untuk pemilihan fitur

Dalam sebuah makalah yang saya baca baru-baru ini saya menemukan bit berikut di bagian analisis data mereka:

Tabel data kemudian dipecah menjadi jaringan dan garis sel, dan kedua subtabel secara terpisah dipoles median (baris dan kolom secara iteratif disesuaikan memiliki median 0) sebelum bergabung kembali ke dalam satu tabel. Kami akhirnya memilih subset gen yang ekspresinya bervariasi setidaknya 4 kali lipat dari median dalam sampel ini yang ditetapkan dalam setidaknya tiga sampel yang diuji.

Saya harus mengatakan saya tidak benar-benar mengikuti alasan di sini. Saya ingin tahu apakah Anda dapat membantu saya menjawab dua pertanyaan berikut:

Mengapa perlu / membantu untuk menyesuaikan median dalam dataset? Mengapa harus dilakukan secara terpisah untuk berbagai jenis sampel?
Bagaimana ini tidak mengubah data eksperimental? Apakah ini cara yang dikenal untuk memilih sejumlah gen / variabel dari sekumpulan data besar, atau apakah itu adhoc?

Terima kasih,

feature-selection median genetics posdef
sumber

Bisakah Anda jelaskan jenis data apa yang Anda / mereka lihat? Saya pikir menilai dengan apa yang Anda kutip - bagi saya - metode ini tampaknya sangat ad hoc.

suncoolsu

@suncoolsu: ini data microarray, jika Anda terbiasa dengan konsep itu. Jika tidak, saya mungkin bisa meringkasnya sebagai; gen mana yang diekspresikan, sampai sejauh mana dalam sampel yang diteliti. Berikut penjelasan yang lebih baik: en.wikipedia.org/wiki/Gene_expression_profiling

posdef

@suncoolsu Hampir pasti data Analisis Ekspresi Gen.

kriegar

Ok - Saya tidak yakin, sequencing generasi berikutnya juga semakin populer.

suncoolsu

Jawaban:

Tukey Median Polish, algoritma ini digunakan dalam normalisasi RMA microarrays. Seperti yang Anda ketahui, data microarray cukup berisik, oleh karena itu mereka membutuhkan cara yang lebih kuat untuk memperkirakan intensitas probe dengan mempertimbangkan pengamatan untuk semua probe dan microarray. Ini adalah model khas yang digunakan untuk menormalisasi intensitas probe di seluruh array.

Y_{i j} = μ_{i} + α_{j} + ϵ_{i j}

$Y_{ij} = \mu_{i} + \alpha_{j} + \epsilon_{ij}$

i = 1, \dots, I j = 1, \dots, J

$i=1,\ldots,I \qquad j=1,\ldots, J$

Dimana adalah berubah intensitas PM untuk penyelidikan di Array. adalah noise latar belakang dan dapat diasumsikan sesuai dengan noise dalam regresi linear normal. Namun, asumsi distributif pada mungkin membatasi, oleh karena itu kami menggunakan Tukey Median Polish untuk mendapatkan estimasi untuk dan . Ini adalah cara yang kuat untuk menormalkan seluruh array, karena kami ingin memisahkan sinyal, intensitas akibat probe, dari efek array, . Kita dapat memperoleh sinyal dengan menormalkan efek array $Y_{ij}$ $log$ $i^{th}$ $j^{th}$ $\epsilon_{ij}$ $\epsilon$ $\hat{\mu_i}$ $\hat{\alpha_j}$ $\alpha$ $\hat{\alpha_j}$ untuk semua array. Jadi, kita hanya dibiarkan dengan efek probe ditambah beberapa noise acak.

Tautan yang saya kutip sebelumnya menggunakan poles median Tukey untuk memperkirakan gen yang diekspresikan secara berbeda atau gen "menarik" dengan memberi peringkat berdasarkan efek penyelidikan. Namun, makalah ini cukup tua, dan mungkin pada saat itu orang masih mencoba mencari cara untuk menganalisis data microarray. Makalah metode Bayesian empiris non-parametrik datang pada tahun 2001, tetapi mungkin belum banyak digunakan.

Namun, sekarang kami mengerti banyak tentang microarray (secara statistik) dan cukup yakin tentang analisis statistik mereka.

Data microarray cukup berisik dan RMA (yang menggunakan Median Polish) adalah salah satu metode normalisasi yang paling populer, mungkin karena kesederhanaannya. Metode populer dan canggih lainnya adalah: GCRMA, VSN. Penting untuk dinormalisasi karena bunganya adalah efek probe dan bukan efek array.

Seperti yang Anda harapkan, analisis tersebut dapat diuntungkan oleh beberapa metode yang memanfaatkan peminjaman informasi lintas gen. Ini mungkin termasuk, Bayesian atau metode Bayesian empiris. Mungkin kertas yang Anda baca sudah tua dan teknik-teknik ini tidak keluar sampai saat itu.

Mengenai poin kedua Anda, ya mereka mungkin memodifikasi data eksperimental. Tapi, saya pikir, modifikasi ini adalah untuk tujuan yang lebih baik, karenanya dapat dibenarkan. Alasannya adalah

a) Data microarray cukup berisik. Ketika minatnya adalah efek penyelidikan, normalisasi data dengan RMA, GCRMA, VSN, dll. Diperlukan dan mungkin memanfaatkan struktur khusus apa pun dalam data yang baik. Tetapi saya akan menghindari melakukan bagian kedua. Ini terutama karena jika kita tidak tahu strukturnya lebih awal, lebih baik jangan memaksakan banyak asumsi.

b) Sebagian besar eksperimen microarray bersifat eksploratif, yaitu, para peneliti mencoba mempersempit beberapa set gen yang "menarik" untuk analisis atau eksperimen lebih lanjut. Jika gen-gen ini memiliki sinyal yang kuat, modifikasi seperti normalisasi seharusnya tidak (secara substansial) mempengaruhi hasil akhir.

Oleh karena itu, modifikasi dapat dibenarkan. Tetapi saya harus berkomentar, jika berlebihan, normalisasi dapat menyebabkan hasil yang salah.

suncoolsu
sumber

+1 Ini adalah jawaban yang jauh lebih baik daripada usaha saya. Terima kasih.

kriegar

@posdef. Saya bertanya-tanya apakah ada ahli statistik yang terlibat dalam analisis statistik makalah ini.

suncoolsu

terima kasih atas balasan Anda. Saya pikir fakta bahwa ini adalah langkah pra-pemrosesan tidak dijelaskan dengan baik (atau hanya dianggap terkenal) di koran. Omong-omong, makalah ini diterbitkan pada tahun 2000 (di Nature) jadi saya kira mereka memiliki setidaknya beberapa ahli statistik melihat metode mereka, jika tidak terlibat dalam penulisan. Tapi tentu saja saya hanya bisa berspekulasi .. :)

posdef

@posdef. Ok- keren menjawab banyak pertanyaan. 2000 adalah saat ketika orang masih mencari cara untuk menganalisis data microarray. FDR tidak suka saat itu :-)

suncoolsu

Anda mungkin menemukan beberapa petunjuk di halaman 4 dan 5 ini

Ini adalah metode penghitungan residu untuk model dengan menghitung nilai untuk , dan sehingga jika ditabulasi , median setiap baris dan setiap kolom adalah 0.

y_{i, j} = m + a_{i} + b_{j} + e_{i, j}

$y_{i,j} = m + a_i + b_j + e_{i,j}$

m

$m$

a_{i}

$a_i$

b_{j}

$b_j$

e_{i, j}

$e_{i,j}$

Jumlah pendekatan yang lebih konvensional untuk menghitung nilai untuk , dan sehingga rata-rata (atau jumlah) dari setiap baris dan setiap kolom residual adalah 0. $m$ $a_i$ $b_j$

Keuntungan menggunakan median adalah ketahanan untuk sejumlah kecil pencilan; Kerugiannya adalah Anda membuang informasi yang berpotensi berguna jika tidak ada outlier.

Henry
sumber

terima kasih atas jawabannya, dan tautan referensi. Namun saya tidak bisa melihat bagaimana model ini berlaku untuk masalah yang dihadapi. mengingat bahwa data tersebut adalah nilai ekspresi komparatif (baca: banyak) bagaimana seseorang dapat mendefinisikan , dan ??

a_{i}

$a_i$

b_{j}

$b_j$

e_{i, j}

$e_{i,j}$

posdef

Jika sebaliknya Anda mengambil model kelimpahan seperti atau yang seperti maka pada dasarnya Anda dapat melakukan hal yang sama, menjadikan median dari setiap baris dan setiap kolom dari tabel residual sama dengan 0.

n_{i, j} = n_{i} q_{j} + e_{i, j}

$n_{i,j} = n_i \,q_j + e_{i,j}$

l o g (n_{i, j}) = l o g (n) + l o g (p_{i}) + l o g (q_{j}) + e_{i, j}

$log(n_{i,j}) = log(n) + log(p_i) + log(q_j) + e_{i,j}$

Henry

@Henry Informasi apa yang "dibuang" dengan median ketika tidak ada "outlier" (dan apa sebenarnya yang Anda maksud dengan "outlier")? Lagi pula, Anda dapat merekonstruksi data dengan tepat menggunakan median besar, median baris dan kolom, dan residu, yang semuanya merupakan output dari polandia median. Jika yang Anda maksud residu dibuang, maka dalam arti apa "mean polish" (setara dengan OLS) berbeda dalam hal ini?

whuber

@whuber: Residual disimpan dalam kedua kasus. Polishing rata-rata memperhitungkan seberapa jauh pengamatan dari pusat (dalam arti, itu menyeimbangkan bobot residu) sedangkan polandia median hanya melihat apakah mereka berada di atas atau di bawah pusat (dalam arti, itu menyeimbangkan jumlah residu). Jadi informasi berat tidak digunakan saat menggunakan median sebagai pusat; ini bisa baik ketika beberapa dari bobot / residu substansial sangat meragukan sehingga hasil untuk pusat tidak dapat dipercaya, tetapi melibatkan tidak menggunakan informasi jika tidak.

Henry

@ Henry Jika Anda dapat memulihkan semua data asli dari semir, lalu bagaimana "informasi" tidak "digunakan"? BTW, median polish tidak berperilaku seperti yang Anda jelaskan: residunya adalah perbedaan dalam nilai , bukan dalam peringkat, dari data.

whuber

Sepertinya Anda membaca makalah yang memiliki beberapa analisis ekspresi diferensial gen. Setelah melakukan beberapa penelitian yang melibatkan chip microarray, saya dapat membagikan sedikit pengetahuan (semoga benar) yang saya miliki tentang penggunaan median polish.

Menggunakan poles median selama langkah meringkas preparasi mikroarray adalah cara standar untuk menghilangkan data pencilan dengan chip pencocokan pencocokan pencocokan sempurna (setidaknya untuk RMA).

Polesan median untuk data microarray adalah tempat Anda memiliki efek chip dan efek probe sebagai baris dan kolom Anda:

untuk setiap set probe (terdiri dari n jumlah probe yang sama) pada x chips:

         chip1    chip2    chip3   ...  chipx
probe1      iv       iv       iv   ...     iv
probe2      iv       iv       iv   ...     iv 
probe3      iv       iv       iv   ...     iv
...
proben      iv       iv       iv   ...     iv

di mana iv adalah nilai intensitas

Karena variabilitas intensitas penyelidikan, hampir semua analisis data microarray diproses menggunakan beberapa jenis koreksi latar belakang dan normalisasi sebelum diringkas.

berikut adalah beberapa tautan ke utas milis bioC yang berbicara tentang penggunaan median vs. metode lain:

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004752.html

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004734.html

Data dari jaringan dan garis sel biasanya dianalisis secara terpisah karena ketika sel dikultur profil ekspresinya berubah secara dramatis dari sampel jaringan yang dikumpulkan. Tanpa memiliki lebih banyak kertas, sulit untuk mengatakan apakah memproses sampel secara terpisah sesuai atau tidak.

Normalisasi, koreksi latar belakang, dan langkah-langkah peringkasan dalam pipa analisis adalah semua modifikasi data eksperimental, tetapi dalam keadaan tidak diproses, efek chip, efek batch, efek pemrosesan akan menaungi sinyal untuk analisis. Eksperimen microarray ini menghasilkan daftar gen yang merupakan kandidat untuk percobaan tindak lanjut (qPCR, dll) untuk mengonfirmasi hasilnya.

Sejauh ad hoc, tanyakan 5 orang perbedaan lipatan apa yang diperlukan agar gen dianggap berbeda-beda dan Anda akan menemukan paling tidak 3 jawaban berbeda.

kriegar
sumber

Terima kasih atas pembaruan atas jawaban Anda, saya pikir saya mulai mendapatkan ide sekarang. Jadi jika saya mengerti dengan benar, median polishing digunakan untuk menilai variabilitas teknis berkaitan dengan probe dan chip? ... sebelum percobaan diringkas hingga 1 matriks yang menyimpan nilai ekspresi untuk gen dalam kondisi yang berbeda?

posdef

@posdef dari pengertian saya ya. Untuk setiap probe pada sebuah chip (probe dengan urutan yang sama) ada beberapa probe yang tersebar. plmimagegallery.bmbolstad.com untuk beberapa gambar pseudo chip. Selain variabilitas dalam satu chip, ada variabilitas antara chip. Karena variabilitas teknis, algoritma dijalankan pada nilai intensitas mentah untuk mendapatkan "nilai ekspresi" tunggal untuk probe. Matriks nilai-nilai ini kemudian cocok untuk menentukan apakah gen diekspresikan secara diferensial dalam kondisi yang berbeda.

kriegar