Dalam sebuah makalah yang saya baca baru-baru ini saya menemukan bit berikut di bagian analisis data mereka:
Tabel data kemudian dipecah menjadi jaringan dan garis sel, dan kedua subtabel secara terpisah dipoles median (baris dan kolom secara iteratif disesuaikan memiliki median 0) sebelum bergabung kembali ke dalam satu tabel. Kami akhirnya memilih subset gen yang ekspresinya bervariasi setidaknya 4 kali lipat dari median dalam sampel ini yang ditetapkan dalam setidaknya tiga sampel yang diuji.
Saya harus mengatakan saya tidak benar-benar mengikuti alasan di sini. Saya ingin tahu apakah Anda dapat membantu saya menjawab dua pertanyaan berikut:
Mengapa perlu / membantu untuk menyesuaikan median dalam dataset? Mengapa harus dilakukan secara terpisah untuk berbagai jenis sampel?
Bagaimana ini tidak mengubah data eksperimental? Apakah ini cara yang dikenal untuk memilih sejumlah gen / variabel dari sekumpulan data besar, atau apakah itu adhoc?
Terima kasih,
sumber
Jawaban:
Tukey Median Polish, algoritma ini digunakan dalam normalisasi RMA microarrays. Seperti yang Anda ketahui, data microarray cukup berisik, oleh karena itu mereka membutuhkan cara yang lebih kuat untuk memperkirakan intensitas probe dengan mempertimbangkan pengamatan untuk semua probe dan microarray. Ini adalah model khas yang digunakan untuk menormalisasi intensitas probe di seluruh array.
i = 1 , … , I
Dimana adalah berubah intensitas PM untuk penyelidikan di Array. adalah noise latar belakang dan dapat diasumsikan sesuai dengan noise dalam regresi linear normal. Namun, asumsi distributif pada mungkin membatasi, oleh karena itu kami menggunakan Tukey Median Polish untuk mendapatkan estimasi untuk dan . Ini adalah cara yang kuat untuk menormalkan seluruh array, karena kami ingin memisahkan sinyal, intensitas akibat probe, dari efek array, . Kita dapat memperoleh sinyal dengan menormalkan efek array l o g i t h j t hYij log ith jth ϵ ^ μ i ^ α j α ^ α jϵij ϵ μi^ αj^ α αj^ untuk semua array. Jadi, kita hanya dibiarkan dengan efek probe ditambah beberapa noise acak.
Tautan yang saya kutip sebelumnya menggunakan poles median Tukey untuk memperkirakan gen yang diekspresikan secara berbeda atau gen "menarik" dengan memberi peringkat berdasarkan efek penyelidikan. Namun, makalah ini cukup tua, dan mungkin pada saat itu orang masih mencoba mencari cara untuk menganalisis data microarray. Makalah metode Bayesian empiris non-parametrik datang pada tahun 2001, tetapi mungkin belum banyak digunakan.
Namun, sekarang kami mengerti banyak tentang microarray (secara statistik) dan cukup yakin tentang analisis statistik mereka.
Data microarray cukup berisik dan RMA (yang menggunakan Median Polish) adalah salah satu metode normalisasi yang paling populer, mungkin karena kesederhanaannya. Metode populer dan canggih lainnya adalah: GCRMA, VSN. Penting untuk dinormalisasi karena bunganya adalah efek probe dan bukan efek array.
Seperti yang Anda harapkan, analisis tersebut dapat diuntungkan oleh beberapa metode yang memanfaatkan peminjaman informasi lintas gen. Ini mungkin termasuk, Bayesian atau metode Bayesian empiris. Mungkin kertas yang Anda baca sudah tua dan teknik-teknik ini tidak keluar sampai saat itu.
Mengenai poin kedua Anda, ya mereka mungkin memodifikasi data eksperimental. Tapi, saya pikir, modifikasi ini adalah untuk tujuan yang lebih baik, karenanya dapat dibenarkan. Alasannya adalah
a) Data microarray cukup berisik. Ketika minatnya adalah efek penyelidikan, normalisasi data dengan RMA, GCRMA, VSN, dll. Diperlukan dan mungkin memanfaatkan struktur khusus apa pun dalam data yang baik. Tetapi saya akan menghindari melakukan bagian kedua. Ini terutama karena jika kita tidak tahu strukturnya lebih awal, lebih baik jangan memaksakan banyak asumsi.
b) Sebagian besar eksperimen microarray bersifat eksploratif, yaitu, para peneliti mencoba mempersempit beberapa set gen yang "menarik" untuk analisis atau eksperimen lebih lanjut. Jika gen-gen ini memiliki sinyal yang kuat, modifikasi seperti normalisasi seharusnya tidak (secara substansial) mempengaruhi hasil akhir.
Oleh karena itu, modifikasi dapat dibenarkan. Tetapi saya harus berkomentar, jika berlebihan, normalisasi dapat menyebabkan hasil yang salah.
sumber
Anda mungkin menemukan beberapa petunjuk di halaman 4 dan 5 ini
Ini adalah metode penghitungan residu untuk model dengan menghitung nilai untuk , dan sehingga jika ditabulasi , median setiap baris dan setiap kolom adalah 0.
Jumlah pendekatan yang lebih konvensional untuk menghitung nilai untuk , dan sehingga rata-rata (atau jumlah) dari setiap baris dan setiap kolom residual adalah 0.m ai bj
Keuntungan menggunakan median adalah ketahanan untuk sejumlah kecil pencilan; Kerugiannya adalah Anda membuang informasi yang berpotensi berguna jika tidak ada outlier.
sumber
Sepertinya Anda membaca makalah yang memiliki beberapa analisis ekspresi diferensial gen. Setelah melakukan beberapa penelitian yang melibatkan chip microarray, saya dapat membagikan sedikit pengetahuan (semoga benar) yang saya miliki tentang penggunaan median polish.
Menggunakan poles median selama langkah meringkas preparasi mikroarray adalah cara standar untuk menghilangkan data pencilan dengan chip pencocokan pencocokan pencocokan sempurna (setidaknya untuk RMA).
Polesan median untuk data microarray adalah tempat Anda memiliki efek chip dan efek probe sebagai baris dan kolom Anda:
untuk setiap set probe (terdiri dari n jumlah probe yang sama) pada x chips:
di mana iv adalah nilai intensitas
Karena variabilitas intensitas penyelidikan, hampir semua analisis data microarray diproses menggunakan beberapa jenis koreksi latar belakang dan normalisasi sebelum diringkas.
berikut adalah beberapa tautan ke utas milis bioC yang berbicara tentang penggunaan median vs. metode lain:
https://stat.ethz.ch/pipermail/bioconductor/2004-May/004752.html
https://stat.ethz.ch/pipermail/bioconductor/2004-May/004734.html
Data dari jaringan dan garis sel biasanya dianalisis secara terpisah karena ketika sel dikultur profil ekspresinya berubah secara dramatis dari sampel jaringan yang dikumpulkan. Tanpa memiliki lebih banyak kertas, sulit untuk mengatakan apakah memproses sampel secara terpisah sesuai atau tidak.
Normalisasi, koreksi latar belakang, dan langkah-langkah peringkasan dalam pipa analisis adalah semua modifikasi data eksperimental, tetapi dalam keadaan tidak diproses, efek chip, efek batch, efek pemrosesan akan menaungi sinyal untuk analisis. Eksperimen microarray ini menghasilkan daftar gen yang merupakan kandidat untuk percobaan tindak lanjut (qPCR, dll) untuk mengonfirmasi hasilnya.
Sejauh ad hoc, tanyakan 5 orang perbedaan lipatan apa yang diperlukan agar gen dianggap berbeda-beda dan Anda akan menemukan paling tidak 3 jawaban berbeda.
sumber