Hibah sering memerlukan analisis daya untuk mendukung ukuran sampel yang diusulkan. Dalam proteomik (dan sebagian besar -omik), ada 100 hingga 1000 fitur / variabel yang diukur pada 10 sampel (mungkin 100-an, tetapi tidak mungkin). Juga, diketahui bahwa beberapa unit pengukuran ini (misalnya, jumlah spektral protein) tidak terdistribusi secara normal sehingga kami akan menggunakan uji non-parametrik untuk analisis. Saya telah melihat kekuatan ukuran sampel ditentukan dengan asumsi pengukuran tunggal dan asumsi uji-t, tetapi saya tidak berpikir ini sepenuhnya benar. Masalah lain dengan penghitungan spektral adalah bahwa masing-masing fitur 100-an berada pada skala yang sangat berbeda dengan kesalahan yang sangat berbeda (nilai yang lebih besar memiliki lebih sedikit kesalahan). [Masalah ini dijelaskan dengan baik dalam model perubahan lipatan batas, Mutch et al., 2002 ]
Apa cara yang tepat untuk menentukan kekuatan ukuran sampel yang diusulkan dengan asumsi FDR dan perubahan lipat yang dapat diterima? Menggunakan alat di sini saya dapat menentukan dengan diberikan hal berikut:
- 300 gen
- 3 positif palsu
- 1,4 kali lipat-perbedaan
- 0,8 daya yang diinginkan
- 0,7 stdev
membutuhkan ukuran sampel per kelompok 49.
Ini berguna karena saya mengusulkan desain 50v50, tahu bahwa perubahan 1,4 kali lipat cukup diterima, 1% FDR baik-baik saja, dan saya mungkin akan mengukur 300 protein dalam percobaan ini. Masalah perhitungan daya atau ukuran sampel ini akan terus terjadi, jadi alangkah baiknya jika ada pendekatan yang dirujuk.
EDIT: Saya membaca di mana seorang rekan mengusulkan untuk memodelkan jumlah spektral dari distribusi binominal negatif menggunakan fungsi kemungkinan diikuti oleh tes Wald. Pada dasarnya menggunakan data awal untuk mendapatkan estimasi varians protein dan kemudian menghitung perubahan lipatan yang terdeteksi antara kelompok untuk setiap kuantil. Ada juga input FDR (alpha). Jadi, mengingat daya> 80% dan mengatur ukuran sampel, mereka dapat menentukan perubahan lipat yang terdeteksi untuk varians terendah 25%, varians 50% lebih kecil, dan varians tertinggi 25%. Masalahnya adalah saya tidak tahu bagaimana mereka melakukan ini. Tidak yakin apakah membagikan pendekatan ini akan membantu siapa pun dengan jawaban yang memungkinkan.
Jawaban:
Dalam aplikasi (terutama aplikasi etis, di mana Anda harus melakukan studi kekuatan) Saya suka menggunakan referensi ini [Wang dan Chen 2004], karena itu menjelaskan konsep di balik perhitungan daya untuk data throughput tinggi (apa pun data sebenarnya) .
Intinya, selain parameter yang biasa (α, β, N, ukuran efek) Anda menggunakan dua parameter tambahan, λ dan η. Yang terakhir, η, adalah nomor yang diasumsikan dari gen yang benar-benar diubah, dan λ adalah fraksi dari gen yang benar-benar diubah yang ingin Anda deteksi. Sangat mudah untuk memperluas perhitungan daya yang diketahui ke data throughput tinggi menggunakan pendekatan ini.
Wang, Sue-Jane, dan James J. Chen. "Ukuran sampel untuk mengidentifikasi gen yang diekspresikan berbeda dalam percobaan microarray." Jurnal Komputasi Biologi 11,4 (2004): 714-726.
sumber