Pertimbangkan percobaan biologi sel berikut. Kami membandingkan berbeda perawatan sel yang dikultur. Setiap perlakuan direplikasi dalam beberapa sumur (mikrotiter) , diindeks oleh variabel . Untuk mengukur respon terhadap pengobatan dalam baik w , total F_w non-tumpang tindih mikrograf, atau bidang , dicatat. Kemudian, untuk setiap bidang f dalam sumur w , total sel C_ {wf} diidentifikasi secara komputasi, dimana setiap sel c (dalam sumur w , bidang f ) diwakili oleh seperangkat piksel. Akhirnya, terkait dengan setiap piksel adalah pengukuran (berasal dari intensitas berbagai sinyal fluoresensi yang direkam pada piksel itu).
Masalahnya adalah untuk menggabungkan semua pengukuran piksel untuk menghasilkan "ukuran yang wajar" dari efek t perlakuan pada sel yang diperlakukan dengannya, serta beberapa ukuran "penyebaran" .
Pendekatan standar untuk masalah tersebut adalah dengan menggunakan mean sebagai "ukuran" dan varians (atau standar deviasi) sebagai "penyebaran". Namun, dalam kasus ini, ada banyak cara yang tidak setara yang berarti dan varians dapat dihitung.
Fokus untuk saat ini pada sarana, pada satu titik, seseorang dapat menambahkan di semua piksel (mengabaikan distribusinya atas sel, bidang, dan sumur), dan membagi jumlah ini dengan jumlah total piksel ( untuk perawatan ):
Pada ekstrem yang berlawanan, kita dapat rata-rata di setiap tingkat: pertama menghitung rata-rata dari untuk setiap sel, kemudian menghitung rata-rata dari untuk setiap bidang, dan seterusnya:
Secara umum, kedua ungkapan ini tidak akan sama. Plus ada beberapa variasi di antaranya. Menurut perhitungan saya, ada 8 cara untuk melakukan ini (termasuk dua di atas); Saya telah membuat daftar semua dalam kemuliaan penuh mereka di akhir posting ini. Sebagai contoh, seseorang dapat menghitung ini (nomor 6 dalam daftar di bawah):
... di mana adalah jumlah total sel (dijumlahkan di semua bidang) dengan baik . (Resep yang disandikan dengan ungkapan ini berbunyi: "hitung nilai rata-rata untuk setiap sel, yaitu ; lalu, untuk setiap sumur , hitung rata-rata rata-rata atas semua sel di dalam sumur mengabaikan distribusi mereka di atas bidang—, yaitu ; dan, akhirnya, rata-rata atas semua sumur , ")
Dihadapkan dengan semua cara yang berbeda ini untuk "menggunakan rata-rata" untuk mengukur efek dari pengobatan , pertanyaan langsung, tentu saja, yang satu untuk memilih? Versi pertanyaan yang lebih tajam adalah: bagaimana saya bisa menentukan di bawah skenario mana varian tertentu akan sesuai / informatif / berguna?
Dan, secara lebih umum: apakah ada kesulitan dalam menghitung rata-rata rata-rata (rata-rata ...)?
Terima kasih!
(koreksi diterima)
Jawaban:
Ini bukan jawaban langsung untuk pertanyaan Anda ('Jenis rata-rata mana yang harus dipilih'), tetapi lebih merupakan rekomendasi untuk menghindari penghitungan rata-rata sama sekali:
Skenario Anda tampaknya terlihat seperti kasus hierarchical / multilevel model (MLM), karena data bersarang dengan sempurna. Anda memiliki tiga tingkat efek acak: piksel (Level 1) bersarang dalam sel (L2), bersarang di bidang (L3), bersarang di sumur (L4). Perawatan harus diperlakukan sebagai efek tetap.
Anda hanya tertarik pada efek perawatan; metode MLM menangani variasi yang berbeda dari setiap tingkat dan memberi Anda juga perkiraan berapa banyak perbedaan dijelaskan oleh tingkat mana. Jadi Anda tidak 'kehilangan' varians apa pun dengan memperlakukan nilai rata-rata sebagai 'pengukuran', tetapi Anda memperkirakan model pada tingkat data mentah.
Metode ini, bagaimanapun, membutuhkan jumlah grup yang cukup untuk setiap efek acak (yaitu, cukup piksel, cukup sel, cukup bidang, cukup sumur). Karena Anda tidak tertarik pada interaksi lintas level, rekomendasi umum mengatakan sesuatu seperti minimum 10 hingga 30 unit (tentu saja, tergantung pada skenario spesifik, dll.; Lihat, misalnya, di sini ).
sumber