Bayangkan Anda mengulang percobaan tiga kali. Dalam setiap percobaan, Anda mengumpulkan pengukuran rangkap tiga. Rangkap tiga cenderung saling berdekatan, dibandingkan dengan perbedaan antara tiga cara eksperimental. Menghitung nilai tengah berarti cukup mudah. Tetapi bagaimana seseorang bisa menghitung interval kepercayaan untuk grand mean?
Contoh data:
Eksperimen 1: 34, 41, 39
Eksperimen 2: 45, 51, 52
Eksperimen 3: 29, 31, 35
Asumsikan bahwa nilai-nilai ulangan dalam percobaan mengikuti distribusi Gaussian, seperti halnya nilai rata-rata dari setiap percobaan. SD variasi dalam percobaan lebih kecil dari SD di antara sarana eksperimental. Asumsikan juga bahwa tidak ada urutan tiga nilai dalam setiap percobaan. Urutan kiri-ke-kanan dari ketiga nilai di setiap baris sepenuhnya arbitrer.
Pendekatan sederhana adalah pertama menghitung rata-rata dari setiap percobaan: 38.0, 49.3, dan 31.7, dan kemudian menghitung rata-rata, dan interval kepercayaan 95%, dari ketiga nilai tersebut. Dengan menggunakan metode ini, mean rata-rata adalah 39,7 dengan interval kepercayaan 95% mulai dari 17,4 hingga 61,9.
Masalah dengan pendekatan itu adalah bahwa ia benar-benar mengabaikan variasi di antara rangkap tiga. Saya ingin tahu apakah tidak ada cara yang baik untuk menjelaskan variasi itu.
sumber
Jawaban:
Ada interval keyakinan pasti alami untuk nenek dalam model ANOVA satu arah acak seimbang Memang, mudah untuk memeriksa bahwa distribusi sarana diamati ˉ y i ∙ adalah ˉ y i ∙ ~ iid N ( μ , τ 2 ) dengan τ 2 = σ 2 b + σ 2 w
Perhatikan bahwa interval kepercayaan ini tidak lain adalah interval klasik untuk rata-rata Gaussian dengan hanya mempertimbangkan kelompok yang berarti sebagai pengamatany¯saya ∙ . Demikian pendekatan sederhana yang Anda sebutkan:
benar. Dan intuisi Anda tentang variasi yang diabaikan:
salah. Saya juga menyebutkan kebenaran penyederhanaan di /stats//a/72578/8402
Pembaruan 12/04/2014
Beberapa detail sekarang ditulis di blog saya: Mengurangi model untuk mendapatkan interval kepercayaan .
sumber
Ini adalah pertanyaan tentang estimasi dalam model efek campuran linier. Masalahnya adalah bahwa varians dari mean rata-rata adalah jumlah tertimbang dari dua komponen varians yang harus diperkirakan secara terpisah (melalui ANOVA data). Perkiraan memiliki tingkat kebebasan yang berbeda. Oleh karena itu, meskipun seseorang dapat mencoba untuk membangun interval kepercayaan untuk rata-rata menggunakan rumus sampel kecil (Student t) biasa, itu tidak mungkin untuk mencapai cakupan nominal karena penyimpangan dari rata-rata tidak akan persis mengikuti distribusi t Student.
Artikel terbaru (2010) oleh Eva Jarosova, Estimasi dengan Linear Mixed Effects Model , membahas masalah ini. (Pada 2015 ini tampaknya tidak lagi tersedia di Web.) Dalam konteks dataset "kecil" (meskipun begitu, sekitar tiga kali lebih besar dari ini), ia menggunakan simulasi untuk mengevaluasi dua perkiraan perkiraan perhitungan CI (sumur) pendekatan Satterthwaite yang dikenal dan "metode Kenward-Roger"). Kesimpulannya termasuk
Singkatnya, pendekatan yang bagus tampaknya
Hitung CI konvensional dengan menggunakan estimasi komponen varians dan berpura-t distribusi berlaku.
Juga hitung setidaknya satu dari CI yang disesuaikan.
Jika perhitungannya "dekat," terima CI konvensional. Kalau tidak, laporkan bahwa tidak ada data yang memadai untuk menghasilkan CI yang andal.
sumber
Anda tidak dapat memiliki satu interval kepercayaan yang menyelesaikan kedua masalah Anda. Anda harus memilih satu. Anda dapat memperoleh satu dari istilah galat kuadrat rata-rata dalam varians percobaan yang memungkinkan Anda untuk mengatakan sesuatu tentang seberapa akurat Anda dapat memperkirakan nilai-nilai dalam eksperimen atau Anda dapat melakukannya di antara dan itu akan tentang antar eksperimen. Jika saya baru saja melakukan yang pertama saya cenderung ingin plot sekitar 0 daripada sekitar grand mean karena tidak memberi tahu Anda apa-apa tentang nilai rata-rata aktual, hanya tentang efek (dalam hal ini 0). Atau Anda bisa merencanakan keduanya dan menggambarkan apa yang mereka lakukan.
Anda punya pegangan di antara yang satu. Untuk di dalamnya seperti menghitung istilah kesalahan dalam ANOVA untuk mendapatkan MSE untuk bekerja dengan dan dari sana SE untuk CI hanya sqrt (MSE / n) (n = 3 dalam kasus ini).
sumber
Saya pikir CI untuk grand mean terlalu lebar [17,62] bahkan untuk rentang data asli.
Eksperimen ini SANGAT umum dalam kimia. Misalnya, dalam sertifikasi bahan referensi Anda harus mengambil beberapa botol dari lot keseluruhan secara acak, dan Anda harus melakukan analisis ulangan pada setiap botol. Bagaimana Anda menghitung nilai referensi dan ketidakpastiannya? Ada banyak cara untuk melakukannya, tetapi yang paling canggih (dan saya pikir benar) menerapkan meta-analisis atau ML (Dersimonian-Laird, Vangel-Rukhin, dll)
Bagaimana dengan perkiraan bootstrap?
sumber