Saya memiliki 383 sampel yang memiliki bias berat untuk beberapa nilai umum, bagaimana cara menghitung 95% CI untuk rata-rata? CI yang saya hitung sepertinya jauh, yang saya asumsikan adalah karena data saya tidak terlihat seperti kurva ketika saya membuat histogram. Jadi saya pikir saya harus menggunakan sesuatu seperti bootstrap, yang saya tidak mengerti dengan baik.
confidence-interval
mean
IhaveCandy
sumber
sumber
Jawaban:
Ya, bootstrap adalah alternatif untuk mendapatkan interval kepercayaan untuk mean (dan Anda harus melakukan sedikit usaha jika Anda ingin memahami metode ini).
Idenya adalah sebagai berikut:
Mengenai langkah terakhir, ada beberapa jenis interval kepercayaan bootstrap (BCI). Referensi berikut menyajikan diskusi tentang sifat-sifat berbagai jenis BCI:
http://staff.ustc.edu.cn/~zwp/teach/Stat-Comp/Efron_Bootstrap_CIs.pdf
http://www.tau.ac.il/~saharon/Boot/10.1.1.1.133.8405.pdf
Merupakan praktik yang baik untuk menghitung beberapa BCI dan mencoba memahami kemungkinan perbedaan di antara mereka.
Di R, Anda dapat dengan mudah mengimplementasikan ide ini menggunakan paket R 'boot' sebagai berikut:
sumber
Alternatif standar lain adalah menghitung CI dengan uji Wilcoxon. Dalam R
Sayangnya, ini memberi Anda CI di sekitar median (semu) bukan berarti, tetapi kemudian jika data sangat tidak normal mungkin median adalah ukuran yang lebih informatif.
sumber
Untuk data log-normal, Olsson (2005) menyarankan 'metode Cox yang dimodifikasi'
Jika terdistribusi secara normal dan , interval kepercayaan untuk adalah:X E (X)=θ log( θ )
Di mana , rata-rata sampel adalah dan varians sampel adalah . Untuk df, gunakan n-1.Y= log( X) Y Y¯ Y S2
Fungsi R di bawah:
Mengulangi contoh dari kertas Olsson
sumber
Anda bisa menggunakan interval kepercayaan standar untuk mean: Ingatlah bahwa ketika kita menghitung interval kepercayaan untuk mean, kita dapat naik banding ke teorema batas pusat dan menggunakan interval standar (menggunakan titik-titik kritis dari distribusi-T), bahkan jika data yang mendasarinya tidak normal. Faktanya, selama distribusi data yang mendasarinya memiliki varian yang terbatas, distribusi mean sampel dengan pengamatan harus benar-benar tidak dapat dibedakan dari distribusi normal. Ini akan menjadi kasus bahkan jika distribusi data yang mendasarinya sangat berbeda dengan distribusi normal.n = 383
sumber