Pertanyaan saya dapat diulangi sebagai "bagaimana menilai kesalahan pengambilan sampel menggunakan data besar", terutama untuk publikasi jurnal. Berikut adalah contoh untuk menggambarkan tantangan.
Dari kumpulan data yang sangat besar (> 100000 pasien unik dan obat yang diresepkan dari 100 rumah sakit), saya tertarik untuk memperkirakan proporsi pasien yang menggunakan obat tertentu. Sangat mudah untuk mendapatkan proporsi ini. Interval kepercayaannya (misalnya parametrik atau bootstrap) sangat ketat / sempit, karena n sangat besar. Meskipun beruntung memiliki ukuran sampel yang besar, saya masih mencari cara untuk menilai, menyajikan, dan / atau memvisualisasikan beberapa bentuk probabilitas kesalahan. Meskipun tampaknya tidak membantu (jika tidak menyesatkan) untuk menempatkan / memvisualisasikan interval kepercayaan (misalnya, 95% CI: .65878 - .65881), juga tampaknya tidak mungkin untuk menghindari beberapa pernyataan tentang ketidakpastian.
Tolong beritahu saya bagaimana menurut anda. Saya akan sangat menghargai literatur tentang topik ini; cara untuk menghindari kepercayaan berlebihan pada data bahkan dengan ukuran sampel yang besar.
Jawaban:
Masalah ini telah muncul dalam beberapa penelitian saya juga (sebagai pemodel epidemi, saya memiliki kemewahan membuat set data saya sendiri, dan dengan komputer yang cukup besar, mereka pada dasarnya dapat berukuran sewenang-wenang. Beberapa pemikiran:
Seluruh tujuan dari kumpulan data besar adalah untuk memberikan perkiraan yang tepat, jadi saya rasa Anda tidak perlu menghindar dari ketepatan itu. Tetapi Anda harus ingat bahwa Anda tidak dapat membuat data buruk lebih baik hanya dengan mengumpulkan volume data buruk yang lebih besar.
sumber
Masalah ini telah muncul dalam naskah saya sendiri.
1. Opsi Pelaporan: Jika Anda hanya memiliki satu atau beberapa CI untuk dilaporkan, maka pelaporan "(mis., 95% CI: .65878 - .65881)" tidak terlalu bertele-tele, dan menyoroti ketepatan CI. Namun, jika Anda memiliki banyak CI, maka pernyataan selimut mungkin lebih bermanfaat bagi pembaca. Misalnya, saya biasanya akan melaporkan sesuatu dengan efek "dengan ukuran sampel ini, margin kepercayaan kesalahan 95% untuk setiap proporsi kurang dari +/- .010." Saya biasanya melaporkan sesuatu seperti ini di Metode, atau di keterangan Tabel atau Gambar, atau keduanya.
2. Menghindari "kepercayaan berlebihan" bahkan dengan ukuran sampel besar: Dengan sampel 100.000, teorema batas pusat akan membuat Anda tetap aman saat melaporkan CI untuk proporsi. Jadi, dalam situasi yang Anda jelaskan, Anda harus baik-baik saja, kecuali ada pelanggaran asumsi lain yang tidak saya sadari (misalnya, dilanggar iid).
sumber
Jangan laporkan interval kepercayaan diri. Sebagai gantinya laporkan ukuran sampel dan proporsi yang tepat. Pembaca akan dapat menghitung CI sendiri dengan cara apa pun yang diinginkannya.
sumber
Pertimbangkan kemungkinan bahwa 100 proporsi rumah sakit yang berbeda tidak bertemu dengan nilai rata-rata yang sama. Apakah Anda menguji varians antar-grup? Jika ada perbedaan yang terukur antara rumah sakit, maka asumsi bahwa sampel dihasilkan dari distribusi normal umum tidak didukung & Anda tidak boleh menyatukannya.
Namun jika data Anda benar-benar berasal dari sampel besar yang terdistribusi normal, maka Anda tidak akan menemukan "pernyataan tentang ketidakpastian" yang bermanfaat sebagai properti data, tetapi setelah dipikirkan tentang mengapa atau mengapa statistik Anda tidak digeneralisasikan - karena beberapa bias bawaan dalam koleksi, atau kurangnya stasioneritas, dll. yang harus Anda tunjukkan.
sumber