Interval kepercayaan ketika ukuran sampel sangat besar

14

Pertanyaan saya dapat diulangi sebagai "bagaimana menilai kesalahan pengambilan sampel menggunakan data besar", terutama untuk publikasi jurnal. Berikut adalah contoh untuk menggambarkan tantangan.

Dari kumpulan data yang sangat besar (> 100000 pasien unik dan obat yang diresepkan dari 100 rumah sakit), saya tertarik untuk memperkirakan proporsi pasien yang menggunakan obat tertentu. Sangat mudah untuk mendapatkan proporsi ini. Interval kepercayaannya (misalnya parametrik atau bootstrap) sangat ketat / sempit, karena n sangat besar. Meskipun beruntung memiliki ukuran sampel yang besar, saya masih mencari cara untuk menilai, menyajikan, dan / atau memvisualisasikan beberapa bentuk probabilitas kesalahan. Meskipun tampaknya tidak membantu (jika tidak menyesatkan) untuk menempatkan / memvisualisasikan interval kepercayaan (misalnya, 95% CI: .65878 - .65881), juga tampaknya tidak mungkin untuk menghindari beberapa pernyataan tentang ketidakpastian.

Tolong beritahu saya bagaimana menurut anda. Saya akan sangat menghargai literatur tentang topik ini; cara untuk menghindari kepercayaan berlebihan pada data bahkan dengan ukuran sampel yang besar.

so2015
sumber
7
Anda dapat menghindari kepercayaan berlebihan dengan mengingat bahwa kesalahan non-sampling tetap tidak tersentuh. Jika ada bias dalam pengambilan sampel dan pengukuran, mereka masih ada. Juga, apakah Anda menghitung pasien yang unik (saya lebih suka mengatakan "berbeda") atau pengamatan yang didefinisikan dalam beberapa cara lain, ada (saya kira) struktur cluster yang menghubungkan obat untuk pasien yang sama dan obat yang diberikan bersama dengan cara apa pun, yang tidak diperhitungkan oleh perhitungan interval kepercayaan paling sederhana. Saya tidak punya solusi tentang bagaimana mengukur ini selain membandingkan dengan dataset lain dan mendokumentasikan produksi data.
Nick Cox

Jawaban:

10

Masalah ini telah muncul dalam beberapa penelitian saya juga (sebagai pemodel epidemi, saya memiliki kemewahan membuat set data saya sendiri, dan dengan komputer yang cukup besar, mereka pada dasarnya dapat berukuran sewenang-wenang. Beberapa pemikiran:

  • Dalam hal pelaporan, saya pikir Anda dapat melaporkan interval kepercayaan yang lebih tepat, meskipun utilitas ini secara sah sedikit dipertanyakan. Tapi itu tidak salah, dan dengan set data ukuran ini, saya tidak berpikir ada banyak panggilan untuk meminta interval kepercayaan dilaporkan dan kemudian mengeluh bahwa kita semua benar-benar ingin mereka dibulatkan menjadi dua digit, dll.
  • Dalam hal menghindari terlalu percaya diri, saya pikir kuncinya adalah untuk mengingat bahwa ketepatan dan ketepatan adalah hal yang berbeda, dan untuk menghindari mencoba mengacaukan keduanya. Sangat menggoda, ketika Anda memiliki sampel besar, untuk tersedot ke dalam seberapa tepat perkiraan efeknya dan tidak berpikir bahwa itu mungkin juga salah. Yang saya pikir adalah kuncinya - set data yang bias akan memiliki bias pada N = 10, atau 100, atau 1000 atau 100.000.

Seluruh tujuan dari kumpulan data besar adalah untuk memberikan perkiraan yang tepat, jadi saya rasa Anda tidak perlu menghindar dari ketepatan itu. Tetapi Anda harus ingat bahwa Anda tidak dapat membuat data buruk lebih baik hanya dengan mengumpulkan volume data buruk yang lebih besar.

Fomite
sumber
Saya pikir volume besar data buruk masih lebih baik daripada volume kecil data buruk.
Aksakal
@Aksakal Kenapa? Jawaban yang salah tepatnya masih salah.
Fomite
@Fomite - yeah, tapi Anda lebih percaya diri bahwa itu salah :)
Duncan
6

Masalah ini telah muncul dalam naskah saya sendiri.

1. Opsi Pelaporan: Jika Anda hanya memiliki satu atau beberapa CI untuk dilaporkan, maka pelaporan "(mis., 95% CI: .65878 - .65881)" tidak terlalu bertele-tele, dan menyoroti ketepatan CI. Namun, jika Anda memiliki banyak CI, maka pernyataan selimut mungkin lebih bermanfaat bagi pembaca. Misalnya, saya biasanya akan melaporkan sesuatu dengan efek "dengan ukuran sampel ini, margin kepercayaan kesalahan 95% untuk setiap proporsi kurang dari +/- .010." Saya biasanya melaporkan sesuatu seperti ini di Metode, atau di keterangan Tabel atau Gambar, atau keduanya.

2. Menghindari "kepercayaan berlebihan" bahkan dengan ukuran sampel besar: Dengan sampel 100.000, teorema batas pusat akan membuat Anda tetap aman saat melaporkan CI untuk proporsi. Jadi, dalam situasi yang Anda jelaskan, Anda harus baik-baik saja, kecuali ada pelanggaran asumsi lain yang tidak saya sadari (misalnya, dilanggar iid).

Anthony
sumber
0

Jangan laporkan interval kepercayaan diri. Sebagai gantinya laporkan ukuran sampel dan proporsi yang tepat. Pembaca akan dapat menghitung CI sendiri dengan cara apa pun yang diinginkannya.

Aksakal
sumber
4
Mengapa alasan ini tidak seharusnya diterapkan pada semua pelaporan data kuantitatif?
whuber
@whuber, pertanyaan bagus. Saya semua untuk penelitian yang dapat direproduksi, berharap semua orang menerbitkan dataset mereka.
Aksakal
6
Saya tidak bermaksud menganggapnya sebagai saran. Bahkan jika setiap orang menerbitkan dataset mereka, mereka akan membatalkan tugas ilmiah mereka jika mereka gagal memberikan analisis mereka - dan itu termasuk analisis ketidakpastian. Anda tampaknya menuju ke arah yang secara logis akan berakhir dengan saran bahwa para ilmuwan tidak melakukan apa pun selain mempublikasikan data, tanpa analisis sama sekali! Itu akhirnya menjadi dakwaan terhadap rekomendasi bahwa CI tidak dilaporkan. Ini menunjukkan sebaliknya bahwa beberapa jenis analisis statistik harus ditawarkan dalam hal apa pun, terlepas dari ukuran sampel.
whuber
0

Pertimbangkan kemungkinan bahwa 100 proporsi rumah sakit yang berbeda tidak bertemu dengan nilai rata-rata yang sama. Apakah Anda menguji varians antar-grup? Jika ada perbedaan yang terukur antara rumah sakit, maka asumsi bahwa sampel dihasilkan dari distribusi normal umum tidak didukung & Anda tidak boleh menyatukannya.

Namun jika data Anda benar-benar berasal dari sampel besar yang terdistribusi normal, maka Anda tidak akan menemukan "pernyataan tentang ketidakpastian" yang bermanfaat sebagai properti data, tetapi setelah dipikirkan tentang mengapa atau mengapa statistik Anda tidak digeneralisasikan - karena beberapa bias bawaan dalam koleksi, atau kurangnya stasioneritas, dll. yang harus Anda tunjukkan.

John Mark
sumber