Saya cukup baru dalam hal statistik (beberapa program Uni tingkat pemula) dan ingin tahu tentang pengambilan sampel dari distribusi yang tidak diketahui. Khususnya, jika Anda tidak tahu tentang distribusi yang mendasarinya, apakah ada cara untuk "menjamin" bahwa Anda mendapatkan sampel yang representatif?
Contoh untuk mengilustrasikan: katakanlah Anda mencoba mencari tahu distribusi kekayaan global. Untuk setiap individu tertentu, Anda entah bagaimana dapat mengetahui kekayaan mereka yang sebenarnya; tetapi Anda tidak dapat "mencicipi" setiap orang di Bumi. Jadi, katakanlah Anda sampel n = 1000 orang secara acak.
Jika sampel Anda tidak termasuk Bill Gates, Anda mungkin berpikir tidak ada miliarder yang ada.
Jika sampel Anda termasuk Bill Gates, Anda mungkin berpikir miliarder lebih umum daripada yang sebenarnya.
Dalam kedua kasus itu, Anda tidak dapat benar-benar mengetahui seberapa umum atau jarang miliarder itu; Anda bahkan mungkin tidak dapat mengetahui apakah ada sama sekali.
Apakah ada mekanisme pengambilan sampel yang lebih baik untuk kasus seperti ini?
Bagaimana Anda memberi tahu apriori prosedur pengambilan sampel apa yang harus digunakan (dan berapa banyak sampel yang dibutuhkan)?
Tampak bagi saya bahwa Anda mungkin harus "mencicipi" persentase besar dari populasi untuk mengetahui, dengan apa pun yang mendekati kepastian yang masuk akal, seberapa umum atau jarang miliarder berada di planet ini, dan bahwa ini disebabkan oleh distribusi yang mendasarinya agak sulit. bekerja dengan.
Jawaban:
Saya membantah klaim Anda bahwa "Dalam kedua kasus itu, Anda tidak dapat benar-benar mengetahui seberapa umum atau jarang miliarder itu". Biarkan menjadi fraksi miliarder yang tidak diketahui dalam populasi. Dengan seragam sebelum , distribusi posterior setelah undian yang ternyata memiliki 0 miliarder adalah distribusi Beta (1.1001), yang terlihat seperti ini: f f 1000f f f 1000
Sedangkan distribusi posterior dari setelah menarik yang ternyata memiliki 1 miliarder adalah Beta (2,1000) distribusi, yang terlihat seperti ini: 1000f 1000
Dalam kedua kasus, Anda bisa yakin bahwa . Anda mungkin berpikir itu tidak cukup tepat. Tetapi sebenarnya 0,01 cukup tepat untuk sampel ukuran 1000. Sebagian besar jumlah lain yang Anda perkirakan akan kurang tepat dari ini. Misalnya, fraksi laki-laki hanya dapat diperkirakan dalam kisaran ukuran 0,1.f< 0,01
sumber
Ada dua hal yang dapat Anda lakukan (secara terpisah atau dalam kombinasi)
Model ekornya
Salah satunya adalah memodelkan ekor distribusi menggunakan distribusi parametrik. Undang-undang kekuasaan dikenal cocok dengan distribusi kekayaan dengan baik, jadi Anda mencoba distribusi Pareto. Anda bisa menyesuaikan distribusi itu dengan kemungkinan maksimum, yaitu dengan mencari parameter yang paling mewakili sampel Anda. Atau lebih baik, Anda bisa meletakkan prior Bayesian pada parameter, dan menghitung posterior penuh.
Sayangnya, hukum daya sangat peka terhadap parameter, dan tanpa banyak titik data besar dalam sampel Anda, akan ada banyak ketidakpastian tentang eksponen. Perkiraan jumlah miliarder akan peka terhadap parameter ini, tetapi jauh lebih sedikit dari rata-rata kekayaan miliarder, sehingga situasinya tidak terlalu buruk.
Pentingnya pengambilan sampel
Yang lainnya adalah mengubah cara Anda mengumpulkan sampel. Misalkan Anda mencurigai (sebagaimana seharusnya) ada lebih banyak miliarder per kapita di Monako atau Zurich daripada di Mogadishiu. Jika Anda mengetahui populasi masing-masing kota ini, Anda bisa mengumpulkan sampel yang lebih besar di kota-kota tempat Anda berharap melihat lebih banyak miliarder, dan yang lebih kecil di kota-kota lain.
Jadi katakanlah Zurich memiliki 400.000 orang dan Mogadishu 1.400.000 dan kami ingin melakukan polling 9.000 orang. Kami tertarik di sini dalam jumlah miliarder, bukan miliarder.
Sampel yang tidak bias akan memilih 2.000 orang di Zurich dan 7.000 di Mogadishu. Namun, kami akan bias sampel dengan sampling tujuh kali lebih sering dari Zurich. Jadi kita akan "berpura-pura" bahwa Zurich memiliki 2.800.000 orang dan menyesuaikannya nanti. Ini berarti kami akan melakukan polling 6.000 orang di Zurich, bukannya 2.000 dan 4.000 di Mogadishu.
Katakanlah kita menghitung 21 jutawan dalam sampel Zurich kita, dan hanya 1 dalam sampel Mogadishu kita. Karena kami mengambil sampel 7 kali lipat dari Zurich, kami hanya akan menghitungnya sebagai 3 jutawan.
Prosedur ini akan mengurangi varian penaksir Anda. Ini juga dapat digunakan bersamaan dengan metode pertama, dalam hal ini Anda akan menyesuaikan untuk sampel penting ketika menyesuaikan distribusi parametrik.
sumber
Saya pikir metode pengambilan sampel yang baik didasarkan pada pengetahuan sebelumnya tentang sistem. Di bidang Anda, Anda memiliki pengetahuan tentang bias potensial yang mungkin mempengaruhi pengambilan sampel Anda. Jika Anda tidak memiliki pengetahuan itu, Anda bisa mendapatkannya dari literatur.
Dalam contoh Anda, Anda tahu bahwa ada milyarder dan mereka mungkin membiasakan sampel Anda. Jadi Anda dapat memutuskan untuk membuat stratifikasi pengambilan sampel berdasarkan tingkat pendidikan, negara, jenis pekerjaan, dll. Ada beberapa opsi.
Mari kita coba dengan contoh lain. Tujuan Anda adalah untuk menentukan kelimpahan spesies tikus di taman. Di taman ini, ada hutan dan padang rumput. Berdasarkan literatur, Anda tahu bahwa tikus lebih banyak di hutan daripada padang rumput. Jadi Anda membuat stratifikasi sampel Anda berdasarkan karakteristik ini. Ada prosedur pengambilan sampel lain yang mungkin, tetapi saya pikir informasi terbaik Anda akan berasal dari literatur yang ada.
Dan jika tidak ada literatur tentang bidang Anda? Mustahil, tetapi dalam konteks itu, saya akan melakukan pra-studi untuk melihat faktor-faktor apa yang perlu dipertimbangkan untuk pengambilan sampel.
sumber
Apakah sampel representatif atau tidak, tidak ada hubungannya dengan pengukuran sampel yang diamati. Sampel representatif jika setiap set unit pengamatan memiliki probabilitas yang sama untuk dipilih sebagai set lainnya dengan ukuran yang sama. Tentu saja ini sulit dilakukan kecuali Anda bisa mendapatkan enumerasi lengkap dari ruang sampel Anda. Dengan asumsi Anda bisa mendapatkan itu (dari data saluran sensus, misalnya), sampel acak sederhana akan representatif.
Tidak peduli bagaimana Anda mendapatkan sampel Anda, akan selalu ada setidaknya tiga sumber kesalahan untuk dipertimbangkan:
kesalahan pengambilan sampel: secara kebetulan Anda menyertakan Bill Gates dalam sampel representatif Anda. Metode statistik, terutama lebar interval kepercayaan, dll. Dirancang untuk menangani hal ini, asalkan Anda memiliki pengetahuan kasar tentang distribusi yang ada (mis. Normalitas, yang pasti tidak dimiliki oleh distribusi kekayaan).
Bias pengambilan sampel: Sampel tidak representatif. Contoh: Bill Gates memiliki nomor yang tidak terdaftar, jadi survei telepon Anda tidak akan pernah bisa menghubunginya (kecuali jika Anda menggunakan sesuatu seperti "panggilan angka-acak"). Ini adalah contoh ekstrem, tetapi bias pengambilan sampel sangat luas. Kejadian yang umum terjadi adalah mengambil sampel di tempat atau sampel kenyamanan: Anda mencicipi pelanggan restoran di restoran, apakah mereka menyukai tempat itu, seberapa sering mereka ada di sana, dan apakah mereka berencana untuk kembali. Pelanggan berulang jauh lebih mungkin untuk dijadikan sampel daripada pelanggan satu kali, dan sampel jenis ini dapat sangat bias dalam sikap mereka.
bias respon: Pengukuran itu sendiri tidak akurat. Hal ini dapat terjadi karena kesalahan fungsi meter hingga kebohongan efek kuantum (misalnya prinsip ketidakpastian Heisenberg).
sumber