Saya harap pertanyaan ini tidak ditandai "terlalu umum" dan semoga diskusi dimulai yang bermanfaat bagi semua.
Dalam statistik, kami menghabiskan banyak waktu mempelajari teori sampel besar. Kami sangat tertarik dalam menilai sifat asimptotik dari estimator kami termasuk apakah mereka asimtotik tidak memihak, efisien asimtotik, distribusi asimptotik mereka dan sebagainya. Kata asimptotik sangat terkait dengan asumsi bahwa .
Namun dalam kenyataannya, kita selalu berurusan dengan terbatas . Pertanyaan saya adalah:
1) apa yang kita maksud dengan sampel besar? Bagaimana kita bisa membedakan antara sampel kecil dan besar?
2) Ketika kita mengatakan , apakah kita benar-benar berarti bahwa harus pergi ke ?
ex untuk distribusi binomial, membutuhkan sekitar n = 30 untuk konvergen ke distribusi normal di bawah CLT. Haruskah kita memiliki atau dalam kasus ini dengan kita maksud adalah 30 atau lebih ?!
3) Misalkan kita memiliki sampel terbatas dan anggap bahwa Kita tahu segalanya tentang perilaku asimptotik dari penduga kita. Terus? anggap bahwa penaksir kami tidak memihak asimtotik, lalu apakah kami memiliki taksiran yang tidak bias untuk parameter kami dalam sampel terbatas kami atau itu berarti bahwa jika kami memiliki , maka kami akan memiliki yang tidak bias?
Seperti yang dapat Anda lihat dari pertanyaan di atas, saya mencoba memahami filosofi di balik "Asimtotik Sampel Besar" dan mempelajari mengapa kami peduli? Saya perlu mendapatkan beberapa intuisi untuk teorema yang saya pelajari.
sumber
Jawaban:
Lebih baik terlambat daripada tidak sama sekali. Ijinkan saya mendaftar tiga alasan (saya pikir penting) mengapa kita fokus pada ketidakseimbangan asimtotik (konsistensi) dari penduga.
a) Konsistensi adalah kriteria minimum. Jika estimator tidak memperkirakan dengan benar bahkan dengan banyak data, lalu apa gunanya? Ini adalah justifikasi yang diberikan dalam Wooldridge: Introductory Econometrics.
b) Properti sampel terbatas jauh lebih sulit untuk dibuktikan (atau lebih tepatnya, pernyataan asimptotik lebih mudah). Saat ini saya sedang melakukan riset sendiri, dan kapan pun Anda bisa mengandalkan alat sampel besar, segalanya menjadi jauh lebih mudah. Hukum dalam jumlah besar, teorema konvergensi martingale dll. Adalah alat yang bagus untuk mendapatkan hasil asimptotik, tetapi tidak membantu dengan sampel terbatas. Saya percaya sesuatu di sepanjang garis ini disebutkan dalam Hayashi (2000): Econometrics.
c) Jika penaksir bias untuk sampel kecil, seseorang berpotensi dapat memperbaiki atau setidaknya meningkatkan dengan yang disebut koreksi sampel kecil. Ini seringkali rumit secara teoritis (untuk membuktikan bahwa mereka meningkatkan estimator tanpa koreksi). Plus, sebagian besar orang baik-baik saja dengan mengandalkan sampel besar, sehingga koreksi sampel kecil sering tidak diterapkan dalam perangkat lunak statistik standar, karena hanya sedikit orang yang membutuhkannya (mereka yang tidak bisa mendapatkan lebih banyak data DAN peduli tentang ketidakberpihakan). Dengan demikian, ada hambatan tertentu untuk menggunakan koreksi yang tidak biasa itu.
Tentang pertanyaan Anda. Apa yang kami maksud dengan "sampel besar"? Ini sangat tergantung pada konteksnya, dan untuk alat tertentu dapat dijawab melalui simulasi. Artinya, Anda secara buatan menghasilkan data, dan melihat bagaimana, katakanlah, tingkat penolakan berperilaku sebagai fungsi ukuran sampel, atau bias berperilaku sebagai fungsi ukuran sampel. Contoh khusus ada di sini , di mana penulis melihat berapa banyak cluster yang dibutuhkan untuk OLS kesalahan standar berkerumun, memblokir kesalahan standar bootstraped dll untuk berkinerja baik. Beberapa ahli teori juga memiliki pernyataan tentang tingkat konvergensi, tetapi untuk tujuan praktis simulasi tampaknya lebih informatif.
Pada pertanyaan 3: biasanya, pertanyaan tentang ketidakberpihakan (untuk semua ukuran sampel) dan konsistensi (ketidakberpihakan untuk sampel besar) dianggap secara terpisah. Estimator dapat menjadi bias, tetapi konsisten, dalam hal ini memang hanya estimasi sampel besar yang tidak bias. Tetapi ada juga penduga yang tidak bias dan konsisten, yang secara teoritis berlaku untuk ukuran sampel apa pun. ( Estimator juga bisa tidak bias tetapi tidak konsisten karena alasan teknis. )
sumber