Setelah mempelajari bootstrap baru-baru ini, saya muncul dengan pertanyaan konseptual yang masih membingungkan saya:
Anda memiliki populasi, dan Anda ingin tahu atribut populasi, yaitu , di mana saya menggunakan untuk mewakili populasi. Ini bisa berarti populasi misalnya. Biasanya Anda tidak bisa mendapatkan semua data dari populasi. Jadi Anda menggambar sampel ukuran dari populasi. Mari kita asumsikan Anda memiliki sampel pertama untuk kesederhanaan. Maka Anda mendapatkan estimator Anda . Anda ingin menggunakan untuk membuat kesimpulan tentang , jadi Anda ingin mengetahui variabilitas .P θ X N θ = g ( X ) θ θ θ
Pertama, ada distribusi sampling sebenarnya dari . Secara konseptual, Anda dapat menarik banyak sampel (masing-masing memiliki ukuran ) dari populasi. Setiap kali Anda memiliki realisasi karena setiap kali Anda akan memiliki sampel yang berbeda. Kemudian pada akhirnya, Anda akan dapat memulihkan distribusi sebenarnya dari . Ok, ini setidaknya adalah tolok ukur konseptual untuk estimasi distribusi . Biarkan saya nyatakan kembali: tujuan utamanya adalah menggunakan berbagai metode untuk memperkirakan atau memperkirakan distribusi sebenarnya dari . N θ =g(X) q
Sekarang, inilah pertanyaannya. Biasanya, Anda hanya memiliki satu sampel yang berisi titik dataKemudian Anda melakukan resample dari sampel ini berkali-kali, dan Anda akan menghasilkan distribusi bootstrap dari . Pertanyaan saya adalah: seberapa dekat distribusi bootstrap ini dengan distribusi sampling sebenarnya dari ? Apakah ada cara untuk mengukurnya?N θ
sumber
Jawaban:
Dalam Teori Informasi cara khas untuk mengukur seberapa "dekat" satu distribusi dengan yang lain adalah dengan menggunakan KL-divergence
Mari kita coba ilustrasikan dengan dataset ekor panjang yang sangat miring - penundaan kedatangan pesawat di bandara Houston (dari paket hflight ). Biarkan menjadi penaksir rata-rata. Pertama, kami menemukan distribusi sampling dari , dan kemudian distribusi bootstrap dari q qθ^ θ^ θ^
Berikut ini dataset:
Mean sebenarnya adalah 7,09 mnt.
Pertama, kami melakukan sejumlah sampel tertentu untuk mendapatkan distribusi sampling , lalu kami mengambil satu sampel dan mengambil banyak sampel bootstrap darinya.θ^
Sebagai contoh, mari kita lihat dua distribusi dengan ukuran sampel 100 dan 5000 pengulangan. Kami melihat secara visual bahwa distribusi ini sangat terpisah, dan perbedaan KL adalah 0,48.
Tetapi ketika kita meningkatkan ukuran sampel menjadi 1000, mereka mulai berkumpul (perbedaan KL adalah 0,11)
Dan ketika ukuran sampel 5.000, mereka sangat dekat (perbedaan KL adalah 0,01)
Ini, tentu saja, tergantung pada sampel bootstrap yang Anda dapatkan, tetapi saya percaya Anda dapat melihat bahwa divergensi KL turun saat kami meningkatkan ukuran sampel, dan dengan demikian distribusi bootstrap dari mendekati distribusi sampel dalam hal KL Divergence. Yang pasti, Anda dapat mencoba melakukan beberapa bootstraps dan mengambil rata-rata divergensi KL. qθ^ θ^
Berikut kode R dari eksperimen ini: https://gist.github.com/alexeygrigorev/0b97794aea78eee9d794
sumber
Bootstrap didasarkan pada konvergensi cdf empiris dengan cdf yang sebenarnya, yaitu, konvergen (saat beranjak ke tak terhingga) ke untuk setiap . Oleh karena itu konvergensi distribusi bootstrap dari didorong oleh konvergensi ini yang terjadi pada laju untuk setiap , sejak meskipun laju dan distribusi terbatas ini tidak secara otomatis ditransfer ke
Sebagai pembaruan, berikut ini adalah ilustrasi yang saya gunakan di kelas: di mana lhs membandingkan cdfdengan cdf empirisuntukpengamatan dan rhs memplotreplika lhs, untuk 250 sampel berbeda , untuk mengukur variabilitas perkiraan cdf. Dalam contoh saya tahu kebenaran dan karenanya saya bisa mensimulasikan dari kebenaran untuk mengevaluasi variabilitas. Dalam situasi yang realistis, saya tidak tahudan karenanya saya harus mulai darisebagai gantinya untuk menghasilkan grafik yang sama.F n n = 100 250 F F nF F^n n=100 250 F F^n
Pembaruan lebih lanjut: Inilah gambar tabung ketika mulai dari cdf empiris:
sumber