Seberapa baik bootstrap mendekati distribusi sampling dari estimator?

Setelah mempelajari bootstrap baru-baru ini, saya muncul dengan pertanyaan konseptual yang masih membingungkan saya:

Anda memiliki populasi, dan Anda ingin tahu atribut populasi, yaitu , di mana saya menggunakan untuk mewakili populasi. Ini bisa berarti populasi misalnya. Biasanya Anda tidak bisa mendapatkan semua data dari populasi. Jadi Anda menggambar sampel ukuran dari populasi. Mari kita asumsikan Anda memiliki sampel pertama untuk kesederhanaan. Maka Anda mendapatkan estimator Anda . Anda ingin menggunakan untuk membuat kesimpulan tentang , jadi Anda ingin mengetahui variabilitas . $\theta=g(P)$ $P$ $\theta$ $X$ $N$ $\hat{\theta}=g(X)$ $\hat{\theta}$ $\theta$ $\hat{\theta}$

Pertama, ada distribusi sampling sebenarnya dari . Secara konseptual, Anda dapat menarik banyak sampel (masing-masing memiliki ukuran ) dari populasi. Setiap kali Anda memiliki realisasi karena setiap kali Anda akan memiliki sampel yang berbeda. Kemudian pada akhirnya, Anda akan dapat memulihkan distribusi sebenarnya dari . Ok, ini setidaknya adalah tolok ukur konseptual untuk estimasi distribusi . Biarkan saya nyatakan kembali: tujuan utamanya adalah menggunakan berbagai metode untuk memperkirakan atau memperkirakan distribusi sebenarnya dari . $\hat{\theta}$ $N$ $\hat{\theta}=g(X)$ $\hat{\theta}$ $\hat{\theta}$ $\hat{\theta}$

Sekarang, inilah pertanyaannya. Biasanya, Anda hanya memiliki satu sampel yang berisi titik dataKemudian Anda melakukan resample dari sampel ini berkali-kali, dan Anda akan menghasilkan distribusi bootstrap dari . Pertanyaan saya adalah: seberapa dekat distribusi bootstrap ini dengan distribusi sampling sebenarnya dari ? Apakah ada cara untuk mengukurnya? $X$ $N$ $\hat{\theta}$ $\hat{\theta}$

bootstrap simulation resampling KevinKim
sumber

Pertanyaan yang sangat terkait ini mengandung banyak informasi tambahan, sampai-sampai membuat pertanyaan ini menjadi duplikat.

Xi'an

Pertama, terima kasih semua untuk menjawab pertanyaan saya begitu cepat. Ini adalah pertama kalinya saya menggunakan situs web ini. Saya tidak pernah berharap pertanyaan saya akan menarik perhatian siapa pun dengan jujur. Saya punya pertanyaan kecil di sini, apa itu 'OP'? @

Silverfish

@Chen Jin: "OP" = poster asli (yaitu Anda!). Permintaan maaf untuk penggunaan singkatan, yang saya terima berpotensi membingungkan.

Silverfish

Saya telah mengedit judul sehingga lebih cocok dengan pernyataan Anda bahwa "Pertanyaan saya adalah: seberapa dekat ini dengan distribusi ? Apakah ada cara untuk mengukurnya?" Jangan ragu untuk mengembalikannya jika menurut Anda edit saya tidak mencerminkan niat Anda.

\hat{θ}

$\hat\theta$

Silverfish

@Silverfish Terima kasih banyak. Ketika saya memulai poster ini, saya tidak yakin tentang pertanyaan saya sebenarnya. Judul baru ini bagus.

KevinKim

Jawaban:

Dalam Teori Informasi cara khas untuk mengukur seberapa "dekat" satu distribusi dengan yang lain adalah dengan menggunakan KL-divergence

Mari kita coba ilustrasikan dengan dataset ekor panjang yang sangat miring - penundaan kedatangan pesawat di bandara Houston (dari paket hflight ). Biarkan menjadi penaksir rata-rata. Pertama, kami menemukan distribusi sampling dari , dan kemudian distribusi bootstrap dari $\hat \theta$ $\hat \theta$ $\hat \theta$

Berikut ini dataset:

masukkan deskripsi gambar di sini

Mean sebenarnya adalah 7,09 mnt.

Pertama, kami melakukan sejumlah sampel tertentu untuk mendapatkan distribusi sampling , lalu kami mengambil satu sampel dan mengambil banyak sampel bootstrap darinya. $\hat \theta$

Sebagai contoh, mari kita lihat dua distribusi dengan ukuran sampel 100 dan 5000 pengulangan. Kami melihat secara visual bahwa distribusi ini sangat terpisah, dan perbedaan KL adalah 0,48.

masukkan deskripsi gambar di sini

Tetapi ketika kita meningkatkan ukuran sampel menjadi 1000, mereka mulai berkumpul (perbedaan KL adalah 0,11)

masukkan deskripsi gambar di sini

Dan ketika ukuran sampel 5.000, mereka sangat dekat (perbedaan KL adalah 0,01)

masukkan deskripsi gambar di sini

Ini, tentu saja, tergantung pada sampel bootstrap yang Anda dapatkan, tetapi saya percaya Anda dapat melihat bahwa divergensi KL turun saat kami meningkatkan ukuran sampel, dan dengan demikian distribusi bootstrap dari mendekati distribusi sampel dalam hal KL Divergence. Yang pasti, Anda dapat mencoba melakukan beberapa bootstraps dan mengambil rata-rata divergensi KL. $\hat \theta$ $\hat \theta$

Berikut kode R dari eksperimen ini: https://gist.github.com/alexeygrigorev/0b97794aea78eee9d794

Alexey Grigorev
sumber

+1 dan ini juga menunjukkan bahwa untuk ukuran sampel tertentu (seperti misalnya 100), bias bootstap bisa menjadi besar dan tidak dapat dihindari.

Amuba kata Reinstate Monica

Yang ini luar biasa! Jadi untuk membiarkan distribusi dari bootstrap dekat dengan distribusi TRUE dari , kita perlu ukuran sampel besar kan? Untuk ukuran sampel tetap apa pun, distribusi yang dihasilkan dari bootstrap dapat sangat berbeda dari distribusi TRUE sebagaimana disebutkan oleh @amoeba.

\hat{θ}

$\hat{\theta}$

\hat{θ}

$\hat{\theta}$

N

$N$

KevinKim

Pertanyaan saya berikutnya adalah: Jika saya memperbaiki cukup besar, maka saya melakukan 2 bootstraps, satu hanya resample kali, dan yang lain resample . Apa perbedaan antara distribusi yang keluar dari 2 bootstraps ini? Pertanyaan ini pada dasarnya menanyakan kapan kita memperbaiki , apa peran yang dimainkan oleh dalam menghasilkan distribusi . @Grigorev

N

$N$

B = 10

$B=10$

B = 10000

$B=10000$

\hat{θ}

$\hat{\theta}$

N

$N$

B

$B$

\hat{θ}

$\hat{\theta}$

KevinKim

@Chen, tetapi distribusi dari adalah sesuatu yang Anda peroleh dengan melakukan resamples, kan? Jadi perbedaan antara dan adalah bahwa dalam satu kasus Anda mendapatkan angka untuk membangun distribusi Anda (tidak banyak informasi tidak dapat diandalkan perkiraan deviasi standarnya), dan dalam kasus lain Anda mendapatkan angka (banyak lebih terpercaya).

\hat{θ}

$\hat \theta$

B = 10

$B=10$

B = 10000

$B=10000$

10

$10$

\Rightarrow

$\Rightarrow$

10000

$10000$

Amuba kata Reinstate Monica

@Kemudian, saya pikir Anda sedikit bingung atau tidak terlalu jelas tentang apa yang dalam komentar Anda. Jika Anda menguji ulang kali, Anda mendapatkan angka. Bagaimana itu distribusi? Ini adalah kumpulan angka! Angka-angka ini berasal dari apa yang Anda sebut distribusi . Semakin banyak angka yang Anda dapatkan, semakin baik Anda dapat memperkirakan .

F_{5}

$F_5$

5

$5$

5

$5$

F_{B}

$F_B$

F_{B}

$F_B$

Amoeba berkata Reinstate Monica

Bootstrap didasarkan pada konvergensi cdf empiris dengan cdf yang sebenarnya, yaitu, konvergen (saat beranjak ke tak terhingga) ke untuk setiap . Oleh karena itu konvergensi distribusi bootstrap dari didorong oleh konvergensi ini yang terjadi pada laju untuk setiap , sejak meskipun laju dan distribusi terbatas ini tidak secara otomatis ditransfer ke

{\hat{F}}_{n} (x) = \frac{1}{n} \sum_{i = 1}^{n} I_{X_{i} \leq x} X_{i} \overset{iid}{\sim} F (x)

$\hat{F}_n(x) = \frac{1}{n}\sum_{i=1}^n\mathbb{I}_{X_i\le x}\qquad X_i\stackrel{\text{iid}}{\sim}F(x)$ $n$

F (x)

$F(x)$

x

$x$

\hat{θ} (X_{1}, \dots, X_{n}) = g ({\hat{F}}_{n})

$\hat{\theta}(X_1,\ldots,X_n)=g(\hat{F}_n)$

\sqrt{n}

$\sqrt{n}$

x

$x$

\sqrt{n} {{\hat{F}}_{n} (x) - F (x)} \overset{dist}{⟶} N (0, F (x) [1 - F (x)])

$\sqrt{n}\{\hat{F}_n(x)-F(x)\}\stackrel{\text{dist}}{\longrightarrow}\mathsf{N}(0,F(x)[1-F(x)])$

g ({\hat{F}}_{n})

$g(\hat{F}_n)$ . Dalam praktiknya, untuk menilai variabilitas aproksimasi, Anda dapat menghasilkan evaluasi bootstrap dari distribusi dengan double-bootstrap, yaitu, dengan evaluasi bootstrap bootstrap.

g ({\hat{F}}_{n})

$g(\hat{F}_n)$

Sebagai pembaruan, berikut ini adalah ilustrasi yang saya gunakan di kelas: di masukkan deskripsi gambar di sini mana lhs membandingkan cdfdengan cdf empirisuntukpengamatan dan rhs memplotreplika lhs, untuk 250 sampel berbeda , untuk mengukur variabilitas perkiraan cdf. Dalam contoh saya tahu kebenaran dan karenanya saya bisa mensimulasikan dari kebenaran untuk mengevaluasi variabilitas. Dalam situasi yang realistis, saya tidak tahudan karenanya saya harus mulai darisebagai gantinya untuk menghasilkan grafik yang sama. $F$ $\hat{F}_n$ $n=100$ $250$ $F$ $\hat{F}_n$

Pembaruan lebih lanjut: Inilah gambar tabung ketika mulai dari cdf empiris: masukkan deskripsi gambar di sini

Xi'an
sumber

Inti dari jawaban ini adalah bahwa bootstrap berfungsi karena merupakan perkiraan sampel besar . Saya kira poin ini tidak cukup ditekankan

shadowtalker

Maksud saya, "cukup sering ditekankan secara umum"

shadowtalker

@ Xi'an Terima kasih banyak. Saya suka 2 panel terakhir, jadi dalam contoh ini, mari kita berpura-pura kita tidak tahu cdf yang sebenarnya, yaitu kurva merah pada lhs, saya hanya memiliki cdf empiris dari satu sampel . Lalu saya melakukan resampling dari sampel ini. Lalu saya menghasilkan grafik yang sama dengan rhs. Apakah grafik baru ini memiliki tabung yang lebih luas daripada tabung saat ini pada gambar rhs Anda saat ini? Dan apakah tabung baru masih berpusat di sekitar cdf yang sebenarnya, yaitu kurva merah sebagai tabung pada Anda angka rhs saat ini?

\hat{F}

$\hat{F}$

n = 100

$n=100$

KevinKim

Tabung yang diproduksi dengan membuat cdf empiris berdasarkan sampel yang dibuat dari satu cdf empiris pada akhirnya kurang lebar dari yang dihasilkan dari benar karena kami selalu menggunakan titik data yang sama . Dan tabung baru berpusat di sekitar cdf empiris, bukan benar . Dengan demikian ada bias dalam skala dan lokasi untuk tabung itu.

F

$F$

n

$n$

F

$F$

Xi'an

@ Xi'an Sangat bagus! akan lebih baik lagi jika angka ke-2 dan ke-3 dapat digabungkan menjadi satu

KevinKim