Secara adaptif memilih jumlah replikasi bootstrap

Seperti kebanyakan metode Monte Carlo, aturan untuk bootstrap adalah bahwa semakin besar jumlah ulangan, semakin rendah kesalahan Monte Carlo. Tetapi ada pengembalian yang semakin berkurang, jadi tidak masuk akal untuk menjalankan sebanyak mungkin ulangan yang Anda bisa.

Misalkan Anda ingin memastikan bahwa perkiraan Anda $\hat θ$ dari jumlah tertentu $θ$ ada di dalam $ε$ dari estimasi $\tilde θ$ Anda akan mendapatkan banyak ulangan. Misalnya, Anda mungkin ingin cukup yakin bahwa dua tempat desimal pertama $\hat θ$ tidak salah karena kesalahan Monte Carlo, dalam hal ini $ε = .005$ . Apakah ada prosedur adaptif yang dapat Anda gunakan di mana Anda terus membuat replikasi bootstrap, memeriksa $\hat θ$ , dan berhenti sesuai dengan aturan sehingga, katakanlah, $|\hat θ - \tilde θ| < ε$ dengan kepercayaan 95%?

NB Sementara jawaban yang ada sangat membantu, saya masih ingin melihat skema untuk mengendalikan probabilitas itu $|\hat θ - \tilde θ| < ε$ .

bootstrap Kodiologis
sumber

Saya keberatan memanggil bootstrap metode Monte Carlo. Meskipun metode Monte Carlo sering diperlukan untuk mendapatkan perkiraan yang baik untuk perkiraan bootstrap karena enumerasi tidak layak.

Michael R. Chernick

Saya tidak yakin persis apa yang Anda minta. Tetapi seringkali sulit untuk mengetahui terlebih dahulu berapa banyak bootstrap yang Anda butuhkan untuk membuat perkiraan Monte Carlo terhadap perkiraan bootstrap mendekati perkiraan bootstrap yang sebenarnya. Saya telah menyarankan melakukan sesuatu seperti apa yang Anda sarankan. Itu akan menambahkan replikasi sampai perubahan dalam estimasi kecil. Ini akan menjadi indikasi konvergensi.

Michael R. Chernick

@MichaelChernick "Saya tidak yakin persis apa yang Anda minta." - Apa yang bisa saya lakukan untuk membantu memperjelasnya?

Kodiolog

Ketika Anda berbicara tentang pemilihan adaptif, maksud Anda apa yang saya sarankan? Itu adalah untuk terus mengambil replikasi bootstrap sampai dua perkiraan berturut-turut sangat dekat (katakanlah perbedaan absolut kurang dari yang ditentukan

ϵ

$\epsilon$ ).

Michael R. Chernick

@MichaelChernick Saya tidak berpikir bahwa melihat perbedaan antara berturut-turut

\tilde{θ}

$\tilde θ$ Cukuplah untuk mendapatkannya

| \hat{θ} - \tilde{θ} | < ε

$|\hat θ - \tilde θ| < ε$ . Tapi saya tidak yakin.

Kodiolog

Jawaban:

Jika estimasi $\theta$ pada ulangan didistribusikan secara normal saya kira Anda dapat memperkirakan kesalahan $\hat{\sigma}$ di $\hat{\theta}$ dari standar deviasi $\sigma$ :

\hat{σ} = \frac{σ}{\sqrt{n}}

$\hat{\sigma} = \frac{\sigma}{\sqrt{n}}$

maka Anda bisa berhenti kapan saja $1.96*\hat{\sigma} < \epsilon$ .

Atau apakah saya salah paham pertanyaannya? Atau apakah Anda menginginkan jawaban tanpa mengasumsikan normal dan dengan adanya autokorelasi yang signifikan?

fabiob
sumber

Akan menyenangkan untuk tidak harus mengasumsikan normalitas, tetapi kita tentu dapat mengasumsikan bahwa replikasi bootstrap dipilih secara independen, jika itu adalah jenis ketergantungan yang Anda maksud dengan autokorelasi.

Kodiologis

Jika kita tidak menganggap normalitas, kita bahkan tidak dapat memastikan bahwa rata-rata adalah perkiraan yang baik untuk theta. Saya percaya kita perlu lebih banyak hipotesis untuk mengusulkan solusi ...

fabiob

Agar jelas, hal apa, tepatnya, yang Anda anggap normal? Teks jawaban Anda mengatakan "ulangan didistribusikan secara normal", tetapi setiap ulangan adalah sampel yang ukurannya sama dengan sampel asli. Saya tidak tahu apa artinya koleksi sampel didistribusikan secara normal.

Kodiologist

Saya mengasumsikan distribusi normal

θ_{i}

$\theta_i$ estimasi jumlah yang Anda minati, yang Anda lakukan pada ulangan

i

$i$ . Saya akan mengedit formulasi saya yang tidak jelas.

fabiob

akhirnya perhatikan bagaimana jawaban saya dan michael sama jika Anda mengganti C->

σ^{2}

$\sigma^2$ dan B ->

n

$n$ , yang menyarankan cara untuk "menentukan" C. Anda dapat mengambil varians dari

θ_{i}

$\theta_i$ , atau dua kali lipat dari itu jika Anda ingin menjadi konservatif. apakah Anda setuju (atau saya pikir saya kehilangan sesuatu)?

fabiob

Pada halaman 113-114 edisi pertama buku saya Metode Bootstrap: Panduan Praktisi Wiley (1999) Saya membahas metode untuk menentukan berapa banyak replikasi bootstrap yang akan diambil ketika menggunakan perkiraan Monte Carlo.

Saya masuk ke detail tentang prosedur karena Hall yang dijelaskan dalam bukunya The Bootstrap dan Edgeworth Expansion, Springer-Verlag (1992). Dia menunjukkan bahwa ketika ukuran sampel n besar dan jumlah replikasi bootstrap B besar varians estimasi bootstrap adalah C / B di mana C adalah konstanta yang tidak diketahui yang tidak bergantung pada n atau B. Jadi jika Anda dapat menentukan C atau mengikatnya di atas Anda dapat menentukan nilai untuk B yang membuat kesalahan estimasi lebih kecil dari $\epsilon$ yang Anda tentukan dalam pertanyaan Anda.

Saya menggambarkan situasi di mana C = 1/4. Tetapi jika Anda tidak memiliki ide yang bagus tentang nilai C, Anda dapat menggunakan pendekatan yang Anda jelaskan di mana Anda mengambil B = 500 katakan dan kemudian gandakan menjadi 1000 dan bandingkan perbedaan dalam perkiraan bootstrap tersebut. Prosedur ini dapat diulangi sampai perbedaannya sekecil yang Anda inginkan.

Gagasan lain diberikan oleh Efron dalam artikel "Interval kepercayaan bootstrap yang lebih baik (dengan diskusi)", (1987) Jurnal American Statistics Association Vol. 82 hal 171-200.

Michael R. Chernick
sumber

Ah, dengan "dua perkiraan berturut-turut" saya pikir Anda akan berarti sesuatu seperti perkiraan

θ

$θ$ dari mereplikasi 1.002 versus estimasi

θ

$θ$ dari replikasi 1.003. Membandingkan estimasi dari semua 500 ulangan pertama dengan 500 ulangan kedua atau dari 1.000 pertama lebih intuitif.

Kodiologist

Saya telah melihat Efron (1987) sebelumnya, tetapi bagian mana yang membahas pertanyaan memilih jumlah replikasi bootstrap?

Kodiologis

Dalam buku saya, saya menyebutkan bahwa dalam Efron (1967) dan Booth dan Sarkar (1998) mereka menunjukkan bahwa setelah sejumlah iterasi (besar) kesalahan dalam estimasi bootstrap didominasi oleh kesalahan karena penggunaan distribusi empiris. (sebagai perkiraan untuk distribusi populasi) membuat kesalahan dalam perkiraan Monte Carlo kecil. Saya tidak mengutip halaman tertentu atau halaman di mana ini dibahas.

Michael R. Chernick

Dalam komentar di atas saya maksud Efron (1987).

Michael R. Chernick