Sering diklaim bahwa bootstrap dapat memberikan perkiraan bias dalam estimator.
Jika adalah estimasi untuk beberapa statistik, dan adalah replika bootstrap (dengan ), maka estimasi bootstrap dari bias adalah yang tampaknya sangat sederhana dan kuat, sampai-sampai mengganggu ketenangan. ~ t ii∈{1,⋯,N}biast≈1
Saya tidak bisa memahami bagaimana hal ini dimungkinkan tanpa memiliki penduga statistik yang tidak bias. Sebagai contoh, jika estimator saya hanya mengembalikan konstanta yang independen terhadap pengamatan, estimasi bias di atas jelas tidak valid.
Walaupun contoh ini bersifat patologis, saya tidak bisa melihat apa asumsi yang masuk akal tentang estimator dan distribusi yang akan menjamin bahwa estimasi bootstrap masuk akal.
Saya mencoba membaca referensi formal, tetapi saya bukan ahli statistik atau ahli matematika, jadi tidak ada yang diklarifikasi.
Adakah yang bisa memberikan ringkasan tingkat tinggi tentang kapan perkiraan dapat diharapkan valid? Jika Anda tahu referensi yang baik tentang hal itu juga akan bagus.
Edit:
Kelancaran estimator sering dikutip sebagai persyaratan agar bootstrap berfungsi. Mungkinkah seseorang juga memerlukan semacam keterbalikan lokal dari transformasi? Peta konstan jelas tidak memuaskan itu.
Jawaban:
Masalah yang Anda gambarkan adalah masalah interpretasi, bukan validitas. Perkiraan bias bootstrap untuk estimator konstan Anda tidak tidak valid, itu sebenarnya sempurna.
Estimasi bootstrap bias adalah antara estimator θ = s ( x ) dan parameter θ = t ( F ) , di mana F adalah beberapa distribusi tidak diketahui dan x sampel dari F . Fungsi t ( F ) adalah sesuatu yang pada prinsipnya dapat Anda hitung jika Anda memiliki populasi. Beberapa kali kita mengambil s ( x ) = t ( F ) , plug-in perkiraan t (θ^= s ( x ) θ = t ( F) , F x F t ( F) s ( x ) = t ( F^) , menggunakan distribusi empiris F di tempat F . Ini mungkin yang Anda uraikan di atas. Dalam semua kasus estimasi bootstrap bias adalah
b i a s F = E F [ s ( x * ) ] - t ( F ) ,
di mana x * adalah sampel bootstrap dari x .t ( F) F^ F
Konstanta adalah plug-in yang sempurna perkiraan yang konstan yang sama:c Populasi adalah dan sampel ~ F , distribusi empiris, yang mendekati F . Jika Anda bisa mengevaluasi t ( F ) = c , Anda akan mendapatkan c . Ketika Anda menghitung plug-in estimasi t ( F ) = c Anda juga mendapatkan c . Tidak bias, seperti yang Anda harapkan.∼ F ∼ F^ F t ( F) = c c t ( F^) = c c
Kasus yang terkenal di mana ada bias dalam plug-in estimasi adalah dalam memperkirakan varians, maka koreksi Bessel ini. Di bawah ini saya tunjukkan ini. Perkiraan bias bootstrap tidak terlalu buruk:t ( F^)
Kita bisa menggunakan sebagai mean populasi dan s ( x ) = c , situasi di mana dalam kebanyakan kasus harus ada bias yang jelas:t ( F) s ( x ) = c
Sekali lagi perkiraan bootstrap tidak terlalu buruk.
sumber
Anda membuat satu kesalahan dan mungkin itu alasannya membingungkan. Kamu bilang:
Bootstrap bukan tentang seberapa banyak metode Anda bias, tetapi seberapa banyak hasil Anda diperoleh oleh beberapa fungsi, mengingat data Anda bias.
Jika Anda memilih metode statistik yang sesuai untuk menganalisis data Anda, dan semua asumsi metode ini dipenuhi, dan Anda melakukan perhitungan dengan benar, maka metode statistik Anda akan memberi Anda perkiraan "terbaik" yang mungkin dapat diperoleh dengan menggunakan data Anda .
Gagasan bootstrap adalah untuk mengambil sampel dari data Anda dengan cara yang sama seperti Anda mengambil sampel dari populasi Anda - jadi ini adalah semacam replikasi dari sampel Anda. Ini memungkinkan Anda untuk mendapatkan perkiraan distribusi (menggunakan kata-kata Efrons) dari nilai Anda dan karenanya untuk menilai bias estimasi Anda.
Namun, saya berpendapat bahwa contoh Anda menyesatkan sehingga bukan contoh terbaik untuk membahas bootstrap. Karena ada kesalahpahaman di kedua sisi, izinkan saya memperbarui jawaban saya dan menuliskannya dengan cara yang lebih formal untuk mengilustrasikan poin saya.
dimana:
Seperti yang ditulis oleh Larry Wasserman dalam bukunya "All the Statistics" :
sumber
Anda ingin menggunakan statistik aktual yang dievaluasi pada distribusi empiris (ini seringkali mudah, karena sampel asli adalah himpunan terbatas), daripada perkiraan. Dalam beberapa kasus, ini mungkin sama (misalnya, rata-rata empiris sama dengan rata-rata sampel), tetapi mereka tidak akan secara umum. Anda memberikan satu kasus di mana mereka berbeda, tetapi contoh yang kurang patologis adalah penaksir tidak bias yang biasa untuk varians, yang tidak sama dengan varians populasi ketika diterapkan pada distribusi terbatas.
TL / DR: Metode bootstrap tidak ajaib. Untuk mendapatkan estimasi bias yang tidak bias, Anda harus dapat menghitung parameter bunga tepat pada distribusi yang terbatas.
sumber
Saya merasa berguna untuk memikirkan prosedur bootstrap dalam hal fungsional distribusi yang mereka operasikan - saya memberikan contoh dalam jawaban ini untuk pertanyaan bootstrap yang berbeda.
Taksiran yang Anda berikan adalah apa adanya - taksiran. Tidak ada yang mengatakan itu tidak menderita masalah yang mungkin dimiliki perkiraan statistik. Ini akan memberi Anda estimasi bias nol untuk mean sampel, misalnya, yang kita semua tahu tidak memihak untuk memulai. Salah satu masalah dengan penaksir bias ini adalah bahwa ia menderita dari variabilitas sampling ketika bootstrap diimplementasikan sebagai Monte Carlo daripada enumerasi lengkap semua subsampel yang mungkin (dan bagaimanapun juga, tidak ada yang bootstrap teoretis itu dalam praktiknya).
sumber