Mengapa bootstrap bermanfaat?

13

Jika semua yang Anda lakukan adalah pengambilan sampel ulang dari distribusi empiris, mengapa tidak hanya mempelajari distribusi empiris? Sebagai contoh alih-alih mempelajari variabilitas dengan pengambilan sampel berulang, mengapa tidak hanya mengukur variabilitas dari distribusi empiris?

ztyh
sumber
6
" (Dalam pengertian ini,) distribusi bootstrap mewakili (perkiraan) distribusi posterior nonparametrik, noninformatif untuk parameter kami. Tetapi distribusi bootstrap ini diperoleh tanpa rasa sakit - tanpa harus secara formal menentukan sebelum dan tanpa harus mengambil sampel dari distribusi posterior. kita mungkin menganggap distribusi bootstrap sebagai posterior " orang miskin" Bayes. "Hastie et al. Elemen Pembelajaran Statistik ". Bagian 8.4.
usεr11852 mengatakan Reinstate Monic
8
Bagaimana kita mengukur ketidakpastian estimasi kami dari distribusi empiris?
usεr11852 mengatakan Reinstate Monic
2
"Di bawah kondisi keteraturan ringan, bootstrap menghasilkan perkiraan untuk distribusi estimator atau statistik uji yang setidaknya seakurat perkiraan yang diperoleh dari teori asimtotik orde pertama". unc.edu/~saraswat/teaching/econ870/fall11/JH_01.pdf .
jbowman
10
Anda berdebat, tidak berusaha untuk mengerti. Percayalah, Anda belum menyadari bahwa bootstrap itu tidak berharga dibandingkan dengan ribuan ahli statistik selama lebih dari empat dekade. Anda tidak membaca kutipan dengan hati-hati. Saya pikir Anda telah gagal memahami peran kunci yang dimainkan secara acak dalam statistik. Pernyataan seperti "Kenapa repot-repot !!" sehubungan dengan "dapatkan distribusi adalah ... tidak biasa, untuk sedikitnya. Jika Anda tidak berpikir penting untuk memahami distribusi perkiraan Anda, Anda mungkin ingin mempertimbangkan mengapa bidang statistik ada sama sekali, dan pikirkan kembali ituT(X)
jbowman
4
@ ztyh Anda mengatakan "jika Anda memetakan setiap sampel ke T ( X ) Anda mendapatkan distribusi T ( X ) ". Mungkin Anda harus memikirkan hal ini, bagaimana Anda memetakan satu titik X i ke T ( X ) = ˉ X ? Atau fungsi T ( X 1 , X 2 , X n ) dalam hal ini. XT(X)T(X)XiT(X)=X¯T(X1,X2,Xn)
Knrumsey

Jawaban:

18

Bootstrapping (atau resampling lainnya) adalah metode eksperimental untuk memperkirakan distribusi suatu statistik.

Ini adalah metode yang sangat mudah dan mudah (itu hanya berarti Anda menghitung dengan banyak varian acak dari data sampel untuk mendapatkan, perkiraan, distribusi statistik yang diinginkan).

Anda kemungkinan besar menggunakannya ketika ekspresi 'teoretis / analitis' terlalu sulit untuk diperoleh / dihitung (atau seperti kata aksakal, terkadang mereka tidak dikenal).

  • Contoh 1: Jika Anda melakukan analisis pca dan ingin membandingkan hasilnya dengan 'perkiraan penyimpangan nilai eigen' diberikan hipotesis bahwa tidak ada korelasi dalam variabel.

    Anda bisa, mengacak data berkali-kali dan menghitung kembali nilai eigen pca sedemikian rupa sehingga Anda mendapatkan distribusi (berdasarkan tes acak dengan data sampel) untuk nilai eigen.

    Perhatikan bahwa praktik saat ini menatap plot scree dan menerapkan aturan praktis untuk 'memutuskan' apakah nilai eigen tertentu signifikan / penting atau tidak.

  • Contoh 2: Anda melakukan regresi non-linear y ~ f (x) yang memberi Anda beberapa perkiraan sekelompok parameter untuk fungsi f. Sekarang Anda ingin mengetahui kesalahan standar untuk parameter tersebut.

    Beberapa tampilan sederhana pada residu dan aljabar linier, seperti pada OLS, tidak dimungkinkan di sini. Namun, cara yang mudah adalah menghitung regresi yang sama berkali-kali dengan residu / kesalahan diacak kembali untuk mendapatkan gambaran bagaimana parameter akan bervariasi (mengingat distribusi untuk istilah kesalahan dapat dimodelkan oleh residu yang diamati).


Ditulis oleh StackExchangeStrike

Sextus Empiricus
sumber
2
Saya pikir contoh Anda bukan bootstrap. Ini hanya pengambilan sampel dari distribusi nol yang dikenal. Bootstrap adalah tempat Anda memiliki satu sampel dan berulang kali mengambil sampel lagi dari sampel itu.
ztyh
3
Dalam pertanyaan Anda, Anda membayangkan menghitung varians sampel, yang memang sederhana dan tidak memerlukan bootstrap. Dalam contoh saya, saya berbicara tentang situasi di mana kami memiliki nilai yang berasal dari sampel. Maka kita tidak bisa hanya menghitung varians lagi, masih kita ingin tahu bagaimana variansnya. Dengan mengacak data berkali-kali dan menghitung ulang nilai eigen pca Anda bisa mendapatkan data distribusi (acak) yang mengikuti distribusi sampel Anda. Jika saya tidak salah ini adalah disebut bootstrap.
Sextus Empiricus
Ok, saya melihat di mana saya salah paham. Teladan Anda masuk akal. Terima kasih.
ztyh
8

Kuncinya adalah bahwa bootstrap tidak benar-benar mencari tahu fitur-fitur distribusi data , tetapi mencari tahu fitur-fitur dari estimator diterapkan pada data.

Sesuatu seperti fungsi distribusi empiris akan memberi tahu Anda perkiraan yang cukup baik dari CDF dari mana data berasal ... tetapi dengan mengisolasi, pada dasarnya tidak ada yang memberi tahu Anda tentang seberapa andal penduga yang kami bangun dari data itu nantinya. Ini adalah pertanyaan yang dijawab dengan menggunakan bootstrap.

Cliff AB
sumber
1
Menggunakan bootstrap (non-parametrik) untuk menemukan "distribusi data" akan menjadi tawa: ia hanya muncul dengan fungsi distribusi empiris, yang merupakan set data yang dimulai oleh analis. Mengingatkan saya pada aljabar kuliah ketika saya "memecahkan untuk X" dan menemukan "X = X".
AdamO
3

JIKA Anda tahu persis apa distribusi yang mendasarinya, maka Anda tidak perlu mempelajarinya. Terkadang, dalam ilmu alam Anda tahu persis distribusinya.

JIKA Anda tahu jenis distribusi, maka Anda hanya perlu memperkirakan parameternya, dan mempelajarinya dalam arti yang Anda maksudkan. Misalnya, kadang-kadang Anda tahu apriori bahwa distribusi yang mendasarinya normal. Dalam beberapa kasus Anda bahkan tahu apa artinya. Jadi, untuk normal satu-satunya hal yang tersisa untuk mencari tahu adalah standar deviasi. Anda mendapatkan standar deviasi sampel dari sampel, dan voila, Anda mendapatkan distribusi untuk dipelajari.

JIKA Anda tidak tahu apa distribusinya, tetapi anggap itu salah satu dari beberapa di dalam daftar, maka Anda bisa mencoba menyesuaikan distribusi tersebut dengan data, dan memilih yang paling cocok. KEMUDIAN Anda mempelajari distribusi itu.

AKHIRNYA, seringkali Anda tidak tahu jenis distribusi yang Anda hadapi. Dan Anda tidak memiliki alasan untuk percaya bahwa itu adalah salah satu dari 20 distribusi yang dapat ditampung oleh data Anda. Apa yang akan kamu lakukan? Ok, Anda melihat penyimpangan yang kejam dan standar, bagus. Tetapi bagaimana jika itu sangat miring? Bagaimana jika kurtosisnya sangat besar? dan seterusnya. Anda benar-benar perlu mengetahui semua momen distribusi untuk mengetahui , dan mempelajarinya. Jadi, dalam hal ini bootstrap non parametrik berguna. Anda tidak berasumsi banyak, dan sampel sederhana darinya, lalu pelajari momen dan properti lainnya.

Meskipun bootstrap non-parametrik bukan alat ajaib, ia memiliki masalah. Misalnya, itu bisa menjadi bias. Saya pikir bootstrap parametrik tidak bias

Aksakal
sumber
1
Saya pikir bahkan jika Anda tidak tahu distribusi yang sebenarnya, banyak momen mudah untuk dihitung. Jadi saya pikir masalahnya bukan dengan tidak mengetahui jenis distribusi yang Anda hadapi. Melainkan tentang statistik apa yang ingin Anda pelajari. Beberapa statistik mungkin sulit untuk dihitung dan hanya dengan itu bootstrap bermanfaat.
ztyh
Seperti dalam komentar pada pertanyaan kepada usεr11852, sebenarnya saya ragu tentang manfaat sehubungan dengan kompabilitas statistik juga ...
ztyh
Sebenarnya saya pikir itu masih tidak punya otak. Anda memetakan setiap sampeldalam(x3+x). Kemudian menemukan kuantil lagi adalah kode 1 baris. Jadi total 2 baris kode.
ztyh
1
quantile adalah contoh yang bodoh, saya akan memberi Anda itu. coba artinya sebagai gantinya. dalam praktik saya, saya harus memperkirakanxz atau fungsi yang lebih kompleks f(x,z) dimana x,zberasal dari distribusi bersama yang tidak diketahui. Saya perlu mendapatkan properti dari perkiraan akhir. coba itu dengan momen. dengan bootstrap itu tidak punya otak.
Aksakal
1
Betapa rumitnya f mungkin, yang harus Anda lakukan adalah memetakan sampel x dan z untuk f(x,z). Kemudian pelajari sampel-sampel yang dipetakan. Jika Anda dapat menggunakan bootstrap, maka itu berarti Anda bisa melakukan ini, dan ini jauh lebih mudah ...
ztyh