Menjelaskan kepada orang awam mengapa bootstrap berfungsi

326

Saya baru-baru ini menggunakan bootstrap untuk memperkirakan interval kepercayaan untuk suatu proyek. Seseorang yang tidak tahu banyak tentang statistik baru-baru ini meminta saya untuk menjelaskan mengapa bootstrap berfungsi, yaitu, mengapa melakukan resampling sampel yang sama berulang kali memberikan hasil yang baik. Saya menyadari bahwa walaupun saya telah menghabiskan banyak waktu untuk memahami cara menggunakannya, saya tidak begitu mengerti mengapa bootstrap berfungsi.

Secara khusus: jika kita melakukan resampling dari sampel kita, bagaimana kita bisa belajar sesuatu tentang populasi daripada hanya tentang sampel? Tampaknya ada lompatan di sana yang agak kontra-intuitif.

Saya telah menemukan beberapa jawaban untuk pertanyaan ini di sini yang saya setengah mengerti. Khususnya yang ini . Saya adalah "konsumen" statistik, bukan ahli statistik, dan saya bekerja dengan orang-orang yang tahu lebih sedikit tentang statistik daripada saya. Jadi, bisakah seseorang menjelaskan, dengan referensi minimum pada teorema, dll., Alasan dasar di balik bootstrap? Yaitu, jika Anda harus menjelaskannya kepada tetangga Anda, apa yang akan Anda katakan?

bootstrap communication Alan H.
sumber

13

(+1) Anda mungkin menyebutkan secara singkat pertanyaan yang telah Anda lihat, tetapi itu tidak cukup memuaskan Anda. Ada banyak pertanyaan di bootstrap di sini. :)

kardinal

@ cardinal Terima kasih, saya memperbarui posting aslinya. Semoga lebih jelas. :)

Alan H.

5

Satu hal yang perlu diperhatikan - bootstrapping tidak bekerja dengan mudah untuk data terstruktur secara hierarkis - seperti model multi-level, dan desain pengambilan sampel multi-tahap. Sangat membingungkan untuk mengetahui "bootstrap mana" yang harus Anda gunakan.

probabilityislogic

2

Pada dasarnya, bootstrap berfungsi karena kemungkinan maksimum nonparametrik. Jadi, ketika ada masalah dengan kemungkinan maksimum, Anda dapat mengharapkan masalah dengan bootstrap.

kjetil b halvorsen

3

Jake VanderPlas telah berbicara di PyCon 16 tentang bootstrap dan beberapa teknik terkait lainnya. Lihat slide mulai dari slide 71 dan rekaman video .

thm

198

fwiw versi panjang menengah yang biasanya saya berikan berjalan seperti ini:

Anda ingin mengajukan pertanyaan tentang populasi tetapi Anda tidak bisa. Jadi, Anda mengambil sampel dan mengajukan pertanyaan sebagai gantinya. Sekarang, seberapa yakin Anda seharusnya bahwa jawaban sampel dekat dengan jawaban populasi jelas tergantung pada struktur populasi. Salah satu cara Anda mempelajari hal ini adalah dengan mengambil sampel dari populasi berulang kali, mengajukan pertanyaan kepada mereka, dan melihat bagaimana variabel jawaban sampel cenderung. Karena ini tidak mungkin, Anda dapat membuat beberapa asumsi tentang bentuk populasi, atau Anda dapat menggunakan informasi dalam sampel yang sebenarnya harus Anda pelajari.

Bayangkan Anda memutuskan untuk membuat asumsi, mis. Bahwa itu Normal, atau Bernoulli atau fiksi nyaman lainnya. Mengikuti strategi sebelumnya, Anda dapat belajar lagi tentang seberapa banyak jawaban untuk pertanyaan Anda ketika ditanya tentang sampel mungkin bervariasi tergantung pada sampel tertentu yang Anda dapatkan dengan berulang kali menghasilkan sampel dengan ukuran yang sama dengan yang Anda miliki dan menanyakannya kepada yang sama. pertanyaan. Itu akan langsung sejauh Anda memilih asumsi nyaman secara komputasi. (Memang asumsi yang sangat nyaman ditambah matematika non-sepele memungkinkan Anda untuk memotong bagian pengambilan sampel sama sekali, tetapi kami akan dengan sengaja mengabaikannya di sini.)

Ini sepertinya ide yang bagus asalkan Anda senang membuat asumsi. Bayangkan Anda tidak. Alternatifnya adalah dengan mengambil sampel yang Anda miliki dan mengambil sampel darinya. Anda dapat melakukan ini karena sampel yang Anda miliki juga merupakan populasi, hanya sampel yang sangat kecil; sepertinya histogram dari data Anda. Pengambilan sampel 'dengan penggantian' hanyalah cara yang nyaman untuk memperlakukan sampel seperti populasi dan mengambil sampel dengan cara yang mencerminkan bentuknya.

Ini adalah hal yang wajar untuk dilakukan karena tidak hanya sampel yang Anda miliki yang terbaik, memang satu - satunya informasi yang Anda miliki tentang seperti apa populasi sebenarnya, tetapi juga karena sebagian besar sampel akan, jika mereka dipilih secara acak, terlihat sangat mirip dengan populasi mereka berasal. Akibatnya, kemungkinan milik Anda juga demikian.

Untuk intuisi, penting untuk memikirkan bagaimana Anda dapat belajar tentang variabilitas dengan mengumpulkan informasi sampel yang dihasilkan dalam berbagai cara dan berbagai asumsi. Sepenuhnya mengabaikan kemungkinan solusi matematika bentuk tertutup adalah penting untuk memperjelas hal ini.

conjugateprior
sumber

5

Jawaban bagus. Saya terutama suka paragraf kedua dari belakang.

Peter Flom

19

(+1) Ini adalah jawaban yang bagus. Saya pikir mungkin ada cara untuk lebih jauh menarik poin yang sangat penting. Dalam cara bootstrap biasanya dilakukan, ada dua efek yang terjadi. Pertama, kami berpura-pura bahwa sampel yang kami peroleh adalah proksi untuk populasi kami. Ini secara nominal merupakan hal yang wajar untuk dilakukan, asalkan ukuran sampel kami cukup besar. Namun, kami biasanya kesulitan menghitung jumlah bunga aktual dari distribusi pura-pura itu. Jadi , kita harus memperkirakannya , dan inilah mengapa kita menarik banyak sampel bootstrap. Jika kita bisa ... / ...

kardinal

11

... / ... menghitung jumlah bunga secara langsung untuk distribusi pura-pura kami, kami lebih suka melakukan itu. Dan, itu akan menjadi nyata bootstrap. Tapi, biasanya kita tidak bisa, jadi kita terpaksa harus melakukan resampling.

kardinal

8

@ naught101: "Cukup besar" dapat dikuantifikasi dengan cukup baik oleh ketimpangan DKW (jika Anda mau, Anda dapat melihat jawaban saya di tautan dalam pertanyaan OP) dan mengenai lot , tergantung pada sampel statistik yang menarik, tetapi jika kita memiliki

bootstrap sampel, kemudian dengan sederhana Monte Carlo kita tahu bahwa kesalahan standar dari urutan kasar

.

B

$B$

O (B^{- 1 / 2})

$O(B^{-1/2})$

kardinal

4

@ cardinal: Komentar yang bagus. Banyak orang berpikir bahwa bootstrap dan resampling adalah hal yang sama padahal yang terakhir adalah alat yang digunakan untuk yang pertama. Kesalahpahaman yang serupa adalah bahwa banyak pengguna statistik cenderung membuat MCMC dan analisis Bayesian bingung.

MånsT

122

+1 ke @ConjugatePrior, saya hanya ingin mengeluarkan satu poin yang tersirat dalam jawabannya. Pertanyaannya adalah, "jika kita sampel ulang dari sampel kita, bagaimana kita belajar sesuatu tentang populasi daripada hanya tentang sampel?" Resampling ini tidak dilakukan untuk memberikan perkiraan distribusi penduduk - kita mengambil sampel kami sendiri sebagai model dari populasi. Melainkan, resampling dilakukan untuk memberikan perkiraan distribusi sampling dari statistik sampel yang bersangkutan.

gung
sumber

10

(+1) Ini dekat dengan poin yang saya coba sampaikan dalam komentar untuk jawaban ConjugatePrior, meskipun Anda telah menyatakannya dengan lebih ringkas dan jelas. Dalam beberapa kasus khusus, kita dapat menghitung distribusi sampling dari statistik uji tepat di bawah distribusi empiris yang diperoleh dari sampel . Tapi, biasanya, kami tidak bisa dan kami terpaksa melakukan simulasi. :)

kardinal

7

Saya mengerti, jadi jika saya mengerti Anda, maka teknik ini mengasumsikan bahwa sampel adalah model yang memadai dari populasi, dan oleh karena itu dengan melakukan resampling terhadap sampel tersebut pada skala yang cukup besar akan mengungkapkan sesuatu tentang populasi, tetapi hanya sejauh bahwa sampel asli adalah yang baik. Sekarang saya katakan seperti itu tampaknya hampir jelas ...

Alan H.

4

@AlanH., Saya hanya ingin mengubah "... akan mengungkapkan sesuatu tentang populasi " menjadi "... akan mengungkapkan sesuatu tentang distribusi sampling " (dari statistik yang dipermasalahkan, misalnya rata-rata). Tapi, ya, Anda memilikinya di sana

gung

Anda semua benar, tentu saja. Secara pribadi, dan semata-mata karena alasan pedagogis, saya menyimpan poin ini untuk 'versi yang lebih panjang' saya, karena dalam audiens khusus saya, titik ini cenderung mengetuk intuisi mereka yang masih muda dan masih limbung sedikit tidak seimbang jika diterapkan terlalu cepat.

conjugateprior

3

@ ErosRam, bootstrap adalah untuk menentukan distribusi sampling dari sesuatu. Anda dapat melakukannya untuk statistik sampel (mis. Persentil ke-56) atau statistik uji (t), dll. Dalam binomial mantan saya, distribusi sampling jelas akan menjadi 0 kepala - 25%; 1 kepala - 50%; 2 kepala - 25%; ini jelas tanpa melakukan resampling. Cardinal memiliki komentar di suatu tempat yang menjelaskan hal ini (banyak jawaban terbaik di situs itu adalah komentar kardinal), tetapi sulit untuk menemukan b / c itu adalah komentar.

gung

43

Ini mungkin penjelasan yang lebih teknis yang ditujukan untuk orang yang mengerti beberapa statistik dan matematika (setidaknya kalkulus). Berikut ini adalah slide dari kursus tentang bootstraps survei yang saya ajarkan beberapa waktu lalu:

prinsip bootstrap

Beberapa penjelasan dibutuhkan, tentu saja. adalah prosedur untuk memperoleh statistik dari data yang ada (atau, tepatnya secara teknis, fungsional dari fungsi distribusi ke bilangan real; misalnya, rerata adalah , di mana untuk distribusi sampel fungsi , dipahami sebagai massa titik pada titik sampel). Dalam populasi, dilambangkan dengan , penerapan memberikan parameter bunga $T$ $E[X]=\int x {\rm d}F$ $F_n()$ ${\rm d}F$ $F()$ $T$ $\theta$ . Sekarang, kami telah mengambil sampel (panah pertama di atas), dan memiliki empiris fungsi distribusi - kita menerapkan untuk itu untuk mendapatkan estimasi . Seberapa jauh dari , kita bertanya-tanya? Bagaimana distribusi bahwa kuantitas acak mungkin memiliki sekitar ? Ini adalah tanda tanya di kiri bawah diagram, dan ini adalah pertanyaan yang coba dijawab oleh bootstrap. Untuk menyatakan kembali poin gung, ini bukan pertanyaan tentang populasi, tetapi pertanyaan tentang statistik tertentu dan distribusinya. $F_n()$ $T$ $\hat\theta_n$ $\theta$ $\hat\theta_n$ $\theta$

Jika kami dapat mengulangi prosedur pengambilan sampel kami, kami bisa mendapatkan distribusi itu dan belajar lebih banyak. Ya, itu biasanya di luar kemampuan kami. Namun, jika

cukup dekat dengan , dalam arti yang sesuai, dan $F_n$ $F$
pemetaan cukup halus, yaitu, jika kita mengambil penyimpangan kecil dari , hasilnya akan dipetakan ke angka yang dekat dengan , $T$ $F()$ $\theta$

$F_n()$ $F()$ $n^n$ $n\le 5$ $\hat\theta_n^*$ $\hat\theta_n$ $\hat\theta_n$ $\theta$

{\hat{θ}}_{n}^{*} untuk {\hat{θ}}_{n} seperti {\hat{θ}}_{n} untuk θ

$\hat\theta_n^* \mbox{ to } \hat\theta_n \mbox{ is like } \hat\theta_n \mbox{ to } \theta$

$\hat\theta_n^*$ $\hat\theta_n$

$T$ $F_n$ $F$ $\hat\theta_n^*$ $\hat \theta_n$ $\hat\theta_n$ $\theta$ $F$

$n^n$ $\hat\theta_n$ $\theta$ $\hat\theta_n^{(*r)}$ $\hat\theta_n^*$ $\hat\theta_n$

Tugas
sumber

7

Jawaban ini benar-benar merindukan tujuan mencoba untuk dapat diakses oleh audiens awam.

Tripartio

20

Saya menjawab pertanyaan ini karena saya setuju bahwa ini adalah hal yang sulit untuk dilakukan dan ada banyak kesalahpahaman. Efron dan Diaconis berusaha melakukan itu dalam artikel Scientific American 1983 mereka dan dalam pandangan saya mereka gagal. Ada beberapa buku yang sekarang dikhususkan untuk bootstrap yang melakukan pekerjaan dengan baik. Efron dan Tibshirani melakukan pekerjaan besar dalam artikel mereka di Ilmu Statistik pada tahun 1986. Saya berusaha keras untuk membuat bootstrap dapat diakses oleh praktisi di buku metode bootstrap saya dan pengantar saya untuk bootstrap dengan aplikasi ke buku R. Hall bagus, tetapi sangat maju dan teoretis. . Tim Hesterberg telah menulis bab tambahan yang bagus untuk salah satu buku statistik pengantar David Moore. Almarhum Clifford Lunneborg memiliki buku yang bagus. Chihara dan Hesterberg baru-baru ini mengeluarkan buku statistik matematika tingkat menengah yang mencakup bootstrap dan metode resampling lainnya. Bahkan buku-buku canggih seperti Lahiri atau Shao dan Tu memberikan penjelasan konseptual yang baik. Manly melakukannya dengan baik dengan bukunya yang mencakup permutasi dan bootstrap. Tidak ada alasan untuk bingung tentang bootstrap lagi. Penting untuk diingat bahwa bootstrap tergantung pada prinsip bootstrap "Pengambilan sampel dengan penggantian berlaku pada sampel asli cara sampel asli berperilaku pada populasi. Ada contoh di mana prinsip ini gagal. Penting untuk mengetahui bahwa bootstrap bukan jawaban untuk setiap masalah statistik. s memberikan penjelasan konseptual yang baik. Manly melakukannya dengan baik dengan bukunya yang mencakup permutasi dan bootstrap. Tidak ada alasan untuk bingung tentang bootstrap lagi. Penting untuk diingat bahwa bootstrap tergantung pada prinsip bootstrap "Pengambilan sampel dengan penggantian berlaku pada sampel asli cara sampel asli berperilaku pada populasi. Ada contoh di mana prinsip ini gagal. Penting untuk mengetahui bahwa bootstrap bukan jawaban untuk setiap masalah statistik. s memberikan penjelasan konseptual yang baik. Manly melakukannya dengan baik dengan bukunya yang mencakup permutasi dan bootstrap. Tidak ada alasan untuk bingung tentang bootstrap lagi. Penting untuk diingat bahwa bootstrap tergantung pada prinsip bootstrap "Pengambilan sampel dengan penggantian berlaku pada sampel asli cara sampel asli berperilaku pada populasi. Ada contoh di mana prinsip ini gagal. Penting untuk mengetahui bahwa bootstrap bukan jawaban untuk setiap masalah statistik. Pengambilan sampel dengan penggantian berlaku pada sampel asli seperti sampel asli pada suatu populasi. Ada contoh di mana prinsip ini gagal. Penting untuk diketahui bahwa bootstrap bukan jawaban untuk setiap masalah statistik. Pengambilan sampel dengan penggantian berlaku pada sampel asli seperti sampel asli pada suatu populasi. Ada contoh di mana prinsip ini gagal. Penting untuk diketahui bahwa bootstrap bukan jawaban untuk setiap masalah statistik.

Berikut adalah tautan amazon ke semua buku yang saya sebutkan dan banyak lagi.

Statistik Matematika dengan Resampling dan R

Metode Bootstrap dan Penerapannya

Metode Bootstrap: Panduan untuk Praktisi dan Peneliti

Pengantar Metode Bootstrap dengan Aplikasi ke R

Metode Resampling untuk Data Tanggungan

Pengacakan, Metode Bootstrap dan Monte Carlo dalam Biologi

Pengantar Bootstrap

Praktik Pendamping Statistik Bisnis Bab 18: Metode Bootstrap dan Tes Permutasi

Analisis Data oleh Resampling: Konsep dan Aplikasi

Jackknife, Bootstrap, dan Rencana Resampling Lainnya

Jackknife dan Bootstrap

Permutasi, Parametrik, dan Tes Bootstrap Hipotesis

Bootstrap dan Ekspansi Edgeworth

Michael Chernick
sumber

2

@Prastrastator Saya melakukan itu lebih sering. dalam beberapa kasus saya sedang terburu-buru untuk mendapatkan jawaban saya diposting dan kembali untuk membersihkannya nanti. Saya belum memahami mengubah alamat tautan ke tautan menurut judul dan saya tidak yakin itu yang diperlukan. Ini adalah satu klik saja. Tetapi jika Anda tidak dapat menunggu untuk itu saya tidak keberatan Anda melakukan pengeditan. Bahkan saya menghargainya.

Michael Chernick

1

Saya akan mengubah komentar saya menjadi "Saya tidak keberatan Anda melakukan pengeditan" dengan "Tetapi jika Anda tidak sabar" dikeluarkan. Saya melihat apa yang Anda lakukan lebih rapi dan lebih mudah dan mungkin membutuhkan waktu lebih sedikit tetapi saya belum mempelajarinya dan saya belum melihat ini sebagai masalah besar seperti yang dilakukan beberapa moderator dan anggota lainnya.

Michael Chernick

1

10, 000

$10,000$

Terima kasih penunda. Saya mengantisipasi kemungkinan mencapai jumlah itu hari ini.

Michael Chernick

10

Melalui bootstrap, Anda hanya mengambil sampel berulang-ulang dari kelompok data yang sama (data sampel Anda) untuk memperkirakan seberapa akurat perkiraan Anda tentang seluruh populasi (apa yang sebenarnya ada di dunia nyata).

Jika Anda mengambil satu sampel dan membuat perkiraan populasi nyata, Anda mungkin tidak dapat memperkirakan seberapa akurat perkiraan Anda - kami hanya memiliki satu perkiraan dan belum mengidentifikasi bagaimana perkiraan ini berbeda dengan sampel berbeda yang mungkin kami temui.

Dengan bootstrap, kami menggunakan sampel utama ini untuk menghasilkan banyak sampel. Misalnya, jika kami mengukur laba setiap hari selama 1000 hari, kami mungkin mengambil sampel acak dari rangkaian ini. Kita mungkin mendapat untung dari satu hari acak, mencatatnya, mendapatkan untung dari hari acak lain (yang mungkin terjadi pada hari yang sama seperti sebelumnya - pengambilan sampel dengan penggantian), catat, dan sebagainya, hingga kita mendapat "baru" sampel 1000 hari (dari sampel asli).

Sampel "baru" ini tidak identik dengan sampel asli - memang kami mungkin menghasilkan beberapa sampel "baru" seperti di atas. Ketika kami melihat variasi dalam sarana dan taksiran, kami dapat memperoleh bacaan tentang seberapa akurat taksiran aslinya.

Edit - sebagai respons terhadap komentar

Sampel "baru" tidak identik dengan yang pertama dan taksiran baru berdasarkan ini akan bervariasi. Ini mensimulasikan sampel populasi berulang. Variasi dalam estimasi sampel "baru" yang dihasilkan oleh bootstrap akan menjelaskan bagaimana perkiraan sampel akan bervariasi mengingat sampel yang berbeda dari populasi. Ini sebenarnya adalah bagaimana kita bisa mencoba mengukur keakuratan estimasi asli.

Tentu saja, alih-alih melakukan bootstrap, Anda mungkin mengambil beberapa sampel baru dari populasi tetapi ini mungkin tidak layak.

Andrew
sumber

5

Terima kasih! Setahu saya ini. Saya terutama bertanya-tanya bagaimana cara resampling dari sampel populasi membantu memahami populasi yang mendasarinya. Jika kita melakukan resampling dari sampel, bagaimana kita mempelajari sesuatu tentang populasi daripada hanya tentang sampel? Tampaknya ada lompatan di sana yang agak kontra-intuitif.

Alan H.

4

Saya menyadari ini adalah pertanyaan lama dengan jawaban yang diterima, tetapi saya ingin memberikan pandangan saya tentang metode bootstrap. Saya sama sekali bukan ahli (lebih dari pengguna statistik, sebagai OP) dan menyambut setiap koreksi atau komentar.

$S_i$ $T(S_i)$

Anda dapat mempertimbangkan semua himpunan bagian ukuran 98 dan mendapatkan JK-2 (2 elemen dihapus) atau JK-3 dll.

Sekarang, bootstrap hanyalah versi acak dari ini. Dengan melakukan resampling melalui seleksi dengan penggantian, Anda akan "menghapus" sejumlah elemen acak (mungkin tidak ada) dan "menggantinya" dengan satu (atau lebih) ulangan.

Dengan mengganti dengan replikat, dataset yang di-resampled selalu memiliki ukuran yang sama. Untuk jackknife Anda mungkin bertanya apa efek jackknifing pada sampel berukuran 99 bukannya 100, tetapi jika ukuran sampel "cukup besar" ini kemungkinan bukan masalah.

Di jackknife Anda tidak pernah mencampur delete-1 dan delete-2 dll, untuk memastikan estimasi yang didongkrak berasal dari sampel dengan ukuran yang sama.

Anda juga dapat mempertimbangkan membagi sampel ukuran 100 menjadi misalnya 10 sampel ukuran 10. Ini akan dalam beberapa aspek teoritis menjadi lebih bersih (subset independen) tetapi mengurangi ukuran sampel (dari 100 menjadi 10) sehingga tidak praktis (dalam kebanyakan kasus).

Anda juga dapat mempertimbangkan subset sebagian yang tumpang tindih dengan ukuran tertentu. Semua ini ditangani secara otomatis dan seragam serta acak dengan metode bootstrap.

Selanjutnya, metode bootstrap memberi Anda perkiraan distribusi sampling statistik Anda dari distribusi empiris sampel asli, sehingga Anda dapat menganalisis properti statistik selanjutnya selain kesalahan standar.

dioid
sumber

1

Mengutip Fox , saya akan mulai dengan mengatakan bahwa proses resampling berulang kali dari sampel yang Anda amati telah terbukti meniru proses pengambilan sampel asli dari seluruh populasi.

N Brouwer
sumber

tautan di atas mati jadi saya tidak tahu apa yang dikatakan Fox. Tapi tidak ada satupun alamat yang menjadi perhatian saya bahwa bootstrap membuat kesalahan. Misalkan Anda ingin tahu tentang frekuensi relatif bahasa di bumi. Jika Anda mengambil sampel dari internet dan hanya meresamp sampel itu, Anda akan kehilangan semua bahasa yang tidak ada di internet.

aquagremlin

1

Pengambilan sampel terbatas dari populasi mendekati distribusi dengan cara yang sama dengan histogram yang mendekati itu. Dengan pengambilan sampel ulang, setiap jumlah nampan diubah dan Anda mendapatkan perkiraan baru. Nilai hitung besar berfluktuasi kurang dari nilai hitung kecil baik pada populasi asli maupun dalam kelompok sampel. Karena Anda menjelaskan hal ini kepada orang awam, Anda dapat berargumen bahwa untuk jumlah bin yang besar ini kira-kira adalah akar kuadrat dari jumlah bin dalam kedua kasus tersebut.

$20$ $80$ $100$ $\sqrt{(0.2 \times 0.8) \times 100}$ $1:4$

Saya pikir penting untuk menekankan bahwa bootstrap tidak mengungkap data "baru", itu hanya cara yang nyaman dan non-parametrik untuk menentukan sampel untuk fluktuasi sampel. jika probabilitas sebenarnya diberikan oleh sampel.

pengguna108131
sumber

Saya membuat sedikit perubahan format pada jawaban Anda - jangan ragu untuk mengembalikannya jika Anda merasa tidak cocok. Apa yang mungkin perlu klarifikasi lebih lanjut adalah mengapa ada akar kuadrat?

Tim

1

Perhatikan bahwa dalam statistik inferensial klasik, entitas teoretis yang menghubungkan sampel ke populasi sebagai penaksir populasi yang baik adalah distribusi sampling (semua sampel yang mungkin dapat diambil dari populasi). Metode bootstrap membuat semacam distribusi sampling (distribusi berdasarkan beberapa sampel). Tentu, ini adalah metode kemungkinan maksimum, tetapi logika dasarnya tidak jauh berbeda dari teori probabilitas tradisional di belakang statistik berbasis distribusi normal klasik.

Dr Z
sumber

0

Maksud saya adalah sangat kecil.

Bootstrap berfungsi karena ia secara intensif mengeksploitasi premis utama dari agenda penelitian kami.

Untuk lebih spesifik, dalam statistik atau biologi, atau sebagian besar ilmu non-teoritis, kami mempelajari individu, sehingga mengumpulkan sampel.

Namun, dari sampel semacam itu, kami ingin membuat kesimpulan tentang individu lain, yang akan disajikan kepada kami di masa depan atau dalam sampel yang berbeda.

Dengan bootstrap, dengan secara eksplisit menemukan pemodelan kami pada masing-masing komponen sampel kami, kami mungkin lebih baik (dengan asumsi yang lebih sedikit, biasanya) menyimpulkan dan memprediksi untuk individu lain.

Joe_74
sumber

1

Ini tampaknya tidak membedakan bootstrap dari prosedur statistik lainnya yang dimulai dengan data mentah. Tampaknya hanya untuk membedakan mereka dari prosedur yang didasarkan pada statistik ringkasan atau frekuensi binned.

whuber

0

Ketika menjelaskan kepada pemula, saya pikir itu membantu untuk mengambil contoh spesifik ...

Bayangkan Anda mendapatkan sampel acak sebanyak 9 pengukuran dari beberapa populasi. Rata-rata sampel adalah 60. Bisakah kita yakin bahwa rata-rata seluruh populasi juga 60? Jelas bukan karena sampel kecil akan bervariasi, sehingga perkiraan 60 kemungkinan tidak akurat. Untuk mengetahui berapa banyak sampel seperti ini akan bervariasi, kita dapat menjalankan beberapa eksperimen - menggunakan metode yang disebut bootstrap.

Angka pertama dalam sampel adalah 74 dan yang kedua adalah 65, jadi mari kita bayangkan populasi besar "pura-pura" yang terdiri dari satu 74 kesembilan, satu kesembilan 65, dan seterusnya. Cara termudah untuk mengambil sampel acak dari populasi ini adalah dengan mengambil angka secara acak dari sampel sembilan, lalu ganti sehingga Anda memiliki sampel asli sembilan lagi dan memilih yang lain secara acak, dan seterusnya hingga Anda memiliki "resample" of 9. Ketika saya melakukan ini, 74 tidak muncul sama sekali tetapi beberapa angka lainnya muncul dua kali, dan rata-rata adalah 54,4. (Ini diatur pada spreadsheet di http://woodm.myweb.port.ac.uk/SL/resample.xlsx - klik pada tab bootstrap di bagian bawah layar.)

Ketika saya mengambil 1000 sampel dengan cara ini berarti mereka bervariasi 44-80, dengan 95% antara 48 dan 72. Yang menunjukkan bahwa ada kesalahan hingga 16-20 unit (44 adalah 16 di bawah rata-rata populasi pura-pura 60, 80 adalah 20 unit di atas) dalam menggunakan sampel ukuran 9 untuk memperkirakan rata-rata populasi. dan kita bisa yakin 95% bahwa kesalahannya adalah 12 atau kurang. Jadi kita bisa yakin 95% bahwa rata-rata populasi akan berada di antara 48 dan 72.

Ada sejumlah asumsi yang dipoleskan di sini, yang jelas adalah asumsi bahwa sampel memberikan gambaran yang berguna tentang populasi - pengalaman menunjukkan ini umumnya bekerja dengan baik asalkan sampelnya cukup besar (9 agak kecil tetapi membuatnya lebih mudah untuk lihat apa yang terjadi). Spreadsheet di http://woodm.myweb.port.ac.uk/SL/resample.xlsx memungkinkan Anda melihat sampel individual, plot histogram 1000 sampel, bereksperimen dengan sampel yang lebih besar, dll. Ada penjelasan yang lebih rinci dalam artikel di https://arxiv.org/abs/1803.06214 .

Michael Wood
sumber

Ini dasar dan mungkin intuitif tetapi saya rasa itu tidak menjadi alasan bootstrap bekerja.

Michael Chernick

Menjelaskan kepada orang awam mengapa bootstrap berfungsi

Jawaban: