Bootstrap vs Monte Carlo, estimasi kesalahan

12

Saya membaca artikel Galat propagasi oleh metode Monte Carlo dalam perhitungan geokimia, Anderson (1976) dan ada sesuatu yang tidak saya mengerti.

Pertimbangkan beberapa data terukur dan program yang memprosesnya dan mengembalikan nilai yang diberikan. Dalam artikel ini, program ini digunakan untuk pertama-tama mendapatkan nilai terbaik menggunakan sarana data (yaitu: { A , B , C } ).{A±σA,B±σB,C±σC}{A,B,C}

Penulis kemudian menggunakan metode Monte Carlo untuk menetapkan ketidakpastian pada nilai terbaik ini, dengan memvariasikan parameter input dalam batas ketidakpastiannya (diberikan oleh distribusi Gaussian dengan cara dan standar deviasi { σ A , σ B , σ C } ) sebelum memberi mereka makan ke program. Ini diilustrasikan pada gambar di bawah ini:{A,B,C}{σA,σB,σC}

masukkan deskripsi gambar di sini

( Hak Cipta: ScienceDirect )

di mana ketidakpastian dapat diperoleh dari distribusi akhir .Z

Apa yang akan terjadi jika, alih-alih metode Monte Carlo ini, saya menerapkan metode bootstrap? Sesuatu seperti ini:

masukkan deskripsi gambar di sini

Ini adalah: alih-alih memvariasikan data dalam ketidakpastian mereka sebelum memasukkannya ke program, saya sampel dengan penggantian dari mereka.

Apa perbedaan antara kedua metode ini dalam kasus ini? Peringatan apa yang harus saya ketahui sebelum menerapkannya?


Saya mengetahui pertanyaan ini Bootstrap, Monte Carlo , tetapi tidak cukup menyelesaikan keraguan saya karena, dalam hal ini, data berisi ketidakpastian yang ditetapkan.

Gabriel
sumber
Hanya untuk memperjelas: "perubahan acak" dalam metode MC secara acak dihasilkan oleh peneliti? Artinya, noise / error ditambahkan secara buatan ke dalam data input?
shadowtalker
σ
Saya rasa saya tidak mengerti. Itu adalah kebisingan buatan, tetapi dengan standar deviasi yang diperkirakan dari data
shadowtalker
Maka saya mungkin tidak mengerti apa itu "suara buatan" (dan apa yang akan disebut "suara non-buatan"). Pernahkah Anda melihat artikelnya? Ini tentu menjelaskan banyak hal yang lebih baik daripada saya.
Gabriel
Kebisingan alami: variasi acak dalam data saya. Bunyi buatan: menggunakan generator angka acak untuk menggambar angka dari distribusi probabilitas, dan menambahkan angka-angka itu ke data saya
shadowtalker

Jawaban:

7

Sejauh yang saya mengerti pertanyaan Anda, perbedaan antara pendekatan "Monte Carlo" dan pendekatan bootstrap pada dasarnya adalah perbedaan antara statistik parametrik dan non-parametrik.

x1,,xNAσAZ

FF^1/nF^FZ

Dengan demikian, perbedaan utama antara kedua pendekatan adalah apakah orang membuat asumsi parametrik tentang distribusi data atau tidak.

Xi'an
sumber
2
Hampir dua tahun kemudian, saya tahu percaya ini menjadi jawaban terbaik karena secara eksplisit menyebutkan perbedaan antara pendekatan parametrik dan non-parametrik (yang saya tidak tahu waktu itu). Jadi, saya mengubah jawaban yang diterima untuk yang satu ini. .
Gabriel
tetapi untuk pendekatan paramrtric kita juga dapat menggunakan bootstrap parametrik bukan?
Tom Wenseleers
12

Perubahan Acak dalam Model Monte Carlo Anda diwakili oleh kurva lonceng dan perhitungannya mungkin mengasumsikan "kesalahan" atau "Perubahan" yang didistribusikan secara normal. Paling tidak, komputer Anda memerlukan beberapa asumsi tentang distribusi untuk menggambar "perubahan". Bootstrapping tidak harus membuat asumsi seperti itu. Dibutuhkan pengamatan sebagai pengamatan dan jika kesalahan mereka terdistribusi secara asimetris, maka ia masuk ke dalam model seperti itu.

Bootstrap menarik dari pengamatan dan karenanya membutuhkan sejumlah pengamatan yang benar. Jika Anda membaca dalam sebuah buku, rata-rata C pada 5 dengan standar deviasi 1, maka Anda dapat mengatur Monte Carlo Modell bahkan jika Anda tidak memiliki pengamatan untuk menggambar. Jika pengamatan Anda langka (pikirkan: astronomi), Anda dapat mengatur Monte Carlo Modell dengan 6 pengamatan dan beberapa asumsi tentang distribusinya tetapi Anda tidak akan melakukan bootstrap dari 6 pengamatan.

Model campuran dengan beberapa input yang diambil dari data yang diamati dan beberapa dari data yang disimulasikan (katakanlah hipotetis) adalah mungkin.

Sunting: Dalam diskusi berikut dalam komentar, poster asli menemukan bantuan berikut:

"Program asli" tidak peduli, apakah mendapat nilai, bahwa Anda menghitung dari mean dan deviasi atau itu adalah realisasi sebenarnya dari mean dan penyimpangan dalam proses alami.

Bernhard
sumber
1
N
1
Saya belajar sendiri secara statistik / mesin, jadi saya tidak akan mengklaim bahwa perbedaan yang saya sebutkan adalah satu-satunya. Saya bahkan tidak yakin, apakah Bootstrapping dianggap sebagai metode Monte Carlo itu sendiri. Kedua algoritma mensimulasikan sejumlah besar skenario realistis. Anda dapat menarik input dari asumsi atau dari pengamatan. Bidang saya adalah obat-obatan dan asumsi-asumsi terkenal salah di bidang itu. Karena itu saya akan mencoba melakukan pengamatan kapan saja tersedia dalam jumlah yang cukup besar. Mungkin saja, bahwa di lapangan lebih dekat dengan fisika atau kimia, ...
Bernhard
1
... bahwa dalam bidang yang lebih dekat dengan fisika atau kimia, asumsi lebih dapat diandalkan. Untuk poin 2: Jika Anda menggunakan sampel dan iterasi yang cukup besar saya berasumsi, Anda akan menemukan bahwa data nyata tidak pernah benar-benar terdistribusi secara normal dan bahwa asumsi Anda selalu sedikit salah, tetapi saya tidak bisa mengklaim pengetahuan apa pun. Mengenai Poin 3: Saya tidak tahu apa yang Anda maksud dengan membuang data berharga dalam metode bootstrap. "Menetapkan ketidakpastian" adalah buatan manusia, Data berasal dari kenyataan. Sekali lagi, ini adalah keyakinan saya berdasarkan bidang saya. Pada kenyataannya, Anda jarang memiliki teori yang bagus dan data yang besar
Bernhard
1
σA,σB,σC
1
Setiap pengamatan adalah nilai yang diukur dan dengan demikian sudah mengandung kesalahan pengukuran dan ketidakpastian itu sendiri. "Program asli" tidak peduli, apakah mendapat nilai, bahwa Anda menghitung dari mean dan deviasi atau itu adalah realisasi sebenarnya dari mean dan penyimpangan dalam proses alami. Tapi tentu saja, semua teknik resampling mengandalkan basis data yang besar dan Anda dapat menghitung angka acak atau angka acak tetapi biasanya tidak membuat angka pengamatan acak. Jadi dalam kasus di mana Anda memiliki banyak pengamatan, saya tidak melihat, di mana data dibuang.
Bernhard
1

Jika fungsi yang menghubungkan output Z ke input cukup linier (yaitu dalam rentang variasi input), varian Z adalah kombinasi varian dan kovarian input. Detail distribusi tidak terlalu menjadi masalah ... Jadi, kedua metode harus mengembalikan hasil yang sama.

Lihat Suplemen 1 ke GUM

Pascal
sumber
Apa yang terjadi ketika fungsi tidak linier? Bagaimana kedua metode ini berbeda?
Gabriel
Dalam hal ini, Anda harus merujuk pada jawaban di atas, oleh Bernhard. Artinya, bagi mereka untuk bertepatan, Anda harus memiliki deskripsi yang setia tentang data pdf untuk Monte Carlo.
Pascal
0

Bootstrap berarti membiarkan data berbicara sendiri. Dengan metode Monte Carlo, Anda mencicipi banyak undian acak dari CDF yang dikenakan (normal; gamma; beta ...) melalui distribusi seragam dan membuat PDF empiris (asalkan CDF kontinu dan dapat diturunkan). Penjelasan yang menarik dari keseluruhan proses Monte Carlo dilaporkan dalam: Briggs A, Schulper M, pemodelan keputusan Claxton K. untuk evaluasi ekonomi kesehatan. Oxford: Oxford University Press, 2006: 93-95.

Carlo Lazzaro
sumber