Latar Belakang
Saya merancang simulasi Monte Carlo yang menggabungkan output dari serangkaian model, dan saya ingin memastikan bahwa simulasi akan memungkinkan saya untuk membuat klaim yang masuk akal tentang probabilitas hasil simulasi dan ketepatan estimasi probabilitas itu.
Simulasi akan menemukan kemungkinan bahwa juri yang diambil dari komunitas tertentu akan menghukum terdakwa tertentu. Ini adalah langkah-langkah simulasi:
Dengan menggunakan data yang ada, hasilkan model probabilitas logistik ( M ) dengan merundingkan "pemilihan suara juri pertama" pada prediktor demografis.
Gunakan metode Monte Carlo untuk mensimulasikan 1.000 versi M (yaitu, 1.000 versi koefisien untuk parameter model).
Pilih salah satu dari 1.000 versi model ( M i ).
Empanel 1.000 juri dengan secara acak memilih 1.000 set 12 "juri" dari "komunitas" ( C ) individu dengan distribusi karakteristik demografis tertentu.
Secara deterministik menghitung probabilitas pemungutan suara bersalah pertama untuk setiap anggota juri menggunakan M i .
Berikan setiap suara "juri" kemungkinan menjadi suara yang menentukan (berdasarkan apakah itu lebih besar atau kurang dari nilai yang dipilih secara acak antara 0-1).
Tentukan masing-masing "suara akhir" juri dengan menggunakan model (yang berasal dari data empiris) dari probabilitas yang akan dijatuhkan oleh juri, tergantung pada proporsi juri yang memberikan suara untuk penghukuman pada pemungutan suara pertama.
Simpan proporsi vonis bersalah untuk 1000 juri ( PG i ).
Ulangi langkah 3-8 untuk masing-masing 1.000 versi M yang disimulasikan .
Hitung nilai rata-rata dari PG dan laporan bahwa sebagai estimasi titik probabilitas keyakinan di C .
Identifikasi nilai persentil 2,5 & 97,5 untuk PG dan laporkan sebagai interval kepercayaan 0,95.
Saat ini saya menggunakan 1.000 juri dan 1.000 juri pada teori bahwa 1.000 acak diambil dari distribusi probabilitas — karakteristik demografis C atau versi M akan mengisi distribusi itu.
Pertanyaan
Apakah ini memungkinkan saya untuk secara akurat menentukan ketepatan estimasi saya? Jika demikian, berapa banyak juri yang harus saya empanel untuk setiap PG i perhitungan untuk penutup C 's distribusi probabilitas (jadi saya seleksi menghindari bias); bolehkah saya menggunakan kurang dari 1.000?
Terima kasih banyak atas bantuannya!
Jawaban:
Ada satu kriteria umum dan "di alam semesta" untuk kebaikan Monte Carlo - konvergensi.
Tetap berpegang pada satu M dan periksa bagaimana PG berlaku dengan jumlah juri - itu harus menyatu, jadi akan menunjukkan kepada Anda sejumlah pengulangan yang Anda akan memiliki jumlah yang signifikan (untuk aplikasi Anda) jumlah digit yang signifikan. Ulangi patokan ini untuk beberapa Ms lainnya untuk memastikan Anda tidak beruntung dengan pilihan M, kemudian lanjutkan ke seluruh simulasi.
sumber
Tampak bagi saya bahwa masalah di sini adalah apakah model terlalu rumit untuk dilihat tanpa menggunakan simulasi Monte Carlo.
Jika semua model relatif sederhana maka harus dimungkinkan untuk melihatnya melalui statistik conventioanl dan mendapatkan solusi untuk pertanyaan yang diajukan, tanpa menjalankan kembali model beberapa kali. Ini agak terlalu sederhana, tetapi jika semua model Anda lakukan adalah menghasilkan poin berdasarkan distribusi normal, maka Anda dapat dengan mudah memperoleh jenis jawaban yang Anda cari. Tentu saja, jika modelnya sesederhana ini maka Anda tidak mungkin perlu melakukan simulasi Monte Carlo untuk menemukan jawaban Anda.
Jika masalahnya rumit dan tidak mungkin untuk memecahnya menjadi lebih mendasar, Monte-Carlo adalah jenis model yang tepat untuk digunakan, tetapi saya tidak berpikir ada cara untuk mendefinisikan batas kepercayaan tanpa menjalankan model. Pada akhirnya untuk mendapatkan tipe batas kepercayaan yang dijelaskan model harus dijalankan beberapa kali, distribusi probabilitas harus sesuai dengan output dan dari sana batas kepercayaan dapat ditentukan. Salah satu tantangan dengan simulasi Monte-Carlo adalah bahwa model memberikan jawaban yang baik dan teratur untuk distribusi di kisaran menengah tetapi ekor sering memberikan hasil variabel lebih banyak, yang pada akhirnya berarti lebih banyak berjalan untuk menentukan bentuk output pada 2,5% dan 97,5% persentil.
sumber