Pertanyaan ini terinspirasi oleh game-mini dari Pokemon Soulsilver:
Bayangkan ada 15 bom tersembunyi di area 5x6 ini (EDIT: maksimum 1 bom / sel):
Sekarang, bagaimana Anda memperkirakan probabilitas untuk menemukan bom di bidang tertentu, mengingat total baris / kolom?
Jika Anda melihat kolom 5 (total bom = 5), maka Anda mungkin berpikir: Di dalam kolom ini peluang untuk menemukan bom di baris 2 adalah dua kali lipat peluang untuk menemukan satu di baris 1.
Asumsi proporsionalitas langsung (yang salah) ini, yang pada dasarnya dapat digambarkan sebagai menggambar operasi uji independensi standar (seperti dalam Chi-Square) ke dalam konteks yang salah, akan mengarah pada estimasi berikut:
Seperti yang Anda lihat, proporsionalitas langsung mengarah pada perkiraan probabilitas lebih dari 100%, dan bahkan sebelum itu, akan salah.
Jadi saya melakukan simulasi komputasi dari semua kemungkinan permutasi yang menghasilkan 276 kemungkinan unik untuk menempatkan 15 bom. (total baris dan kolom yang diberikan)
Berikut adalah rata-rata dari 276 solusi:
Ini adalah solusi yang tepat, tetapi karena pekerjaan komputasi eksponensial, saya ingin menemukan metode estimasi.
Pertanyaan saya sekarang: Apakah ada metode statistik yang mapan untuk memperkirakan ini? Saya bertanya-tanya apakah ini masalah yang diketahui, bagaimana namanya dan apakah ada makalah / situs web yang bisa Anda rekomendasikan!
sumber
r2dtable
(dan juga digunakan olehchisq.test
danfisher.test
dalam beberapa keadaan).Jawaban:
Ruang solusi (konfigurasi bom yang valid) dapat dilihat sebagai set grafik bipartit dengan urutan derajat yang diberikan. (Grid adalah matriks biadjacency.) Menghasilkan distribusi seragam pada ruang itu dapat didekati menggunakan metode Markov Chain Monte Carlo (MCMC): setiap solusi dapat diperoleh dari yang lain menggunakan urutan "switch," yang dalam formulasi puzzle Anda terlihat seperti:
Sudah terbukti bahwa ini memiliki sifat pencampuran cepat. Jadi, dimulai dengan konfigurasi yang valid dan pengaturan MCMC berjalan untuk sementara waktu, Anda harus berakhir dengan perkiraan distribusi seragam pada solusi, yang dapat Anda rata-rata secara langsung untuk probabilitas yang Anda cari.
Saya hanya samar-samar akrab dengan pendekatan ini dan aspek komputasi mereka, tetapi setidaknya dengan cara ini Anda menghindari menyebutkan salah satu dari non-solusi.
Sebuah permulaan untuk literatur tentang topik:
https://faculty.math.illinois.edu/~mlavrov/seminar/2018-erdos.pdf
https://arxiv.org/pdf/1701.07101.pdf
https: // www. tandfonline.com/doi/abs/10.1198/016214504000001303
sumber
Tidak ada solusi unik
Saya tidak berpikir bahwa distribusi probabilitas diskrit yang sebenarnya dapat dipulihkan, kecuali jika Anda membuat beberapa asumsi tambahan. Situasi Anda pada dasarnya adalah masalah memulihkan distribusi bersama dari marginal. Kadang-kadang diselesaikan dengan menggunakan kopula di industri, misalnya manajemen risiko keuangan, tetapi biasanya untuk distribusi berkelanjutan.
Kehadiran, Independen, AS 205
Di hadapan masalah tidak lebih dari satu bom diperbolehkan di dalam sel. Sekali lagi, untuk kasus khusus independensi, ada solusi komputasi yang relatif efisien.
Jika Anda mengenal FORTRAN, Anda dapat menggunakan kode ini yang mengimplementasikan AS 205 Algoritma: Ian Saunders, Algorithm AS 205: Pencacahan Tabel R x C dengan Total Baris Berulang, Statistik Terapan, Volume 33, Nomor 3, 1984, halaman 340-352. Ini terkait dengan algo Panefield yang disebut @Glen_B.
Algo ini menghitung semua tabel keberadaan, yaitu menelusuri semua tabel yang mungkin ada di mana hanya satu bom berada di lapangan. Ini juga menghitung multiplisitas, yaitu beberapa tabel yang terlihat sama, dan menghitung beberapa probabilitas (bukan yang Anda minati). Dengan algoritme ini, Anda mungkin dapat menjalankan enumerasi lengkap lebih cepat dari yang Anda lakukan sebelumnya.
Kehadiran, tidak mandiri
Algoritma AS 205 dapat diterapkan pada kasus di mana baris dan kolom tidak independen. Dalam hal ini Anda harus menerapkan bobot yang berbeda untuk setiap tabel yang dihasilkan oleh logika enumerasi. Bobot akan tergantung pada proses penempatan bom.
Hitungan, independensi
Hitungan, Tidak independen, Copula Terpisah
Untuk mengatasi masalah jumlah di mana baris dan kolom tidak independen, kita bisa menerapkan kopula diskrit. Mereka memiliki masalah: mereka tidak unik. Itu tidak membuat mereka sia-sia. Jadi, saya akan mencoba menerapkan kopula diskrit. Anda dapat menemukan ikhtisar yang baik tentang mereka di Genest, C. dan J. Nešlehová (2007). Primer pada copulas untuk menghitung data. Astin Bull. 37 (2), 475–515.
Kopula bisa sangat berguna, karena biasanya memungkinkan untuk secara eksplisit menginduksi ketergantungan, atau memperkirakannya dari data ketika data tersedia. Maksud saya ketergantungan baris dan kolom ketika menempatkan bom. Sebagai contoh, bisa jadi itu kasus ketika jika bom adalah salah satu baris pertama, maka kemungkinan besar itu akan menjadi salah satu kolom pertama juga.
Contoh
Independen
Anda dapat melihat bagaimana pada kolom 5 probabilitas baris kedua memiliki probabilitas dua kali lebih tinggi daripada baris pertama. Ini tidak salah, bertentangan dengan apa yang tampaknya Anda nyatakan dalam pertanyaan Anda. Semua probabilitas menambahkan hingga 100%, tentu saja, seperti halnya margin pada panel cocok dengan frekuensi. Misalnya, kolom 5 di panel bawah menunjukkan 1/3 yang sesuai dengan 5 bom yang disebutkan dari total 15 bom seperti yang diharapkan.
Korelasi positif
Korelasi Negatif
Anda dapat melihat bahwa semua probabilitas menambahkan hingga 100%, tentu saja. Anda juga dapat melihat bagaimana ketergantungan memengaruhi bentuk PMF. Untuk dependensi positif (korelasi) Anda mendapatkan PMF tertinggi yang terkonsentrasi pada diagonal, sedangkan untuk dependensi negatif itu adalah off-diagonal
sumber
Pertanyaan Anda tidak memperjelas hal ini, tetapi saya akan berasumsi bahwa bom-bom tersebut awalnya didistribusikan melalui pengambilan sampel sederhana-acak tanpa penggantian sel (sehingga sebuah sel tidak dapat mengandung lebih dari satu bom). Pertanyaan yang Anda ajukan pada dasarnya meminta pengembangan metode estimasi untuk distribusi probabilitas yang dapat dihitung secara tepat (dalam teori), tetapi yang menjadi tidak layak secara komputasi untuk menghitung nilai parameter besar.
Solusi tepat ada, tetapi intensif secara komputasi
Mencari metode estimasi yang baik
Estimator empiris yang naif: Estimator yang telah Anda usulkan dan gunakan dalam tabel hijau Anda adalah:
sumber