Solusi untuk Masalah Tank Jerman

10

Apakah ada bukti matematis formal bahwa solusi untuk Masalah Tank Jerman adalah fungsi dari hanya parameter k (jumlah sampel yang diamati) dan m (nilai maksimum di antara sampel yang diamati)? Dengan kata lain, dapatkah seseorang membuktikan bahwa solusinya tidak tergantung pada nilai sampel lain selain nilai maksimum?

Bogdan Alexandru
sumber
3
Yang Anda tanyakan adalah bagaimana menunjukkan bahwa sampel maksimum sudah cukup untuk parameter menentukan batas atas distribusi seragam diskrit dari 1 ke . θθθ
Scortchi
2
Teorisasi faktorisasi Fisher Neyman Fungsi kemungkinan, probabilitas sampel diamati (dirangkum dengan maksimum ) dengan parameter (jumlah tangki) dapat ditulis sepenuhnya dalam bentuk dan Apakah itu jawaban? m n k mkmnkm
Pr(M=m|n,k)={0if m>n(m1k1)(nk)if mn,
Sextus Empiricus
@Scortchi itu benar, terima kasih telah mengulanginya dengan cara yang lebih jelas untuk saya.
Bogdan Alexandru
@MartijnWeterings no; pada dasarnya saya meminta (mengutip komentar Scortchi di atas) untuk bukti bahwa sampel maksimum sudah cukup untuk solusi tanpa benar - benar menghitung solusi.
Bogdan Alexandru
Jadi Anda tidak mencari teorisasi faktorisasi Fisher Neyman sebagai buktinya?
Sextus Empiricus

Jawaban:

15

Kemungkinan

Masalah umum dalam teori probabilitas merujuk pada probabilitas pengamatan diberikan model tertentu dan diberikan parameter (sebut saja ) yang terlibat. Misalnya probabilitas untuk situasi tertentu dalam permainan kartu atau permainan dadu seringkali sangat mudah.x1,x2,...,xnθ

Namun, dalam banyak situasi praktis kita berhadapan dengan situasi terbalik ( statistik inferensial ). Yaitu: pengamatan diberikan dan sekarang model tidak diketahui , atau setidaknya kita tidak tahu parameter tertentu .x1,x2,...,xk θθ

Dalam jenis masalah ini kita sering merujuk pada istilah yang disebut kemungkinan parameter, , yang merupakan tingkat kepercayaan pada parameter tertentu diberikan pengamatan . Istilah ini dinyatakan proporsional dengan probabilitas untuk pengamatan dengan asumsi bahwa parameter model akan benar secara hipotesis. L(θ)θx1,x2,..xkx1,x2,..xkθ

L(θ,x1,x2,..xk)probability observations x1,x2,..xk given θ 

Untuk nilai parameter yang diberikan semakin besar kemungkinan observasi tertentu adalah (relatif terhadap probabilitas dengan nilai parameter lainnya), semakin banyak pengamatan mendukung parameter khusus ini (atau teori / hipotesis yang mengasumsikan parameter ini) . Kemungkinan tinggi (relatif) akan memperkuat keyakinan kami tentang nilai parameter tersebut (ada banyak hal yang lebih filosofis untuk dikatakan tentang ini).θx1,x2,..xn


Kemungkinan masalah tangki Jerman

Sekarang untuk masalah tank Jerman fungsi kemungkinan untuk sekumpulan sampel adalah:x1,x2,..xk

L(θ,x1,x2,..xk)=Pr(x1,x2,..xk,θ)={0if max(x1,x2,..xk)>θ(θk)1if max(x1,x2,..xk)θ,

Apakah Anda mengamati sampel {1, 2, 10} atau sampel {8, 9, 10} tidak masalah ketika sampel dipertimbangkan dari distribusi yang seragam dengan parameter . Kedua sampel memiliki kemungkinan yang sama dengan probabilitas dan menggunakan gagasan kemungkinan satu sampel tidak memberi tahu lebih banyak tentang parameter daripada sampel lainnya.θ(θ3)1θ

Nilai tinggi {8, 9, 10} mungkin membuat Anda berpikir / percaya bahwa harus lebih tinggi. Tetapi, hanya nilai {10} Yang benar-benar memberi Anda informasi yang relevan tentang kemungkinan (nilai 10 memberi tahu Anda bahwa akan sepuluh atau lebih tinggi, nilai-nilai lain 8 dan 9 tidak berkontribusi apa pun pada informasi ini. ).θθ θθθ


Teorisasi faktorisasi Fisher Neyman

Teorema ini memberi tahu Anda bahwa statistik tertentu (yaitu beberapa fungsi pengamatan, seperti rata-rata, median, atau seperti dalam masalah tank Jerman maksimum) cukup (berisi semua informasi) ketika Anda dapat memfaktorkan keluar, dalam fungsi kemungkinan, istilah yang bergantung pada pengamatan lain , sehingga faktor ini tidak bergantung pada parameter dan (dan bagian dari fungsi kemungkinan yang menghubungkan data dengan nilai parameter hipotetis hanya tergantung pada statistik tetapi tidak keseluruhan data / pengamatan).T(x1,x2,,xk)x1,x2,,xkθx1,x2,,xk

Kasus tangki Jerman sederhana. Anda dapat melihat di atas bahwa seluruh ekspresi untuk Kemungkinan di atas sudah hanya bergantung pada statistik dan sisa dari nilai tidak masalah.max(x1,x2,..xk)x1,x2,..xk


Game kecil sebagai contoh

Katakanlah kita memainkan game berikut berulang kali: itu sendiri adalah variabel acak dan digambar dengan probabilitas yang sama baik 100 atau 110. Kemudian kita menggambar sampel .θx1,x2,...,xk

Kami ingin memilih strategi untuk menebak , berdasarkan pengamatan yang memaksimalkan peluang kami untuk mendapatkan tebakan .θx1,x2,...,xkθ

Strategi yang tepat adalah memilih 100 kecuali salah satu angka dalam sampel adalah> 100.

Kita bisa tergoda untuk memilih nilai parameter 110 sudah ketika banyak dari cenderung semua nilai tinggi mendekati seratus (tetapi tidak ada yang persis lebih dari seratus), tetapi itu akan salah. Probabilitas untuk pengamatan semacam itu akan lebih besar ketika nilai parameter yang sebenarnya adalah 100 daripada ketika itu adalah 110. Jadi jika kita menebak, dalam situasi seperti itu, 100 sebagai nilai parameter, maka kita akan cenderung membuat kesalahan (karena situasi dengan nilai-nilai tinggi ini mendekati seratus, namun masih di bawahnya, lebih sering terjadi dalam kasus bahwa nilai sebenarnya adalah 100 daripada kasus bahwa nilai sebenarnya adalah 110).x1,x2,...,xk

Sextus Empiricus
sumber
Luar biasa, persis apa yang saya butuhkan! Hanya satu komentar pada tanda kurung terakhir Anda: Anda mengatakan "nilai tinggi ini mendekati seratus lebih sering terjadi ...", yang saya pahami mengapa itu benar, tetapi hanya untuk memperjelas: nilai apa pun antara 1 dan 100 lebih mungkin terjadi ketika jika parameternya adalah 100 (pada dasarnya probabilitas untuk setiap angka dalam 1-100 adalah 1 / parameter).
Bogdan Alexandru
Juga, sekarang komentar awal Anda untuk posting saya masuk akal - jika saya tahu bagaimana menerapkan konsep-konsep ini, komentar Anda akan menjadi petunjuk yang saya perlukan untuk mendapatkan bukti. Terima kasih lagi!
Bogdan Alexandru
@BogdanAlexandru Anda benar; memang benar untuk nilai antara 1-100. Itu adalah ide yang berlawanan dengan intuisi, kita cenderung berpikir bahwa nilai-nilai yang diamati lebih tinggi entah bagaimana lebih banyak bukti untuk beberapa nilai parameter daripada nilai-nilai yang diamati rendah, tetapi untuk angka berapa pun sama-sama mungkin dan dengan demikian / tidak seharusnya berkontribusi apa pun untuk keyakinan kami tentang parameter model ( Kecuali nilai maksimum yang kami amati, tetapi bahkan dalam permainan yang saya buat hanya dengan pilihan antara dua nilai. Sedemikian rupa sehingga bahkan maksimum tidak memberikan informasi lebih banyak ketika lebih tinggi atau lebih rendah, kecuali sekitar batas seratus).
Sextus Empiricus
Komentar awal saya mungkin terlalu berat, tetapi saya hanya mencari-cari jawaban seperti apa yang diperlukan. Terutama saya menemukan istilah 'bukti' agak kuat dan bertanya-tanya apakah Anda hanya mencari teorisasi faktorisasi (yang akan menjadi pertanyaan yang dijawab oleh ya ketika Anda tidak akan tahu teorema itu) atau apakah Anda mencari sesuatu yang lebih samar dan filosofis, seperti bahkan konsep menantang statistik / kemungkinan dan melampaui teorema seperti itu untuk mencari jenis "bukti" yang berbeda.
Sextus Empiricus
Bacalah niat saya dengan baik! Terima kasih lagi.
Bogdan Alexandru
0

Anda belum mempresentasikan formulasi yang tepat dari "masalah", jadi tidak jelas apa yang Anda minta untuk dibuktikan. Dari perspektif Bayesian, probabilitas posterior tergantung pada semua data. Namun, setiap pengamatan dari nomor seri tertentu akan paling mendukung nomor itu. Artinya, diberikan setiap pengamatan , rasio odds antara posterior dan sebelum akan lebih besar untuk hipotesis "jumlah sebenarnya tank adalah " daripada itu untuk "jumlah sebenarnya dari tangki adalah [angka selain ]". Jadi, jika kita mulai dengan seragam sebelumnya, maka akan memiliki posterior tertinggi setelah melihat pengamatan itu.nnnn

Pertimbangkan kasus di mana kita memiliki titik data , dan hipotesis . Jelas, posterior untuk adalah nol. Dan posisi kita untuk akan lebih besar dari sebelumnya. Alasan untuk ini adalah bahwa dalam penalaran Bayesian, tidak adanya bukti adalah bukti tidak adanya. Kapan saja kita memiliki kesempatan di mana kita bisa membuat pengamatan yang akan menurunkan probabilitas kita, tetapi tidak, probabilitas meningkat. Karena kita bisa melihat , yang akan mengatur posisi kita untuk menjadi nol, fakta bahwa kita tidak melihatnya berarti kita harus meningkatkan posisi untuk13N=10,13,15N=10N=13,1516N=13,15N=13,15 . Tetapi perhatikan bahwa semakin kecil angkanya, semakin banyak angka yang bisa kita lihat yang tidak termasuk angka itu. Untuk , kita akan menolak hipotesis bahwa setelah melihat . Tetapi untuk , kita akan membutuhkan setidaknya untuk menolak hipotesis. Karena hipotesis lebih dapat dipalsukan daripada , fakta bahwa kami tidak memalsukan adalah lebih banyak bukti untuk , daripada tidak memalsukan adalah bukti untuk .N=1314,15,16,...N=1516N=13N=15N=13N=13N=15N=15

Jadi setiap kali kita melihat suatu titik data, ia menetapkan posterior dari segala yang di bawahnya menjadi nol, dan meningkatkan posterior dari yang lainnya, dengan angka yang lebih kecil mendapatkan dorongan terbesar. Dengan demikian, angka yang mendapat dorongan terbesar secara keseluruhan akan menjadi angka terkecil yang posteriornya tidak ditetapkan nol, yaitu nilai maksimum pengamatan.

Angka-angka yang kurang dari jumlah maksimum memengaruhi seberapa besar dorongan maksimum yang didapat, tetapi itu tidak memengaruhi tren umum kenaikan maksimum yang mendapat dorongan terbesar. Perhatikan contoh di atas, di mana kita telah melihat . Jika angka berikutnya yang kita lihat adalah , apa dampaknya? Ini membantu lebih dari , tetapi kedua nomor telah ditolak, jadi itu tidak relevan. Ini membantu lebih dari , tetapi sudah membantu lebih dari , sehingga tidak mempengaruhi angka mana yang paling terbantu.1355613151315

Akumulasi
sumber
Contoh ini sangat tergantung pada situasi dan pernyataan tidak umum. Misalnya, jika prior adalah 50% untuk 13 dan 50% untuk 15 maka pengamatan 13 tidak sedemikian sehingga "posisi kita untuk N = 13, 15 akan lebih besar daripada sebelumnya". Pengamatan dapat menurunkan relatif posterior dibandingkan dengan sebelumnya. .
Sextus Empiricus
Juga, pengamatan lebih banyak angka tambahan dapat mengubah kesimpulan. Dalam kasus "jika angka berikutnya yang kita lihat adalah 5 ..." maka posterior masih akan berubah, bahkan ketika nomor telah 'membantu', angka tambahan dapat meningkatkan "membantu" ini (misalnya ketika Anda sampel semua nomor 1,2, ... 12, 13 maka ini akan meningkatkan posterior untuk 13 lebih dari ketika Anda hanya sampel 13)
Sextus Empiricus