The Halmos-Savage Teorema mengatakan bahwa untuk model statistik didominasi statistik adalah cukup jika (dan hanya jika) untuk semua ada versi yang dapat diukur dari turunan Radon Nikodym manaadalah ukuran istimewa sehinggauntukdan.
Saya telah mencoba memahami secara intuisi mengapa teorema itu benar tetapi saya tidak berhasil, jadi pertanyaan saya adalah apakah ada cara intuitif untuk memahami teorema itu.
Jawaban:
Lemma Teknis
Saya tidak yakin seberapa intuitifnya ini, tetapi hasil teknis utama yang mendasari pernyataan Anda tentang Teorema Halmos-Savage adalah sebagai berikut:
Ini diambil kata demi kata dari Teorema A.78 dalam Teori Statistik Schervish (1995) . Di dalamnya ia menghubungkannya dengan Pengujian Statistik Hipotesis Lehmann (1986) ( tautan ke edisi ketiga ), di mana hasilnya dikaitkan dengan Halmos dan Savage sendiri (lihat Lemma 7). Referensi bagus lainnya adalah Statistik Matematika Shao (edisi kedua, 2003) , di mana hasil yang relevan adalah Lemma 2.1 dan Teorema 2.2.
Lemma di atas menyatakan bahwa jika Anda mulai dengan keluarga ukuran yang didominasi oleh ukuranσ -finit, maka sebenarnya Anda dapat mengganti ukuran yang mendominasi dengan kombinasi ukuran cembung yang dapat dihitung dari dalam keluarga. Schervish menulis sebelum menyatakan Teorema A.78,
Contoh Beton
Misalkan kita melakukan pengukuran kuantitasX yang kami yakini didistribusikan secara seragam pada interval [0,θ] untuk beberapa yang tidak diketahui θ>0 . Dalam masalah statistik ini, kami secara implisit mempertimbangkan himpunan P dari pengukuran probabilitas Borel pada R terdiri dari distribusi seragam pada semua interval bentuk [0,θ] . Yaitu, jika λ menunjukkan ukuran Lebesgue dan, untuk θ>0 , Pθ menunjukkan Uniform([0,θ]) distribusi (yaitu,
Pθ(A)=1θλ(A∩[0,θ])=∫A1θ1[0,θ](x)dx
untuk setiap BorelA⊆R ), maka kita cukup memiliki
P={Pθ:θ>0}.
Ini adalah set distribusi calon pengukuran kamiX .
KeluargaP jelas didominasi oleh ukuran Lebesgue λ (yang adalah σ -finite), sehingga lemma di atas (dengan ℵ=P ) menjamin adanya urutan {ci}∞i=1 dari angka-angka non-negatif yang menjumlahkan 1 dan a urutan {Qi}∞i=1 distribusi seragam dalam P sehingga
Pθ≪∑i=1∞ciQi
untuk setiap θ>0 . Dalam contoh ini, kita dapat membuat urutan seperti itu secara eksplisit!
Pertama, misalkan(θi)∞i=1 menjadi enumerasi bilangan rasional positif ( ini dapat dilakukan secara eksplisit ), dan misalkan Qi=Pθi untuk setiap i . Selanjutnya, mari ci=2−i , sehingga ∑∞i=1ci=1 . Saya mengklaim bahwa kombinasi dari {ci}∞i=1 dan {Qi}∞i=1 berfungsi.
Untuk melihat ini, memperbaikiθ>0 dan membiarkan A menjadi bagian Borel dari R sehingga ∑∞i=1ciQi(A)=0 . Kita perlu menunjukkan bahwa Pθ(A)=0 . Sejak ∑∞i=1ciQi(A)=0 dan masing-masing peubah adalah non-negatif, maka bahwa ciQi(A)=0 untuk setiapi . Selain itu, karena setiapci positif, makaQi(A)=0 untuk masing-masingi . Yaitu, untuk semuai kita memiliki
Qi(A)=Pθi(A)=1θiλ(A∩[0,θi])=0.
Karena setiapθi positif, berartiλ(A∩[0,θi])=0 untuk setiapi .
Sekarang pilih urutan{θik}∞k=1 dari {θi}∞i=1 yang konvergen ke θ dari atas (ini dapat dilakukan karena Q padat di R ). Kemudian A∩[0,θθik]↓A∩[0,θ] sebagai k→∞ , jadi dengan kesinambungan ukuran kita menyimpulkan bahwa
λ(A∩[0,θ])=limk→∞λ(A∩[0,θik])=0,
danPθ(A)=0 . Ini membuktikan klaim.
Dengan demikian, dalam contoh ini kami dapat secara eksplisit membangun kombinasi cembung dari ukuran probabilitas dari keluarga dominan kami yang masih mendominasi seluruh keluarga. Lemma di atas menjamin bahwa ini dapat dilakukan untuk setiap keluarga yang didominasi (setidaknya selama ukuran yang mendominasi adalahσ finite).
Teorema Halmos-Savage
Jadi sekarang ke Teorema Halmos-Savage (yang saya akan menggunakan notasi sedikit berbeda daripada dalam pertanyaan karena preferensi pribadi). Mengingat Teorema Halmos-Savage, teorisasi faktorisasi Fisher-Neyman hanyalah satu aplikasi dari lemma Doob-Dynkin dan aturan rantai untuk turunan Radon-Nikodym pergi!
Bukti. Oleh lemma di atas, kita dapat segera gantiμ oleh P∗=∑∞i=1ciPi untuk beberapa urutan {ci}∞i=1 angka non-negatif sehingga ∑∞i=1ci=1 dan urutan {Pi}∞i=1 langkah probabilitas di P .
(1. menyiratkan 2.) MisalkanT sudah cukup. Maka kita harus menunjukkan bahwa ada T versi -measurable dari dP/dP∗ untuk semua P∈P . Misalkan r menjadi kernel probabilitas dalam pernyataan teorema. Untuk setiap A∈σ(T) dan B∈B kita memiliki
P∗(A∩B)=∑i=1∞ciPi(A∩B)=∑i=1∞ci∫APi(B∣T)dPi=∑i=1∞ci∫Ar(B,T)dPi=∫Ar(B,T)dP∗.
Dengan demikianr(B,T) adalah versi dariP∗(B∣T) untuk semuaB∈B .
sumber