Pemahaman intuitif teorema Halmos-Savage

12

The Halmos-Savage Teorema mengatakan bahwa untuk model statistik didominasi (Ω,A,P) statistik T:(Ω,A,P)(Ω,A) adalah cukup jika (dan hanya jika) untuk semua {PP} ada T versi yang dapat diukur dari turunan Radon Nikodym dPdP manadPadalah ukuran istimewa sehinggaP=i=1Piciuntukci>0,i=1ci=1danPiP.

Saya telah mencoba memahami secara intuisi mengapa teorema itu benar tetapi saya tidak berhasil, jadi pertanyaan saya adalah apakah ada cara intuitif untuk memahami teorema itu.

Sebastian
sumber
Saya yakin saya memiliki tautan yang benar di sini. Silakan periksa & hapus jika saya melakukan kesalahan.
gung - Reinstate Monica
4
Mungkin membantu pembaca dengan terminologi, misalnya, mendefinisikan "model statistik yang dominan", " T mengukur kemampuan" dan "langkah-langkah istimewa?
Carl

Jawaban:

6

Lemma Teknis

Saya tidak yakin seberapa intuitifnya ini, tetapi hasil teknis utama yang mendasari pernyataan Anda tentang Teorema Halmos-Savage adalah sebagai berikut:

Kata pengantar singkat. Biarkan μ menjadi ukuran σ -finite on (S,A) . Misalkan adalah kumpulan tindakan pada (S,A) sedemikian rupa sehingga untuk setiap ν , νμ . Lalu ada urutan angka non-negatif {ci}i=1 dan urutan elemen , {νi}i=1sehingga i=1ci=1 dan νi=1ciνi untuk setiap ν .

Ini diambil kata demi kata dari Teorema A.78 dalam Teori Statistik Schervish (1995) . Di dalamnya ia menghubungkannya dengan Pengujian Statistik Hipotesis Lehmann (1986) ( tautan ke edisi ketiga ), di mana hasilnya dikaitkan dengan Halmos dan Savage sendiri (lihat Lemma 7). Referensi bagus lainnya adalah Statistik Matematika Shao (edisi kedua, 2003) , di mana hasil yang relevan adalah Lemma 2.1 dan Teorema 2.2.

Lemma di atas menyatakan bahwa jika Anda mulai dengan keluarga ukuran yang didominasi oleh ukuran σ -finit, maka sebenarnya Anda dapat mengganti ukuran yang mendominasi dengan kombinasi ukuran cembung yang dapat dihitung dari dalam keluarga. Schervish menulis sebelum menyatakan Teorema A.78,

"Dalam aplikasi statistik, kita akan sering memiliki kelas ukuran, yang masing-masing benar-benar berkelanjutan sehubungan dengan ukuran σ finite tunggal . Akan lebih baik jika ukuran dominasi tunggal berada di kelas asli atau dapat dibangun dari kelas. Teorema berikut membahas masalah ini. "

Contoh Beton

Misalkan kita melakukan pengukuran kuantitas X yang kami yakini didistribusikan secara seragam pada interval [0,θ] untuk beberapa yang tidak diketahui θ>0 . Dalam masalah statistik ini, kami secara implisit mempertimbangkan himpunan P dari pengukuran probabilitas Borel pada R terdiri dari distribusi seragam pada semua interval bentuk [0,θ] . Yaitu, jika λ menunjukkan ukuran Lebesgue dan, untuk θ>0 , Pθ menunjukkan Uniform([0,θ]) distribusi (yaitu,

Pθ(A)=1θλ(A[0,θ])=A1θ1[0,θ](x)dx
untuk setiap BorelAR ), maka kita cukup memiliki
P={Pθ:θ>0}.
Ini adalah set distribusi calon pengukuran kamiX .

Keluarga P jelas didominasi oleh ukuran Lebesgue λ (yang adalah σ -finite), sehingga lemma di atas (dengan =P ) menjamin adanya urutan {ci}i=1 dari angka-angka non-negatif yang menjumlahkan 1 dan a urutan {Qi}i=1 distribusi seragam dalam P sehingga

Pθi=1ciQi
untuk setiap θ>0 . Dalam contoh ini, kita dapat membuat urutan seperti itu secara eksplisit!

Pertama, misalkan (θi)i=1 menjadi enumerasi bilangan rasional positif ( ini dapat dilakukan secara eksplisit ), dan misalkan Qi=Pθi untuk setiap i . Selanjutnya, mari ci=2i , sehingga i=1ci=1 . Saya mengklaim bahwa kombinasi dari {ci}i=1 dan {Qi}i=1 berfungsi.

Untuk melihat ini, memperbaiki θ>0 dan membiarkan A menjadi bagian Borel dari R sehingga i=1ciQi(A)=0 . Kita perlu menunjukkan bahwa Pθ(A)=0 . Sejak i=1ciQi(A)=0 dan masing-masing peubah adalah non-negatif, maka bahwa ciQi(A)=0 untuk setiapi . Selain itu, karena setiapci positif, makaQi(A)=0 untuk masing-masingi . Yaitu, untuk semuai kita memiliki

Qi(A)=Pθi(A)=1θiλ(A[0,θi])=0.
Karena setiapθipositif, berartiλ(A[0,θi])=0untuk setiapi.

Sekarang pilih urutan {θik}k=1 dari {θi}i=1 yang konvergen ke θ dari atas (ini dapat dilakukan karena Q padat di R ). Kemudian A[0,θθik]A[0,θ] sebagai k , jadi dengan kesinambungan ukuran kita menyimpulkan bahwa

λ(A[0,θ])=limkλ(A[0,θik])=0,
danPθ(A)=0 . Ini membuktikan klaim.

Dengan demikian, dalam contoh ini kami dapat secara eksplisit membangun kombinasi cembung dari ukuran probabilitas dari keluarga dominan kami yang masih mendominasi seluruh keluarga. Lemma di atas menjamin bahwa ini dapat dilakukan untuk setiap keluarga yang didominasi (setidaknya selama ukuran yang mendominasi adalah σ finite).

Teorema Halmos-Savage

Jadi sekarang ke Teorema Halmos-Savage (yang saya akan menggunakan notasi sedikit berbeda daripada dalam pertanyaan karena preferensi pribadi). Mengingat Teorema Halmos-Savage, teorisasi faktorisasi Fisher-Neyman hanyalah satu aplikasi dari lemma Doob-Dynkin dan aturan rantai untuk turunan Radon-Nikodym pergi!

Teorema Halmos-Savage. Misalkan (X,B,P) menjadi model statistik yang dominan (artinya P adalah seperangkat ukuran probabilitas pada B dan ada ukuran σ -finit μ pada B sedemikian sehingga Pμ untuk semua PP ). Misalkan T:(X,B)(T,C) menjadi fungsi yang dapat diukur, di mana (T,C)adalah ruang Borel standar. Maka yang berikut ini setara:

  1. T cukup untukP (artinya ada kemungkinan kernelr:B×T[0,1] sehinggar(B,T) adalah versiP(BT) untuk semuaBB danPP ).
  2. Ada ada urutan {ci}i=1 angka non-negatif sehingga i=1ci=1 dan urutan {Pi}i=1 langkah probabilitas di P sehingga PP untuk semua PP , di mana P=i=1ciPi, dan untuk setiap PP terdapat versi T terukur dP/dP .

Bukti. Oleh lemma di atas, kita dapat segera ganti μ oleh P=i=1ciPi untuk beberapa urutan {ci}i=1 angka non-negatif sehingga i=1ci=1 dan urutan {Pi}i=1 langkah probabilitas di P .

(1. menyiratkan 2.) Misalkan T sudah cukup. Maka kita harus menunjukkan bahwa ada T versi -measurable dari dP/dP untuk semua PP . Misalkan r menjadi kernel probabilitas dalam pernyataan teorema. Untuk setiap Aσ(T) dan BB kita memiliki

P(AB)=i=1ciPi(AB)=i=1ciAPi(BT)dPi=i=1ciAr(B,T)dPi=Ar(B,T)dP.
Dengan demikianr(B,T)adalah versi dariP(BT)untuk semuaBB.

PPfPdP/dP(X,σ(T))fPTBBPP

P(B)=XP(BT)dP=Xr(B,T)dP=Xr(B,T)fPdP=XP(BT)fPdP=XEP[1BfPT]dP=BfPdP.
fPTdP/dP(X,B)

TfPdP/dPPPBBr(B,t)P(BT=t)r(B,t)r(B,T)P(BT)(T,C)rr(B,T)P(BT)PPBBAσ(T)BBPP

P(AB)=A1BfPdP=AEP[1BfPT]dP=AP(BT)fPdP=Ar(B,T)fPdP=Ar(B,T)dP.
r(B,T)P(BT)PPBB

Ringkasan. Hasil teknis penting yang mendasari teorema Halmos-Savage seperti yang disajikan di sini adalah fakta bahwa keluarga yang didominasi ukuran probabilitas sebenarnya didominasi oleh kombinasi cembung yang tak terhitung dari ukuran probabilitas dari keluarga itu. Mengingat hasil itu, sisa teorema Halmos-Savage sebagian besar hanya manipulasi dengan sifat dasar turunan Radon-Nikodym dan harapan bersyarat.

Artem Mavrin
sumber