Intuisi di balik mengapa paradoks Stein hanya berlaku dalam dimensi

46

Contoh Stein menunjukkan bahwa estimasi kemungkinan maksimum n variabel terdistribusi normal dengan rata-rata μ1,,μn dan varians 1 tidak dapat diterima (di bawah fungsi kuadrat kerugian) iff n3 . Untuk bukti yang rapi, lihat bab pertama Inferensi Skala Besar: Metode Empiris Bayes untuk Estimasi, Pengujian, dan Prediksi oleh Bradley Effron.

xN(μ,1)Ex2μ2+n

Pertanyaan saya agak: Apa properti dari ruang dimensional (untuk ) yang tidak yang memfasilitasi contoh Stein? Kemungkinan jawaban bisa tentang kelengkungan bola, atau sesuatu yang sama sekali berbeda.nn3R2n

Dengan kata lain, mengapa MLE diterima di ?R2


Sunting 1: Menanggapi kekhawatiran @mpiktas tentang 1,31 mengikuti dari 1,30:

Eμ(zμ^2)=Eμ(S(N2S)2)=Eμ((N2)2S).

μi^=(1N2S)zi
jadiKarena itu kami memiliki:
Eμ(μi^zi)=Eμ(1N2S+2zi2S2).

2i=1NEμ(μi^zi)=2N2Eμ(N(N2)S)+4Eμ((N2)S)=2NEμ2(N2)2S.

Sunting 2 : Dalam makalah ini , Stein membuktikan bahwa MLE dapat diterima untuk .N=2

Har
sumber
4
@mpiktas Tidak semudah kelihatannya. Situasi ini mirip dengan ANOVA setelah kami menerapkan pengurangan kecukupan. Ini mengisyaratkan bahwa perkiraan ANOVA biasa dari rata-rata kelompok tidak dapat diterima asalkan kami mencoba memperkirakan rata-rata lebih dari 3 kelompok (yang ternyata benar). Saya akan merekomendasikan untuk melihat bukti bahwa MLE dapat diterima untuk dan melihat di mana mereka gagal ketika mencoba memperluas ke daripada hanya melihat bukti bahwa penaksir Stein melakukan apa yang diklaimnya dilakukan, yang mudah sekali Anda sebenarnya memiliki estimator dalam pikiran. N=1,2N=3
pria
2
... dan tahu menggunakan Lemma Stein. Saya kira itu sebenarnya sedikit kurang lurus dari yang saya kira 6 menit yang lalu.
pria
2
Saya setuju. Apakah Anda punya referensi bagus untuk itu (selain dari kertas asli). Saya menemukan kertas asli Stein terlalu komputasional dan berharap seseorang akan mengembangkan metode yang berbeda dalam lima puluh tahun terakhir.
Har
2
Bukti bahwa saya diajar adalah bahwa Brown dan Hwang dari tahun 1983 yang menggunakan metode yang disarankan oleh Blyth dari awal 1950-an saya percaya. Itu cukup umum (lebih umum daripada hasil Stein karena itu bekerja untuk keluarga eksponensial) dan, saya percaya, sangat berbeda dari Stein. Tapi itu tidak sepele.
pria
2
@Memiliki pertanyaan yang bagus! (+1)
suncoolsu

Jawaban:

43

Dikotomi antara kasus dan untuk penerimaan MLE dari rata-rata variabel acak normal multivariat dimensional pasti mengejutkan.d<3d3d

Ada contoh lain yang sangat terkenal dalam probabilitas dan statistik di mana ada dikotomi antara kasus dan . Ini adalah pengulangan dari jalan acak sederhana pada kisi . Yaitu, jalan acak sederhana dimensional berulang dalam 1 atau 2 dimensi, tetapi bersifat sementara dalam dimensi. Analog waktu kontinu (dalam bentuk gerak Brown) juga berlaku.d<3d3Zddd3

Ternyata keduanya terkait erat.

Larry Brown membuktikan bahwa kedua pertanyaan itu pada dasarnya setara. Artinya, yang terbaik invarian estimator dari berdimensi multivariat vektor rata-rata normal adalah diterima jika dan hanya jika berdimensi gerak Brown berulang.μ^μ^(X)=Xdd

Bahkan, hasilnya jauh lebih baik. Untuk setiap penaksir yang masuk akal (yaitu, generalisasi Bayes) dengan risiko terikat (digeneralisasi) , ada risiko difusi dimensi (!) Yang eksplisit (!) Yang sesuai sehingga estimator dapat diterima jika dan hanya jika difusinya berulang.μ~μ~(X)L2dμ~

Mean lokal difusi ini pada dasarnya adalah perbedaan antara dua penduga, yaitu, dan kovarians difusi adalah . Dari ini, mudah untuk melihat bahwa untuk kasus MLE , kami memulihkan (mengubah skala) gerakan Brown.μ~μ^2Iμ~=μ^=X

Jadi, dalam beberapa hal, kita dapat melihat pertanyaan penerimaan melalui lensa proses stokastik dan menggunakan sifat difusi yang dipelajari dengan baik untuk sampai pada kesimpulan yang diinginkan.

Referensi

  1. L. Brown (1971). Estimator yang dapat diterima, difusi berulang, dan masalah nilai batas tidak larut . Ann. Matematika Stat. , vol. 42, tidak. 3, hlm. 855–903.
  2. RN Bhattacharya (1978). Kriteria untuk pengulangan dan keberadaan langkah-langkah invarian untuk difusi multidimensi . Ann. Masalah. , vol. 6, tidak. 4, 541–553.
kardinal
sumber
2
Sebenarnya, hal seperti inilah yang saya harapkan. Koneksi ke bidang matematika lain (baik itu geometri diferensial atau proses stokastik) yang menunjukkan bahwa penerimaan untuk bukan hanya kebetulan. Jawaban bagus! n=2
Har
Terinspirasi oleh jawaban Anda, saya memberikan beberapa detail dan juga menambahkan penjelasan geometris dalam menanggapi masalah ini di MO: mathoverflow.net/questions/93745/…
Henry.L
21

@ cardinal memberikan jawaban yang bagus (+1), tetapi seluruh masalah tetap misterius kecuali ada yang akrab dengan buktinya (dan saya tidak). Jadi saya pikir pertanyaannya tetap tentang apa alasan intuitif bahwa paradoks Stein tidak muncul di dan .RR2

Saya menemukan sangat membantu perspektif regresi yang ditawarkan dalam Stephen Stigler, 1990, A Galtonian Perspective on Shrinkage Estimators . Pertimbangkan pengukuran independen , masing-masing mengukur beberapa yang mendasarinya (tidak teramati) dan disampel dari . Jika kami entah bagaimana mengetahui , kami dapat membuat pasangan:XiθiN(θi,1)θi(Xi,θi)

Paradoks Stein: perspektif regresi

Garis diagonal sesuai dengan nol noise dan estimasi sempurna; pada kenyataannya noise tidak nol dan sehingga titik-titik tersebut dipindahkan dari garis diagonal dalam arah horizontal . Sejalan dengan itu, dapat dilihat sebagai garis regresi on . Kami, bagaimanapun, tahu dan ingin memperkirakan , jadi kami harus mempertimbangkan garis regresi pada - yang akan memiliki kemiringan yang berbeda, bias secara horizontal , seperti yang ditunjukkan pada gambar (garis putus-putus).θ=Xθ=XXθXθθX

Mengutip dari makalah Stigler:

Perspektif Galton tentang paradoks Stein membuatnya hampir transparan. Estimator "biasa" diturunkan dari garis regresi teoretis on . Baris itu akan berguna jika tujuan kita adalah untuk memprediksi dari , tetapi masalah kita adalah kebalikannya, yaitu untuk memprediksi dari menggunakan jumlah kesalahan kuadrat sebagai kriteria. Untuk kriteria tersebut, estimator linier optimal diberikan oleh garis regresi kuadrat terkecil dari padaθ^i0=XiXθXθθX(θiθ^i)2θX, dan penduga James-Stein dan Efron-Morris sendiri adalah penduga dari penduga linier optimal. Estimator "biasa" diturunkan dari garis regresi yang salah, estimator James-Stein dan Efron-Morris diturunkan dari perkiraan ke garis regresi yang benar.

Dan sekarang datang sedikit penting (penekanan ditambahkan):

Kita bahkan dapat melihat mengapa diperlukan: jika atau , garis kuadrat terkecil pada harus melewati titik , dan karenanya untuk atau , dua garis regresi ( pada dan pada ) harus disepakati pada setiap .k3k=12θX(Xi,θi)k=12XθθXXi

Saya pikir ini membuatnya sangat jelas apa yang spesial tentang dan .k=1k=2

amuba kata Reinstate Monica
sumber