James-Stein Estimator dengan varian yang tidak sama

11

Setiap pernyataan yang saya temukan dari estimator James-Stein mengasumsikan bahwa variabel acak yang diperkirakan memiliki varians yang sama (dan satuan).

Tetapi semua contoh ini juga menyebutkan bahwa estimator JS dapat digunakan untuk memperkirakan jumlah yang tidak ada hubungannya satu sama lain. Contoh wikipedia adalah kecepatan cahaya, konsumsi teh di Taiwan, dan berat babi di Montana. Tetapi agaknya pengukuran Anda pada ketiga kuantitas ini akan memiliki varian "benar" yang berbeda. Apakah ini menimbulkan masalah?

Ini terkait dengan masalah konseptual yang lebih besar yang tidak saya pahami, terkait dengan pertanyaan ini: James-Stein estimator: Bagaimana Efron dan Morris menghitung dalam faktor susut untuk contoh baseball mereka? σ2Kami menghitung faktor susut c sebagai berikut:

c=1(k3)σ2(yy¯)2

Secara intuitif, saya akan berpikir bahwa istilah σ2 sebenarnya σi2 - berbeda untuk setiap kuantitas yang diperkirakan. Tetapi diskusi dalam pertanyaan itu hanya berbicara tentang menggunakan varian gabungan ...

Saya akan sangat menghargai jika ada yang bisa menghilangkan kebingungan ini!

exp1orer
sumber
3
Jika adalah kita dapat mengalikannya dengan untuk kembali ke masalah James-Stein. Jika tidak diketahui, tetapi masing-masing "pengamatan" di masalahnya adalah mean sampel dihitung atas dasar pengamatan kita bisa memperkirakan dengan beberapa dan harapan bahwa kita juga mendapatkan situasi James-Stein jika kita pra-kalikan dengan sebagai gantinya. D=diag(σ12,,σn2)D1/2DmiDD^D^1/2
pria
2
@ guy: ini adalah saran yang masuk akal (+1), namun ini akan menghasilkan faktor penyusutan yang sama untuk semua variabel, sedangkan orang ingin mengecilkan variabel secara berbeda, tergantung pada varians / ketidakpastian mereka. Lihat jawaban yang baru saja saya posting.
Amuba mengatakan Reinstate Monica
1
@amoeba Tentu; Saya tidak menyarankan estimator saya praktis, hanya itu menggambarkan mengapa orang mengatakan hal-hal yang disebutkan OP dalam paragraf keduanya.
pria

Jawaban:

6

Pertanyaan ini secara eksplisit dijawab dalam seri makalah klasik tentang penduga James-Stein dalam konteks Empirical Bayes yang ditulis pada 1970-an oleh Efron & Morris. Saya terutama mengacu pada:

  1. Efron dan Morris, 1973, Aturan Estimasi Stein dan Pesaingnya - Pendekatan Empiris Bayes

  2. Efron dan Morris, 1975, Analisis Data dengan Estimator Stein dan Generalisasi-nya

  3. Efron dan Morris, 1977, Stead Paradox in Statistics

Makalah 1977 adalah eksposisi non-teknis yang harus dibaca. Di sana mereka memperkenalkan contoh pukulan baseball (yang dibahas di utas yang Anda tautkan); dalam contoh ini varians pengamatan memang seharusnya sama untuk semua variabel, dan faktor susut adalah konstan.c

Namun, mereka terus memberikan contoh lain, yang memperkirakan tingkat toksoplasmosis di sejumlah kota di El Salvador. Di setiap kota, jumlah orang yang berbeda disurvei, sehingga pengamatan individu (tingkat toksoplasmosis di setiap kota) dapat dianggap memiliki varian yang berbeda (semakin rendah jumlah orang yang disurvei, semakin tinggi varians). Intuisi tentu saja bahwa titik data dengan varians rendah (ketidakpastian rendah) tidak perlu menyusut sekuat poin data dengan varians tinggi (ketidakpastian tinggi). Hasil analisis mereka ditunjukkan pada gambar berikut, di mana ini memang dapat dilihat terjadi:

masukkan deskripsi gambar di sini

Data dan analisis yang sama disajikan dalam makalah 1975 yang jauh lebih teknis, dalam angka yang jauh lebih elegan (sayangnya tidak menunjukkan varian individual), lihat Bagian 3:

masukkan deskripsi gambar di sini

Di sana mereka menyajikan pengobatan Empirical Bayes yang disederhanakan sebagai berikut. Biarkan mana tidak diketahui. Dalam hal semua identik, perlakuan Empirical Bayes standar adalah memperkirakan sebagai , dan untuk menghitung rata-rata posteriori dari sebagai yang bukan apa-apa selain penaksir James-Stein.

Xi|θiN(θi,Di)θiN(0,A)
ADi=11/(1+A)(k2)/Xj2θi
θ^i=(111+A)Xi=(1k2Xj2)Xi,

Jika sekarang , maka aturan pembaruan Bayes adalah dan kita dapat menggunakan trik Empiris Bayes yang sama untuk memperkirakan , meskipun tidak ada rumus tertutup untuk dalam kasus ini (lihat kertas). Namun, mereka mencatat ituDi1

θ^i=(1DiDi+A)Xi
AA^

... aturan ini tidak mengurangi ke Stein ketika semua adalah sama, dan kami malah menggunakan varian kecil dari penaksir ini yang diturunkan dalam [makalah 1973] yang mengurangi ke Stein. Aturan varian memperkirakan nilai berbeda untuk setiap kota. Perbedaan antara aturan adalah kecil dalam kasus ini, tetapi mungkin penting jika lebih kecil.DjA^ik

Bagian yang relevan dalam makalah 1973 adalah Bagian 8, dan itu sedikit lebih sulit dibaca. Menariknya, mereka memiliki komentar eksplisit di sana atas saran yang dibuat oleh @guy dalam komentar di atas:

Cara yang sangat sederhana untuk menggeneralisasi aturan James-Stein untuk situasi ini adalah dengan mendefinisikan , sehingga , terapkan [aturan James-Stein asli] ke data yang diubah, dan kemudian ubah kembali ke koordinat asli. Aturan yang dihasilkan memperkirakan oleh Ini tidak menarik karena setiap menyusut ke arah asalnya dengan faktor yang sama.x~i=Di1/2xi,θ~i=Di1/2θix~iN(θ~i,1)θi

θ^i=(1k2[Xj2/Dj])Xi.
Xi

Kemudian mereka melanjutkan dan menjelaskan prosedur pilihan mereka untuk memperkirakan yang harus saya akui bahwa saya belum sepenuhnya membaca (ini sedikit terlibat). Saya sarankan Anda mencari di sana jika Anda tertarik dengan detailnya.A^i

amuba kata Reinstate Monica
sumber