Setiap pernyataan yang saya temukan dari estimator James-Stein mengasumsikan bahwa variabel acak yang diperkirakan memiliki varians yang sama (dan satuan).
Tetapi semua contoh ini juga menyebutkan bahwa estimator JS dapat digunakan untuk memperkirakan jumlah yang tidak ada hubungannya satu sama lain. Contoh wikipedia adalah kecepatan cahaya, konsumsi teh di Taiwan, dan berat babi di Montana. Tetapi agaknya pengukuran Anda pada ketiga kuantitas ini akan memiliki varian "benar" yang berbeda. Apakah ini menimbulkan masalah?
Ini terkait dengan masalah konseptual yang lebih besar yang tidak saya pahami, terkait dengan pertanyaan ini: James-Stein estimator: Bagaimana Efron dan Morris menghitung dalam faktor susut untuk contoh baseball mereka? Kami menghitung faktor susut sebagai berikut:
Secara intuitif, saya akan berpikir bahwa istilah sebenarnya - berbeda untuk setiap kuantitas yang diperkirakan. Tetapi diskusi dalam pertanyaan itu hanya berbicara tentang menggunakan varian gabungan ...
Saya akan sangat menghargai jika ada yang bisa menghilangkan kebingungan ini!
sumber
Jawaban:
Pertanyaan ini secara eksplisit dijawab dalam seri makalah klasik tentang penduga James-Stein dalam konteks Empirical Bayes yang ditulis pada 1970-an oleh Efron & Morris. Saya terutama mengacu pada:
Efron dan Morris, 1973, Aturan Estimasi Stein dan Pesaingnya - Pendekatan Empiris Bayes
Efron dan Morris, 1975, Analisis Data dengan Estimator Stein dan Generalisasi-nya
Efron dan Morris, 1977, Stead Paradox in Statistics
Makalah 1977 adalah eksposisi non-teknis yang harus dibaca. Di sana mereka memperkenalkan contoh pukulan baseball (yang dibahas di utas yang Anda tautkan); dalam contoh ini varians pengamatan memang seharusnya sama untuk semua variabel, dan faktor susut adalah konstan.c
Namun, mereka terus memberikan contoh lain, yang memperkirakan tingkat toksoplasmosis di sejumlah kota di El Salvador. Di setiap kota, jumlah orang yang berbeda disurvei, sehingga pengamatan individu (tingkat toksoplasmosis di setiap kota) dapat dianggap memiliki varian yang berbeda (semakin rendah jumlah orang yang disurvei, semakin tinggi varians). Intuisi tentu saja bahwa titik data dengan varians rendah (ketidakpastian rendah) tidak perlu menyusut sekuat poin data dengan varians tinggi (ketidakpastian tinggi). Hasil analisis mereka ditunjukkan pada gambar berikut, di mana ini memang dapat dilihat terjadi:
Data dan analisis yang sama disajikan dalam makalah 1975 yang jauh lebih teknis, dalam angka yang jauh lebih elegan (sayangnya tidak menunjukkan varian individual), lihat Bagian 3:
Di sana mereka menyajikan pengobatan Empirical Bayes yang disederhanakan sebagai berikut. Biarkan mana tidak diketahui. Dalam hal semua identik, perlakuan Empirical Bayes standar adalah memperkirakan sebagai , dan untuk menghitung rata-rata posteriori dari sebagai yang bukan apa-apa selain penaksir James-Stein.Xi|θi∼N(θi,Di)θi∼N(0,A) A Di=1 1/(1+A) (k−2)/∑X2j θi θ^i=(1−11+A)Xi=(1−k−2∑X2j)Xi,
Jika sekarang , maka aturan pembaruan Bayes adalah dan kita dapat menggunakan trik Empiris Bayes yang sama untuk memperkirakan , meskipun tidak ada rumus tertutup untuk dalam kasus ini (lihat kertas). Namun, mereka mencatat ituDi≠1 θ^i=(1−DiDi+A)Xi A A^
Bagian yang relevan dalam makalah 1973 adalah Bagian 8, dan itu sedikit lebih sulit dibaca. Menariknya, mereka memiliki komentar eksplisit di sana atas saran yang dibuat oleh @guy dalam komentar di atas:
Kemudian mereka melanjutkan dan menjelaskan prosedur pilihan mereka untuk memperkirakan yang harus saya akui bahwa saya belum sepenuhnya membaca (ini sedikit terlibat). Saya sarankan Anda mencari di sana jika Anda tertarik dengan detailnya.A^i
sumber