Saya punya pertanyaan tentang penghitungan faktor Penyusutan James-Stein dalam makalah Scientific American 1977 oleh Bradley Efron dan Carl Morris, "Stein's Paradox in Statistics" .
Saya mengumpulkan data untuk pemain baseball dan diberikan di bawah ini:
Name, avg45, avgSeason
Clemente, 0.400, 0.346
Robinson, 0.378, 0.298
Howard, 0.356, 0.276
Johnstone, 0.333, 0.222
Berry, 0.311, 0.273
Spencer, 0.311, 0.270
Kessinger, 0.289, 0.263
Alvarado, 0.267, 0.210
Santo, 0.244, 0.269
Swoboda, 0.244, 0.230
Unser, 0.222, 0.264
Williams, 0.222, 0.256
Scott, 0.222, 0.303
Petrocelli, 0.222, 0.264
Rodriguez, 0.222, 0.226
Campaneris, 0.200, 0.285
Munson, 0.178, 0.316
Alvis, 0.156, 0.200
avg45
adalah rata-rata setelah pada kelelawar dan dilambangkan sebagai dalam artikel. adalah akhir dari rata-rata musim.avgSeason
Estimasi James-Stein untuk rata-rata ( ) diberikan oleh dan faktor penyusutan diberikan oleh (halaman 5 artikel Scientific American 1977) )
di mana adalah jumlah cara yang tidak diketahui. Di sini ada 18 pemain jadi . Saya dapat menghitung menggunakan nilai. Tapi saya tidak tahu bagaimana cara menghitung . Penulis mengatakan untuk set data yang diberikan.avg45
Saya mencoba menggunakan dan untuk tetapi mereka tidak memberikan jawaban yang benar
Adakah yang bisa berbaik hati memberi tahu saya cara menghitung untuk kumpulan data ini?
Jawaban:
Parameter adalah varian umum (tidak diketahui) dari komponen vektor, yang masing-masingnya kami asumsikan terdistribusi secara normal. Untuk data baseball, kami memiliki , sehingga perkiraan normal untuk distribusi binomial memberikan (mengambil )σ2 45⋅Yi∼binom(45,pi) pi^=Yi
Jelas dalam hal ini varians tidak sama, namun jika mereka telah sama dengan nilai yang umum maka kita bisa memperkirakan dengan estimator dikumpulkan σ 2 = p ( 1 - p ) di mana p adalah mean p =1
Anda dapat memeriksa ini dengan kode R. berikut. Berikut datanya:
sumber
Efron, B., & Morris, C. (1975). Analisis data menggunakan estimator Stein dan generalisasinya. Jurnal Asosiasi Statistik Amerika, 70 (350), 311-319 (tautan ke pdf)
atau lebih detail
Efron, B., & Morris, C. (1974). Analisis data menggunakan estimator Stein dan generalisasinya. R-1394-OEO, The RAND Corporation, Maret 1974 (tautan ke pdf) .
Pada halaman 312, Anda akan melihat bahwa Efron & Morris menggunakan transformasi arc-sin dari data ini, sehingga varian rata-rata batting adalah kira-kira satu:
Jadi ini adalah nilai-nilai estimator Stein. Untuk Clemente, kita mendapatkan 0,290, yang cukup dekat dengan 0,294 dari artikel 1977.
sumber