Penaksir James-Stein: Bagaimana Efron dan Morris menghitung dalam faktor susut untuk contoh baseball mereka?

18

Saya punya pertanyaan tentang penghitungan faktor Penyusutan James-Stein dalam makalah Scientific American 1977 oleh Bradley Efron dan Carl Morris, "Stein's Paradox in Statistics" .

Saya mengumpulkan data untuk pemain baseball dan diberikan di bawah ini:

Name, avg45, avgSeason    
Clemente, 0.400, 0.346    
Robinson, 0.378, 0.298    
Howard, 0.356, 0.276    
Johnstone, 0.333, 0.222    
Berry, 0.311, 0.273    
Spencer, 0.311, 0.270    
Kessinger, 0.289, 0.263    
Alvarado, 0.267, 0.210    
Santo, 0.244, 0.269    
Swoboda, 0.244, 0.230    
Unser, 0.222, 0.264    
Williams, 0.222, 0.256    
Scott, 0.222, 0.303    
Petrocelli, 0.222, 0.264    
Rodriguez, 0.222, 0.226    
Campaneris, 0.200, 0.285    
Munson, 0.178, 0.316    
Alvis, 0.156, 0.200

avg45adalah rata-rata setelah pada kelelawar dan dilambangkan sebagai dalam artikel. adalah akhir dari rata-rata musim.45yavgSeason

Estimasi James-Stein untuk rata-rata ( ) diberikan oleh dan faktor penyusutan diberikan oleh (halaman 5 artikel Scientific American 1977) ) z

z=y¯+c(y-y¯)
c
c=1-(k-3)σ2(y-y¯)2,

di mana adalah jumlah cara yang tidak diketahui. Di sini ada 18 pemain jadi . Saya dapat menghitung menggunakan nilai. Tapi saya tidak tahu bagaimana cara menghitung . Penulis mengatakan untuk set data yang diberikan.kk=18(y-y¯)2avg45σ2c=0,212

Saya mencoba menggunakan dan untuk tetapi mereka tidak memberikan jawaban yang benarσx2σy2σ2c=0.212

Adakah yang bisa berbaik hati memberi tahu saya cara menghitung untuk kumpulan data ini?σ2

Anand
sumber
1
Saya tahu MAD ( en.wikipedia.org/wiki/Median_absolute_deviation ) banyak digunakan untuk penyusutan wavelet.
robin girard

Jawaban:

19

Parameter adalah varian umum (tidak diketahui) dari komponen vektor, yang masing-masingnya kami asumsikan terdistribusi secara normal. Untuk data baseball, kami memiliki , sehingga perkiraan normal untuk distribusi binomial memberikan (mengambil )σ245Yibinom(45,pi)pi^=Yi

p^inorm(mean=pi,var=pi(1pi)/45).

Jelas dalam hal ini varians tidak sama, namun jika mereka telah sama dengan nilai yang umum maka kita bisa memperkirakan dengan estimator dikumpulkan σ 2 = p ( 1 - p ) di mana p adalah mean p =1

σ^2=p^(1p^)45,
p^ Tampaknya inilah yang telah dilakukan Efron dan Morris (dalam makalah 1977).
p^=11845i=11845Yi=Y¯.

Anda dapat memeriksa ini dengan kode R. berikut. Berikut datanya:

y <- c(0.4, 0.378, 0.356, 0.333, 0.311, 0.311, 0.289, 0.267, 0.244, 0.244, 0.222, 0.222, 0.222, 0.222, 0.222, 0.2, 0.178, 0.156)

σ2

s2 <- mean(y)*(1 - mean(y))/45

σ^20,004332392

1 - 15*s2/(17*var(y))

c0,2123905k-2k-3


sumber
Penjelasan yang bagus, saya suka perkiraan normal binomial.
Chamberlain Foncha
14

c=0.212

Efron, B., & Morris, C. (1975). Analisis data menggunakan estimator Stein dan generalisasinya. Jurnal Asosiasi Statistik Amerika, 70 (350), 311-319 (tautan ke pdf)

atau lebih detail

Efron, B., & Morris, C. (1974). Analisis data menggunakan estimator Stein dan generalisasinya. R-1394-OEO, The RAND Corporation, Maret 1974 (tautan ke pdf) .

Pada halaman 312, Anda akan melihat bahwa Efron & Morris menggunakan transformasi arc-sin dari data ini, sehingga varian rata-rata batting adalah kira-kira satu:

> dat <- read.table("data.txt", header=T, sep=",")
> yi  <- dat$avg45
> k   <- length(yi)
> yi  <- sqrt(45) * asin(2*yi-1)
> c   <- 1 - (k-3)*1 / sum((yi - mean(yi))^2)
> c
[1] 0.2091971

z

> zi  <- mean(yi) + c * (yi - mean(yi))
> round((sin(zi/sqrt(45)) + 1)/2,3) ### back-transformation
[1] 0.290 0.286 0.282 0.277 0.273 0.273 0.268 0.264 0.259
[10] 0.259 0.254 0.254 0.254 0.254 0.254 0.249 0.244 0.239

Jadi ini adalah nilai-nilai estimator Stein. Untuk Clemente, kita mendapatkan 0,290, yang cukup dekat dengan 0,294 dari artikel 1977.

Wolfgang
sumber