Pandangan terpadu tentang penyusutan: apa hubungan (jika ada) antara paradoks Stein, regresi ridge, dan efek acak dalam model campuran?

65

Perhatikan tiga fenomena berikut.

  1. Paradoks Stein: diberikan beberapa data dari distribusi normal multivariat dalam Rn,n3 , rata-rata sampel bukan penaksir yang sangat baik dari rata-rata sebenarnya. Seseorang dapat memperoleh estimasi dengan kesalahan kuadrat rata-rata yang lebih rendah jika seseorang mengecilkan semua koordinat sampel rata-rata menuju nol [atau menuju rata-rata mereka, atau benar-benar menuju nilai apa pun, jika saya mengerti dengan benar].

    NB: biasanya paradoks Stein dirumuskan dengan mempertimbangkan hanya satu titik data tunggal dari Rn ; tolong perbaiki saya jika ini penting dan formulasi saya di atas tidak benar.

  2. Regresi Ridge: diberikan beberapa variabel dependen y dan beberapa variabel independen X , regresi standar β=(XX)1Xy cenderung sesuai dengan data dan mengarah pada kinerja out-of-sampel yang buruk. Seseorang sering dapat mengurangi overfitting dengan mengecilkan β ke nol: β=(XX+λI)1Xy .

  3. Efek acak dalam model bertingkat / campuran: diberi beberapa variabel dependen y (misalnya tinggi siswa) yang tergantung pada beberapa prediktor kategori (misalnya id sekolah dan jenis kelamin siswa), orang sering disarankan untuk memperlakukan beberapa prediktor sebagai 'acak', yaitu menganggap bahwa tinggi rata-rata siswa di setiap sekolah berasal dari beberapa distribusi normal yang mendasarinya. Ini menghasilkan menyusut estimasi tinggi rata-rata per sekolah terhadap rata-rata global.

Saya merasa bahwa semua ini adalah berbagai aspek dari fenomena "penyusutan" yang sama, tetapi saya tidak yakin dan tentu saja tidak memiliki intuisi yang baik tentang hal itu. Jadi pertanyaan utama saya adalah: apakah memang ada kesamaan yang mendalam antara ketiga hal ini, atau apakah itu hanya kemiripan yang dangkal? Apa tema umum di sini? Apa intuisi yang benar tentang itu?

Selain itu, berikut adalah beberapa potongan puzzle yang tidak cocok untuk saya:

  • Dalam regresi ridge, β tidak menyusut secara seragam; penyusutan ridge sebenarnya terkait dengan dekomposisi nilai singular X , dengan arah varians rendah semakin menyusut (lihat misalnya Elemen Pembelajaran Statistik 3.4.1). Tetapi estimator James-Stein hanya mengambil mean sampel dan mengalikannya dengan satu faktor penskalaan. Bagaimana itu cocok?

    Pembaruan: lihat Penaksir James-Stein dengan varians yang tidak sama dan misalnya di sini mengenai varian koefisien β .

  • Sampel rata-rata optimal dalam dimensi di bawah 3. Apakah itu berarti bahwa ketika hanya ada satu atau dua prediktor dalam model regresi, regresi ridge akan selalu lebih buruk daripada kuadrat terkecil biasa? Sebenarnya, kalau dipikir-pikir, saya tidak bisa membayangkan situasi di 1D (yaitu sederhana, regresi non-multiple) di mana penyusutan ridge akan bermanfaat ...

    Pembaruan: Tidak. Lihat Di bawah kondisi apa regresi ridge dapat memberikan peningkatan dibandingkan regresi kuadrat terkecil biasa?

  • Di sisi lain, mean sampel selalu suboptimal dalam dimensi di atas 3. Apakah itu berarti bahwa dengan lebih dari 3 prediktor, regresi ridge selalu lebih baik daripada OLS, bahkan jika semua prediktor tidak berkorelasi (ortogonal)? Biasanya regresi ridge dimotivasi oleh multikolinieritas dan kebutuhan untuk "menstabilkan" istilah.(XX)1

    Perbarui: Ya! Lihat utas yang sama seperti di atas.

  • Sering ada beberapa diskusi panas tentang apakah berbagai faktor dalam ANOVA harus dimasukkan sebagai efek tetap atau acak. Bukankah kita, dengan logika yang sama, selalu memperlakukan faktor sebagai acak jika memiliki lebih dari dua level (atau jika ada lebih dari dua faktor? Sekarang saya bingung)?

    Memperbarui: ?


Pembaruan: Saya mendapat beberapa jawaban yang bagus, tetapi tidak ada yang memberikan gambaran besar, jadi saya akan membiarkan pertanyaan "terbuka". Saya bisa berjanji untuk memberikan hadiah setidaknya 100 poin untuk jawaban baru yang akan melampaui yang sudah ada. Saya kebanyakan mencari pandangan pemersatu yang bisa menjelaskan bagaimana fenomena umum susut memanifestasikan dirinya dalam berbagai konteks ini dan menunjukkan perbedaan utama di antara mereka.

amuba kata Reinstate Monica
sumber
Pemahaman saya adalah bahwa regresi ridge (dan sepupunya seperti Lasso dan jaring elastis) menyusut koefisien untuk variabel berkorelasi yang dibagi oleh semua pengamatan dalam regresi (misalnya, status sosial ekonomi siswa dan IPK) sementara model efek acak melakukan penyusutan pada koefisien untuk tingkat yang saling eksklusif atau kelompok pengamatan berkorelasi (seperti status sosial ekonomi siswa siswa dikelompokkan berdasarkan id sekolah).
RobertF
3
Saya pikir tempat terbaik untuk mendapatkan jawaban pemersatu adalah dengan melihat kata kunci BLUP (untuk Best Linear Unlimited Predictor) esp. dalam literatur pemuliaan hewan. Lihat misalnya survei Robinson dalam Ilmu Statistik. Atau buku
Xi'an
2
@ Xi'an: Terima kasih banyak, saya sudah menemukan buku Gruber sendiri, dan meskipun dia banyak membahas James-Stein dan regresi ridge, saya tidak segera menemukan perbandingan langsung dari keduanya (membaca seluruh buku adalah bukan pilihan bagi saya sekarang ...). Terima kasih atas tautan ke survei Robinson, saya akan memeriksanya; pembiakan hewan ! siapa sangka. Ngomong-ngomong, saya telah melihat komentar Anda di utas terkait, dan tebak bahwa Anda mungkin salah satu dari orang-orang yang benar-benar dapat memberikan jawaban yang memuaskan di sini! Ini akan luar biasa; sejauh ini tidak ada jawaban yang membuat saya puas.
Amoeba berkata Reinstate Monica
2
@ Xi'an: Ya, komentar Anda yang sangat membantu di bawah ini membuat saya kehilangan jawaban dari Anda di sini. Ngomong-ngomong, saya mulai membaca Robinson dan menyadari bahwa "Predictor Linier Unlimited Terbaik" adalah estimator yang bias (jelas, karena menerapkan penyusutan)! Terminologi yang bagus.
Amuba mengatakan Reinstate Monica
4
Mereka pandai nama dalam pembiakan hewan: setelah Casella & George 1992 "Gibbs untuk anak-anak" harus mengubah judulnya untuk dipublikasikan, Wang & Gianola menulis pengantar "Gibbs untuk babi" pada tahun 1993 di pertemuan Asosiasi Produksi Hewan Eropa!
Xi'an

Jawaban:

30

Koneksi antara estimator James-Stein dan regresi ridge

Mari menjadi vektor dari pengamatan panjang , , estimator James-Stein adalah, Dalam hal regresi ridge, kita dapat memperkirakan melalui mana solusinya adalah Mudah untuk melihat bahwa kedua estimator itu dalam bentuk yang sama, tetapi kita perlu memperkirakannyayθmyN(θ,σ2I)

θ^JS=(1(m2)σ2y2)y.
θminθyθ2+λθ2,
θ^ridge=11+λy.
σ2 dalam estimator James-Stein, dan tentukan dalam regresi ridge melalui cross-validation.λ

Koneksi antara penaksir James-Stein dan model efek acak

Mari kita bahas model efek campuran / acak dalam genetika terlebih dahulu. Modelnya adalah Jika tidak ada efek tetap dan , model menjadi yang setara dengan pengaturan estimator James-Stein, dengan beberapa Ide Bayesian.

y=Xβ+Zθ+e,θN(0,σθ2I),eN(0,σ2I).
Z=I
y=θ+e,θN(0,σθ2I),eN(0,σ2I),

Koneksi antara model efek acak dan regresi ridge

Jika kita fokus pada model efek acak di atas, Estimasi ini setara untuk menyelesaikan masalah ketika . Buktinya dapat ditemukan di Bab 3 Pengenalan Pola dan pembelajaran mesin .

y=Zθ+e,θN(0,σθ2I),eN(0,σ2I).
minθyZθ2+λθ2
λ=σ2/σθ2

Koneksi antara model efek acak (multilevel) dan genetika

Dalam model efek acak di atas, dimensi adalah dan adalah . Jika kita membuat vektor sebagai dan mengulangi bersamaan, maka kita memiliki struktur hierarkis / berkerumun, cluster dan masing-masing dengan unit . Jika kita mundur diulangi , maka kita dapat memperoleh efek acak pada untuk masing-masing cluster, meskipun itu seperti regresi terbalik.ym×1,Zm×pZ(mp)×1,ypmvec(Z)yZy


Pengakuan : tiga poin pertama sebagian besar dipelajari dari dua artikel berbahasa Mandarin ini, 1 , 2 .

Randel
sumber
(+1) Terima kasih banyak! Ini sangat membantu, dan saya pasti akan mencari di buku ajar Bishop yang saya kenal dengan baik dan sering berkonsultasi. Saya tidak berharap menemukan apa pun pada model campuran di sana, tetapi sepertinya Bagian 3.3 "Bayesian Linear Regression" sebenarnya tentang itu, hanya menggunakan terminologi yang berbeda. Sangat bagus untuk tahu! Tapi apa pendapat Anda tentang pertanyaan-pertanyaan saya?
Amuba mengatakan Reinstate Monica
Anda memiliki terlalu banyak pertanyaan dalam pos. :) 1) Seperti yang saya jawab di atas, penaksir James-Stein dan regresi ridge adalah setara ketika tidak ada kovariat , atau hanya sebuah matriks identitas. 2,3,4) seperti @James disebutkan, jumlah prediktor ( atas) tidak harus sama dengan dimensi respons . Xpm
Randel
BTW, saya tidak bisa melihat rata-rata / rata sampel digunakan dalam estimator James-Stein, itu benar-benar mengambil estimator dan kemudian menyusut ke . y0
Randel
2
Estimasi JS dan regresi ridge berbeda. Perkiraan regresi ridge dari lokasi -dimensi p-vektor sesuai dengan matriks desain , yang akan mengarah pada perkiraan , yang tidak memiliki istilah (non-linear!) dalam penyebut JS-estimatorpIp(1+λ)1Ipyy2
Andrew M
3
Saya pikir itu semua tergantung apa yang Anda sebut penaksir ridge. Dalam arti awal Hoerl dan Kennard (1970), memang tidak ada ketergantungan pada data. Dalam pengertian selanjutnya dari tesis PhD Casella (1978), penentuan manual digantikan oleh fungsi dari jumlah residu kuadrat. λλ
Xi'an
6

Saya akan meninggalkannya sebagai latihan bagi masyarakat untuk menyempurnakan jawaban ini, tetapi secara umum alasan mengapa estimator penyusutan akan * mendominasi * estimator yang tidak bias dalam sampel terbatas adalah karena Bayes estimator tidak dapat didominasi , dan banyak penaksir penyusutan dapat diturunkan sebagai Bayes. 1234

Semua ini berada di bawah naungan Teori Keputusan. Referensi lengkap, tetapi agak tidak ramah adalah "Teori estimasi titik" oleh Lehmann dan Casella. Mungkin orang lain bisa berpadu dengan referensi yang lebih ramah?


1 Sebuah estimator dari parameter data yang didominasi oleh yang lain estimator jika untuk setiap Risiko (misalnya, rata-rata Square Error) dari sama atau lebih besar dari , dan mengalahkan untuk setidaknya satu . Dengan kata lain, Anda mendapatkan kinerja yang sama atau lebih baik untuk di mana saja di ruang parameter.δ1(X)θΩXδ2(X)θΩδ1δ2δ2δ1θδ2

2 Estimator adalah Bayes (di bawah kuadrat-kesalahan kerugian) jika itu adalah harapan posterior dari , mengingat data, di bawah beberapa sebelumnya , misalnya, , di mana harapan diambil dengan posterior. Secara alami, berbagai prior menyebabkan risiko yang berbeda untuk himpunan bagian . Contoh mainan penting adalah prior yang menempatkan semua sebelumnya massa tentang titik . Kemudian Anda dapat menunjukkan bahwa estimator Bayes adalah fungsi konstanθπδ(X)=E(θ|X)Ω

πθ0={1if θ=θ00θθ0
θ0δ(X)=θ0, yang tentu saja memiliki kinerja yang sangat bagus di dan dekat , dan kinerja yang sangat buruk di tempat lain. Namun demikian, itu tidak dapat didominasi, karena hanya estimator yang mengarah ke risiko nol pada .θ0θ0

3 Pertanyaan alami adalah apakah ada penduga yang tidak dapat dikuasai (disebut dapat diterima , meskipun bukankah lebih gigih?) Perlu Bayes? Jawabannya hampir. Lihat "teorema kelas lengkap."

4 Misalnya, regresi ridge muncul sebagai prosedur Bayesian ketika Anda menempatkan Normal (0, ) sebelum , dan model efek acak muncul sebagai prosedur Bayesian empiris dalam kerangka kerja yang sama . Argumen-argumen ini diperumit oleh fakta bahwa versi vanilla dari teorema penerimaan Bayesian mengasumsikan bahwa setiap parameter memiliki hak sebelumnya yang ditempatkan di atasnya. Bahkan dalam regresi ridge, itu tidak benar, karena "prior" ditempatkan pada variance1/λ2βσ2istilah kesalahan adalah fungsi konstan (ukuran Lebesgue), yang bukan distribusi probabilitas (integrable) yang tepat. Namun demikian, banyak penaksir Bayes yang "sebagian" seperti itu dapat dibuktikan dapat diterima dengan menunjukkan bahwa mereka adalah "batas" dari urutan penaksir yang merupakan Bayes yang tepat. Tapi bukti di sini agak berbelit-belit dan rumit. Lihat "penaksir bayes umum".

Andrew M
sumber
1
Terima kasih banyak, sangat menarik (+1). Saya hanya bisa berharap jawaban Anda lebih terinci ... Apakah catatan kaki Anda (3): apakah Anda mengatakan bahwa semua penaksir Bayes dapat diterima / gigih (saya suka kata), terlepas dari yang sebelumnya? Tetapi estimator James-Stein dapat diturunkan dari Bayes empiris; mengapa itu tidak dapat diterima? Juga, itu akan berarti bahwa misalnya dalam regresi ridge saya dapat mengambil konsentrat sebelumnya tidak sekitar nol, tetapi sekitar beberapa nilai lain: , dan itu masih akan menjadi strategi regularisasi yang masuk akal? βN(β0,1/λ2)
Amuba kata Reinstate Monica
2
Karena alasan penaksir James-Stein tidak dapat diterima, Anda dapat menemukan jawabannya di sini . Ada juga diskusi yang terperinci dan menarik dalam Lehmann & Casella (1998), Theory of Point Estimation .
Randel
@Randel: ya, saya tahu itu tidak dapat diterima dan telah melihat alasan itu, saya hanya ingin tahu bagaimana itu cocok dengan pernyataan Andrew (mengingat saya memahaminya dengan benar) bahwa semua penaksir Bayes dapat diterima, karena James-Stein dapat dipahami melalui Empiris Bayes ...
amoeba berkata Reinstate Monica
2
@Amoeba: ya, setiap penaksir Bayes yang merupakan posterior di bawah setiap petunjuk sebelumnya yang tepat untuk estimator yang dapat diterima. Sejauh Bayes empiris berjalan, prosedur seperti itu sebenarnya bukan bonafide Bayes, karena memiliki ketergantungan sebelumnya pada data dapat menyebabkan patologi. Kadang-kadang mereka dapat dianggap dapat diterima, kadang-kadang tidak - biasanya Anda harus bekerja kasus per kasus. Saya telah mengedit jawaban saya untuk menjadi sedikit lebih cerdik dalam hal ini, karena pada kenyataannya saya tidak tahu apakah model campuran linier klasik dapat diterima!
Andrew M
3
Hanya perlu menunjukkan bahwa penaksir Bayes asli yang tepat jarang berfungsi sebagai penaksir James-Stein karena tidak minimax. Misalnya, Bill Strawderman menunjukkan (pada 1975) bahwa tidak ada penaksir minimum Bayes yang tepat dalam dimensi kurang dari 5 untuk masalah rata-rata normal yang mengatur semuanya.
Xi'an
2
  • James-Stein mengasumsikan bahwa dimensi respons setidaknya 3. Dalam regresi ridge standar responsnya adalah satu dimensi. Anda mengacaukan jumlah prediktor dengan dimensi respons.

  • Yang sedang berkata, saya melihat kesamaan di antara situasi-situasi itu, tetapi apa yang harus dilakukan, misalnya apakah suatu faktor harus diperbaiki atau acak, berapa banyak penyusutan untuk diterapkan, jika sama sekali, tergantung pada dataset tertentu. Misalnya, semakin ortogonal prediktornya, semakin tidak masuk akal untuk memilih regresi Ridge daripada regresi standar. Semakin besar jumlah parameter, semakin masuk akal untuk mengekstrak sebelumnya dari dataset itu sendiri melalui Empirical Bayes dan kemudian menggunakannya untuk mengecilkan estimasi parameter. Semakin tinggi rasio signal-to-noise, semakin kecil manfaat penyusutan, dll.

James
sumber
Terima kasih atas jawabannya. Mengenai peluru pertama Anda: tetapi apa yang menyusut dalam regresi ridge adalah , yang memiliki dimensi sebanyak prediksi, bukan? β
Amuba kata Reinstate Monica
1
Ok, maka dalam teori JS harus bekerja lebih baik, dengan asumsi bahwa ia telah diperluas ke kasus ketika MSE diperkirakan dan matriks varians-kovarians beta adalah arbitrer. Dalam hal ini, JS tidak akan hanya mengambil estimasi titik beta dan mengalikannya dengan faktor penskalaan. Serupa dengan Ridge Regression, komponen beta yang berbeda akan menyusut secara berbeda.
James
Poin yang sangat bagus tentang matriks kovarians dari ! Saya kira jawaban ini (setidaknya secara intuitif) peluru pertama saya. β
Amuba mengatakan Reinstate Monica
2
@ James: model linier dapat dianggap memproyeksikan sampel (yang hidup dalam ) ke subruang dimensi (kolom yang direntang oleh matriks desain.) Secara khusus, kita selalu bisa dengan mudah memproyeksikannya ke identitas, yang sama dengan menggunakan mean sampel dari vektor ketika Anda hanya memiliki satu pengamatan. Rnpn
Andrew M
2

Seperti yang dikatakan orang lain, hubungan antara ketiganya adalah bagaimana Anda memasukkan informasi sebelumnya ke dalam pengukuran.

  1. Dalam kasus paradoks Stein, Anda tahu bahwa korelasi sebenarnya antara variabel input harus nol (dan semua ukuran korelasi yang mungkin, karena Anda ingin menyiratkan independensi, bukan hanya ketidakkaitan), maka Anda dapat membangun variabel lebih baik daripada yang sederhana sampel berarti dan menekan berbagai ukuran korelasi. Dalam kerangka Bayesian, Anda dapat membuat sebelum yang benar-benar membebani peristiwa yang mengarah ke korelasi antara rata-rata sampel dan naik menimbang yang lain.
  2. Dalam kasus regresi ridge Anda ingin menemukan estimasi yang bagus untuk nilai ekspektasi bersyarat E (y | x). Pada prinsipnya ini adalah masalah dimensi tak terbatas dan tidak jelas karena kita hanya memiliki jumlah pengukuran terbatas. Namun, pengetahuan sebelumnya adalah bahwa kami mencari fungsi berkelanjutan yang memodelkan data. Ini masih tidak jelas, karena masih banyak cara untuk memodelkan fungsi berkelanjutan, tetapi himpunannya agak lebih kecil. Regresi punggungan hanyalah salah satu cara sederhana untuk mengurutkan fungsi kontinu yang mungkin, mengujinya dan berhenti pada tingkat kebebasan akhir. Sebuah interpretasi adalah gambar dimensi VC: selama regresi ridge, Anda memeriksa bahwa seberapa baik model af (x, p1, p2 ...) dengan derajat kebebasan tertentu menggambarkan ketidakpastian yang melekat dalam data. Secara praktis, ini mengukur seberapa baik f ​​(x, p1, p2 ... ) dan P empiris (p1, p2 ...) dapat merekonstruksi penuh P (y | x) distribusi dan bukan hanya E (y | x). Dengan cara ini, model-model dengan tingkat kebebasan yang terlalu banyak (yang biasanya tidak sesuai) ditimbang, karena lebih banyak parameter berarti setelah derajat kebebasan tertentu akan memberikan korelasi yang lebih besar antara parameter dan akibatnya P yang lebih luas (f (x, p1, p2. ..)) distribusi. Interpretasi lain adalah bahwa fungsi kerugian asli adalah nilai ukuran juga, dan itu evaluasi pada sampel yang diberikan datang dengan ketidakpastian, sehingga tugas sebenarnya bukan meminimalkan fungsi kerugian tetapi untuk menemukan minimum yang secara signifikan lebih rendah daripada yang lain (praktis berubah dari satu derajat kebebasan ke yang lain adalah keputusan Bayesian, jadi seseorang mengubah jumlah parameter hanya jika mereka memberikan penurunan yang signifikan dalam fungsi kerugian). Regresi ridge dapat diartikan sebagai perkiraan untuk dua gambar ini (dimensi-CV, kerugian yang diharapkan). Dalam beberapa kasus Anda ingin lebih memilih derajat kebebasan yang lebih tinggi, misalnya dalam fisika partikel Anda mempelajari tumbukan partikel di mana Anda mengharapkan jumlah partikel yang dihasilkan menjadi distribusi Poisson, sehingga Anda merekonstruksi trek partikel dari pada gambar (foto misalnya ) dengan cara yang lebih suka jumlah trek yang diberikan dan menekan model yang memiliki interpretasi nomor trek yang lebih kecil atau lebih tinggi dari gambar.
  3. Kasus ketiga juga mencoba menerapkan informasi sebelumnya ke dalam pengukuran, yaitu diketahui dari pengukuran sebelumnya bahwa tinggi siswa dapat dimodelkan dengan sangat baik oleh distribusi Gaussian dan bukan oleh Cauchy, misalnya.

Jadi singkatnya, jawabannya adalah Anda dapat mengecilkan ketidakpastian pengukuran jika Anda tahu apa yang diharapkan dan mengelompokkan data dengan beberapa data sebelumnya (informasi sebelumnya). Data sebelumnya inilah yang membatasi fungsi pemodelan Anda yang Anda gunakan agar sesuai dengan pengukuran. Dalam kasus-kasus sederhana, Anda dapat menuliskan model Anda dalam kerangka Bayesian, tetapi kadang-kadang tidak praktis, seperti dalam mengintegrasikan semua fungsi berkesinambungan yang mungkin untuk menemukan satu yang memiliki nilai Posterior Bayesian Maximal A Posterior.

Peter Kövesárki
sumber
2

Estimator James Stein dan regresi Ridge

Mempertimbangkan

y=Xβ+ϵ

Dengan ϵN(0,σ2I)

Solusi kuadrat terkecil adalah dari bentuk

β^=S1Xy di mana .S=XX

β^ tidak bias untuk dan memiliki matriks kovrians . Karena itu kita bisa menulisβσ2S1

β^N(β,σ2S1) Perhatikan bahwa adalah perkiraan kemungkinan maksimum, MLE.β^

James Stein

Untuk kesederhanaan untuk Jame Stein kami akan menganggap . James dan Stein kemudian akan menambahkan prior pada , dari formulirS=Iβ

βN(0,aI)

Dan akan mendapatkan posterior dari formulir , mereka kemudian akan memperkirakan dengan dan mendapatkan penduga bentuk James Steinaa+σ2β^=(1σ2a+σ2)β^1a+σ2p2β^2

β^=(1p2β^2)β^ .

Regresi Punggung

Dalam regresi ridge biasanya standar (rata-rata 0, vairance 1 untuk setiap kolom ) sehingga parameter regresi dapat dibandingkan. Ketika ini adalah untuk .XXβ=(β1,β2,,βp)Sii=1i=1,2,,p

Perkiraan regresi ridge dari didefinisikan sebagai, , menjadiβλ0

β^(λ)=(S+λI)1Xy=(S+λI)1Sβ^ perhatikan bahwa adalah MLE.β^

Bagaimana diturunkan ?? Penarikanβ^(λ)

β^N(β^,σ2S1) dan jika kita menambahkan Bayesian sebelumnya

βN(0,σ2λI)

Lalu kita dapatkan

E(β|β^)=(S+λI)1Sβ^

Sama seperti estimasi regresi ridge . Jadi bentuk asli dari James Stein yang diberikan di sini mengambil dan .β^(λ)S=Ia=σ2λ

Chamberlain Foncha
sumber