Jika susut diterapkan dengan cara yang cerdas, apakah itu selalu bekerja lebih baik untuk penduga yang lebih efisien?

11

Misalkan saya memiliki dua estimator dan yang merupakan estimator konsisten dari parameter yang sama dan sedemikian rupa sehingga dengan dalam arti psd. Dengan demikian, asymptotically lebih efisien daripada . Kedua penaksir ini didasarkan pada fungsi kerugian yang berbeda. β 2β0β^1β^2β0V1V2 β 1 β 2

n(β^1β0)dN(0,V1),n(β^2β0)dN(0,V2)
V1V2β^1β^2

Sekarang saya ingin mencari beberapa teknik penyusutan untuk meningkatkan properti sampel terbatas dari estimator saya.

Misalkan saya menemukan teknik penyusutan yang meningkatkan estimator dalam sampel hingga dan memberi saya nilai MSE sama dengan . Apakah ini menyiratkan bahwa saya dapat menemukan teknik penyusutan yang cocok untuk diterapkan pada yang akan memberi saya MSE tidak lebih besar dari ? γ 2 β 1β^2γ^2β^1 γ^2

Dengan kata lain, jika susut diterapkan secara cerdik, apakah ia selalu bekerja lebih baik untuk penduga yang lebih efisien?

Alik
sumber

Jawaban:

4

Izinkan saya menyarankan contoh tandingan yang sedikit membosankan. Mengatakan bahwa β 1 tidak hanya asimtotik lebih efisien daripada β 2 , tetapi juga mencapai yang Cramer Rao Bawah Bound. Sebuah teknik penyusutan pintar untuk β 2 akan menjadi: β * 2 = w β 2 + ( 1 - w ) β 1 dengan w ( 0 , 1 ) . The asymptotic variance dari β * 2β^1β^2β^2

β^2=wβ^2+(1w)β^1
w(0,1)β^2adalah mana persamaan terakhir menggunakan Lemma in
V=Avar(wβ^2+(1w)β^1)=Avar(w(β^2β^1)+β^1)=V1+w2(V2V1)
Kertas Hausman . Kami memiliki sehingga ada peningkatan risiko asimptotik (tidak ada istilah bias). Jadi kami menemukan teknik penyusutan yang memberikan beberapa asimtotik (dan sampel oleh karena itu mudah-mudahan terbatas) perbaikan atas β 2 . Namun, tidak ada penyusutan estimator yang sama β * 1 yang mengikuti dari prosedur ini.
V2V=V2(1w2)V1(1w2)0
β^2β^1

Intinya di sini tentu saja adalah bahwa penyusutan dilakukan terhadap estimator yang efisien dan oleh karena itu tidak berlaku untuk estimator yang efisien itu sendiri. Ini kelihatannya cukup jelas pada level tinggi tetapi saya akan menebak bahwa dalam contoh spesifik ini tidak begitu jelas ( penaksir MLE dan Method of Moments untuk distribusi yang seragam dapat menjadi contoh?).

Matthias Schmidtblaicher
sumber
1
Terima kasih atas contoh yang menarik! (1) Namun, itu tidak jelas bagi saya bahwa ini harus dianggap sebagai contoh counter: itu baik asimtotik dan tidak menunjukkan bahwa β 1 tidak dapat ditingkatkan untuk memiliki risiko yang sama atau lebih rendah. (Bahkan, Anda β * 2 secara otomatis telah, di terbaik, risiko yang sama seperti β 1 .) Dalam rangka memberikan counterexample, risiko estimator dimodifikasi β * 2 akan harus kurang dari risiko β 1 , dan itu tidak jelas bahwa ini adalah mungkin dengan skema ini. β^1β^2β^1β^2β^1
user795305
Terima kasih dan poin diambil. Mari saya namun menunjukkan bahwa tempat di pertanyaan itu itu ditentukan bahwa MSE dari modifikasi β 2 akan harus lebih rendah dari β 1 . Jadi ß2 adalah teknik penyusutan berlaku dalam konteks ini. Tetapi saya setuju bahwa ini hanya sebagian jawaban dan saya berharap untuk melihat apa yang orang lain katakan tentang pertanyaan ini. β^2β^1β^2
Matthias Schmidtblaicher
1
Dalam paragraf yang dimulai "Misalkan saya telah menemukan ...", OP tampaknya menentukan itu. Apakah saya salah paham? Dalam apa yang berikut, biarkan bintang melambangkan estimator dimodifikasi sehingga β * j = f j ( β j ) untuk beberapa (mungkin susut) fungsi f j . Misalkan kita menemukan β * 2 sehingga r i s k ( β 2 ) r i s k ( β * 2 )β^j=fj(β^j)fjβ^2risk(β^2)risk(β^2). Dalam ayat direferensikan, OP bertanya apakah kita dapat menemukan beberapa sehingga r i s k ( β * 1 ) r i s k ( β * 2 ) . f1risk(β^1)risk(β^2)
user795305
Saya melihat. Jika ini pertanyaannya, hanyalah identitas dan jawabannya afirmatif dalam contoh. Saya membaca pertanyaan seperti "Jika kita dapat menemukan fungsi f ( β , x ) sehingga r i s k ( f ( β 2 , x ) ) < r i s k ( β 2 ) , apakah terdapat sebuah g ( β , x ) sehingga r i s kf1f(β,x)risk(f(β^2,x))<risk(β^2)g(β,x) "?risk(g(β^1,x))<risk(β^1)
Matthias Schmidtblaicher
1
terima kasih telah berbagi kredit ini, meskipun saya tidak benar-benar menjawab pertanyaan Anda ...
Matthias Schmidtblaicher
-2

Ini adalah pertanyaan yang menarik di mana saya ingin menunjukkan beberapa highlight terlebih dahulu.

  • Dua estimator konsisten
  • lebih efisien daripada β 2karena mencapai kurang variasiβ^1β^2
  • Fungsi kerugian tidak sama
  • satu metode susut diterapkan untuk satu sehingga mengurangi variasi yang dengan sendirinya menghasilkan estimator yang lebih baik
  • Pertanyaan : Dengan kata lain, jika susut diterapkan secara cerdik, apakah ia selalu bekerja lebih baik untuk penduga yang lebih efisien?

Pada dasarnya, adalah mungkin untuk meningkatkan penduga dalam kerangka kerja tertentu, seperti kelas penduga yang tidak bias. Namun, seperti yang ditunjukkan oleh Anda, fungsi kerugian yang berbeda membuat situasi menjadi sulit karena satu fungsi kerugian dapat meminimalkan kerugian kuadratik dan yang lainnya meminimalkan entropi. Selain itu, menggunakan kata "selalu" sangat sulit karena jika satu penaksir adalah yang terbaik di kelas, Anda tidak dapat mengklaim penaksir yang lebih baik, secara logis.

Sebagai contoh sederhana (dalam rangka yang sama), biarkan dua penduga, yaitu (regresi dihukum dengan Bridge penalti norma) dan Lasso (norma pertama dihukum kemungkinan) dan satu set jarang parameter yaitu β , model linear y = x β + e , normalitas istilah kesalahan, e N ( 0 , σ 2 < ) , dikenal σ , fungsi kehilangan kuadratik (kesalahan kuadrat terkecil), dan independensi kovariat dalam x . Mari pilih l p untuk p = 3lpβy=xβ+eeN(0,σ2<)σxlpp=3untuk estimator pertama dan untuk estimator kedua. Kemudian Anda dapat meningkatkan estimator dengan memilih p 1 yang menghasilkan estimator yang lebih baik dengan varian yang lebih rendah. Maka dalam contoh ini ada kemungkinan meningkatkan penduga.p=2p1

Jadi jawaban saya untuk pertanyaan Anda adalah ya, mengingat Anda mengasumsikan keluarga estimator yang sama dan fungsi kerugian yang sama serta asumsi.

TPArrow
sumber
p1p=3p=2p
lpl1
β^1β^2pj{1,2}p=2,3α^jp=argminααβ^j22+λαpj{1,2}p=2,3
user795305
terima kasih @ Ben, saya merasa kita tidak memiliki konsensus dalam definisi penyusutan. Anda menganggapnya sebagai proses pasca tapi saya sebagai pemrosesan inline. Saya pikir kita berdua benar karena pertanyaannya adalah tidak mempertimbangkan jenis penyusutan. PS: Saya kira maksud Saudara susut itu seperti hard-thresholding.
TPArrow
Penyusutan dapat dilakukan secara inline dan sebagai pasca-pemrosesan. Contoh yang Anda sebutkan dalam respons Anda adalah tentang "penyusutan sebaris", sedangkan pertanyaannya tentang "susut pemrosesan pasca". Perhatikan bahwa pertanyaan memberikan dua estimator dan , lalu meminta teknik penyusutan untuk diterapkan ke atau . Saya pikir mungkin bermanfaat untuk membaca kembali pertanyaan ini. β 2 β 1 β 2β^1β^2 β^1β^2
user795305