Apakah penaksir yang tidak konsisten lebih disukai?

22

Konsistensi jelas merupakan penaksir properti yang alami dan penting, tetapi adakah situasi di mana mungkin lebih baik menggunakan penaksir yang tidak konsisten daripada yang konsisten?

Lebih khusus lagi, adakah contoh estimator yang tidak konsisten yang mengungguli estimator konsisten yang masuk akal untuk semua n terbatasn (sehubungan dengan beberapa fungsi kerugian cocok)?

MånsT
sumber
1
Ada tradeoff yang menarik dalam kinerja antara konsistensi pemilihan model dan konsistensi parameter dalam masalah estimasi menggunakan laso dan varian (banyak!). Ini terperinci, misalnya, dalam teks terbaru Bühlmann dan van der Geer.
kardinal
Bukankah argumen dalam jawaban saya, yang sekarang dihapus, masih berlaku? Yaitu: dalam sampel kecil lebih baik untuk memiliki penduga yang tidak bias dengan varians rendah. Atau dapatkah seseorang menunjukkan bahwa estimator yang konsisten selalu memiliki varians yang lebih rendah daripada estimator yang tidak bias lainnya?
Bob Jansen
Mungkin, @Bootvis! Apakah Anda memiliki contoh estimator yang tidak konsisten dengan MSE rendah?
MånsT
3
@ Bootoot: Jika Anda kebetulan melihat komentar ekstensif pada jawaban atas pertanyaan terakhir yang menanyakan tentang konsistensi vs. ketidakberpihakan, Anda akan melihat bahwa penaksir yang konsisten dapat memiliki perilaku liar sewenang-wenang baik dari varians dan bias (bahkan, secara bersamaan!) . Itu harus menghapus semua keraguan tentang komentar Anda.
kardinal
Saya pikir saya punya dari salah satu dari dua buku tetapi ternyata saya juga salah tentang itu! Contohnya tidak dapat ditemukan. @ cardinal: Kedengarannya menarik, akan memeriksanya
Bob Jansen

Jawaban:

25

Jawaban ini menjelaskan masalah yang realistis di mana penduga konsisten alami didominasi (mengungguli semua nilai parameter yang mungkin untuk semua ukuran sampel) oleh penduga tidak konsisten. Dimotivasi oleh gagasan bahwa konsistensi paling cocok untuk kerugian kuadratik, jadi menggunakan kerugian yang sangat berbeda dari itu (seperti kerugian asimetris) harus membuat konsistensi hampir tidak berguna dalam mengevaluasi kinerja estimator.


Misalkan klien Anda ingin memperkirakan rata-rata variabel (diasumsikan memiliki distribusi simetris) dari sampel iid (x1,,xn) , tetapi mereka menolak baik (a) meremehkannya atau (b) terlalu melebih-lebihkan saya t.

Untuk melihat bagaimana ini bisa berjalan, mari kita mengadopsi fungsi kerugian sederhana, memahami bahwa dalam praktiknya kerugian mungkin berbeda dari yang satu ini secara kuantitatif (tetapi tidak secara kualitatif). Pilih satuan pengukuran sehingga adalah estimasi berlebihan terbesar yang dapat ditoleransi dan atur kehilangan estimasi t ketika mean sebenarnya adalah μ untuk sama dengan 0 setiap kali μ t μ + 1 dan sama dengan 11tμ0μtμ+11 jika tidak.

Perhitungannya khususnya sederhana untuk keluarga distribusi normal dengan mean dan varians σ 2 > 0 , untuk kemudian sampel rata-rata ˉ x = 1μσ2>0memilikidistribusiNormal(μ,σ2/n). Sampel rata-rata adalah penaksir konsistenμ, seperti yang diketahui (dan jelas). MenulisΦuntuk CDF normal baku, hilangnya diharapkan dari mean sampel sama dengan1/2+Φ(-x¯=1nixi(μ,σ2/n)μΦ:1/2berasal dari kesempatan 50% bahwa mean sampel akan meremehkan berarti benar danΦ(-1/2+Φ(n/σ)1/2berasal dari kemungkinan melebih-lebihkan mean yang sebenarnya lebih dari1.Φ(n/σ)1

Losses

Kehilangan yang diharapkan dari sama dengan area biru di bawah standar PDF normal ini. Area merah memberikan perkiraan kehilangan penduga alternatif, di bawah ini. Mereka berbeda dengan mengganti area biru pekat antara - x¯dan0oleh area merah solid yang lebih kecil antaran/(2σ)0dann/(2σ). Perbedaan itu tumbuh denganmeningkatnyan.n/σn

x¯+1/22Φ(n/(2σ))1/20nnμ+1/2μ

Loss functions

x¯x¯+1/2n

whuber
sumber
2
L.2L.2
5
@ Macro Pemikiran ini agak tidak langsung dan tidak dimaksudkan untuk menjadi keras tapi saya percaya itu alami: kerugian kuadratik menyiratkan meminimalkan varians yang (melalui Chebyshev) mengarah pada konvergensi dalam probabilitas. Karenanya, heuristik untuk menemukan sampel tandingan harus fokus pada kerugian yang jauh dari kuadrat sehingga manipulasi semacam itu tidak berhasil.
Whuber
1
Saya tidak mengerti dasar dari komentar Anda, @Michael: lihat gambar terakhir. Kerugian yang diperkirakan untuk estimator konsisten berkurang menjadi1/2 sedangkan estimator yang tidak konsisten berkurang (secara eksponensial) menjadi 0: dengan demikian secara eksponensial lebih baik daripada yang konsisten sepertintumbuh besar.
Whuber
3
@ Michael OKE, terima kasih sudah menjelaskannya. Dalam konteks ini, dengan kerugian non-kuadrat, "keuntungan" tidak dinyatakan sebagai bias. Orang mungkin mengkritik fungsi kerugian ini, tetapi saya tidak ingin langsung menolaknya: ia memodelkan situasi di mana, misalnya, data pengukuran dari barang yang diproduksi dengan toleransi tertentu dan itu akan menjadi bencana (seperti pada kegagalan Shuttle o-ring) atau kebangkrutan bisnis) karena alasan sebenarnya berada di luar toleransi itu.
whuber
1
(+1) Jawaban bagus, @whuber! Saya terutama suka itu tidak terasa terlalu patologis - saya bisa memikirkan banyak situasi di mana jenis kerugian ini akan berlaku.
MånsT