Untuk model apa bias MLE jatuh lebih cepat dari varians?

14

θ^θnθ^θO(1/n)Eθ^θEθ^θ^O(1/n)

Saya tertarik pada model yang memiliki bias yang menyusut lebih cepat dari O(1/n) , tetapi di mana kesalahan tidak menyusut pada tingkat yang lebih cepat ini karena penyimpangan masih menyusut sebagai O(1/n) . Secara khusus, saya ingin mengetahui kondisi yang cukup untuk bias model menyusut pada tingkat O(1/n) .

Mike Izbicki
sumber
Apakah θ^θ=(θ^θ)2 ? Atau?
Alecos Papadopoulos
Saya secara khusus bertanya tentang norma L2, ya. Tetapi saya juga tertarik pada norma-norma lain jika itu membuat pertanyaan lebih mudah dijawab.
Mike Izbicki
(θ^θ)2 adalah Op(1/n) .
Alecos Papadopoulos
Maaf, saya salah membaca komentar Anda. Untuk norma L2 dalam dimensi , , dan konvergensi berada pada tingkat . Saya setuju bahwa jika kita kuadratkan maka itu akan menyatu sebagai . dab=i=1d(aibi)2O(1/n)O(1/n)
Mike Izbicki
Pernahkah Anda melihat kertas regresi ridge (Hoerl & Kennard 1970)? Saya percaya ini memberikan kondisi pada desain matriks + penalti di mana ini diharapkan benar.
dcl

Jawaban:

5

Secara umum, Anda memerlukan model di mana MLE tidak normal asimptotik tetapi menyatu ke beberapa distribusi lain (dan melakukannya pada kecepatan yang lebih cepat). Ini biasanya terjadi ketika parameter yang diestimasi berada pada batas ruang parameter. Secara intuitif, ini berarti bahwa MLE akan mendekati parameter "hanya dari satu sisi", sehingga "meningkatkan kecepatan konvergensi" karena tidak "terganggu" dengan "bolak-balik" di sekitar parameter.

Contoh standar, adalah MLE untuk dalam sampel iid dari seragam rv. MLE di sini adalah statistik urutan maksimum,θU(0,θ)

θ^n=u(n)

Distribusi sampelnya terbatas

Fθ^n=(θ^n)nθn,fθ^=n(θ^n)n1θn

E(θ^n)=nn+1θB(θ^)=1n+1θ

Jadi . Tetapi tingkat kenaikan yang sama akan berlaku juga untuk varians.B(θ^n)=O(1/n)

Kita juga dapat memverifikasi bahwa untuk mendapatkan distribusi terbatas, kita perlu melihat variabel , (yaitu kita perlu menskala dengan ) karenann(θθ^n)n

P[n(θθ^n)z]=1P[θ^nθ(z/n)]

=11θn(θ+zn)n=1θnθn(1+z/θn)n

1ez/θ

yang merupakan CDF dari distribusi Eksponensial.

Saya harap ini memberikan arahan.

Alecos Papadopoulos
sumber
Ini semakin dekat, tapi saya secara khusus tertarik pada situasi di mana bias menyusut lebih cepat daripada varians.
Mike Izbicki
2
@MikeIzbicki Hmm ... konvergensi bias tergantung pada momen pertama dari distribusi, dan varians (akar kuadrat dari) varians juga besarnya "urutan pertama". Saya tidak yakin kemudian bahwa ini mungkin terjadi, karena tampaknya itu akan menyiratkan bahwa saat-saat distribusi terbatas "muncul" pada tingkat konvergensi yang tidak kompatibel satu sama lain ... Saya akan memikirkannya.
Alecos Papadopoulos
2

Mengikuti komentar dalam jawaban saya yang lain (dan melihat kembali judul pertanyaan OP!), Berikut ini adalah eksplorasi teoretis yang tidak terlalu ketat tentang masalah ini.

Kami ingin menentukan apakah Bias mungkin memiliki tingkat konvergensi yang berbeda dari akar kuadrat dari Variance,B(θ^n)=E(θ^n)θ

B(θ^n)=O(1/nδ),Var(θ^n)=O(1/nγ),γδ???

Kita punya

B(θ^n)=O(1/nδ)limnδE(θ^n)<Klimn2δ[E(θ^n)]2<K

(1)[E(θ^n)]2=O(1/n2δ)

sementara

Var(θ^n)=O(1/nγ)limnγE(θ^n2)[E(θ^n)]2<M

limn2γE(θ^n2)n2γ[E(θ^n)]2<M

(2)limn2γE(θ^n2)limn2γ[E(θ^n)]2<M

Kami melihat bahwa mungkin terjadi jika (2)

A) kedua komponennya adalah , dalam hal ini kita hanya dapat memiliki . O(1/n2γ)γ=δ

B) Tetapi mungkin juga berlaku jika

(3)limn2γ[E(θ^n)]20[E(θ^n)]2=o(1/n2γ)

Agar kompatibel dengan , kita harus memilikinya(3)(1)

(4)n2γ<n2δδ>γ

Jadi tampaknya pada prinsipnya dimungkinkan untuk memiliki Bias yang konvergen pada laju yang lebih cepat daripada akar kuadrat varians. Tetapi kita tidak bisa memiliki akar kuadrat dari varians yang konvergen pada laju yang lebih cepat daripada Bias.

Alecos Papadopoulos
sumber
Bagaimana Anda mendamaikan ini dengan keberadaan estimator yang tidak bias seperti kuadrat biasa? Dalam hal ini, , tetapi . B(θ^)=0Var(θ^)=O(1/n)
Mike Izbicki
@MikeIzbicki Apakah konsep konvergensi / big-O berlaku dalam kasus ini? Karena di sini bukan " -apa pun" untuk memulai. B(θ^)O()
Alecos Papadopoulos
Dalam hal ini, , jadi . Eθ^=θB(θ^)=Eθ^θ=0=O(1)=O(1/n0)
Mike Izbicki
@MikeIzbicki Tetapi juga atau atau yang lain yang ingin Anda tuliskan. Jadi yang mana tingkat konvergensi di sini? B(θ^)=O(n)B(θ^)=O(1/n)
Alecos Papadopoulos
@MikeIzbicki Saya telah mengoreksi jawaban saya untuk menunjukkan bahwa mungkin pada prinsipnya untuk memiliki Bias lebih cepat, walaupun saya masih berpikir contoh "nol-bias" bermasalah.
Alecos Papadopoulos