Apakah ada penaksir yang tidak bias tentang jarak Hellinger antara dua distribusi?

20

Dalam pengaturan di mana seseorang mengamati didistribusikan dari distribusi dengan kepadatan , saya ingin tahu apakah ada penduga yang tidak bias (berdasarkan ) dari jarak Hellinger ke distribusi lain dengan kepadatan , yaitu X1,,XnfXif0

H(f,f0)={1Xf(x)f0(x)dx}1/2.
Xi'an
sumber
4
Jadi f0 dikenal dan diperbaiki. Tetapi apakah f diketahui atau dari keluarga parametrik atau sedang melakukan ini dalam kerangka nonparametrik dengan semua yang Anda ketahui tentang f berasal dari sampel Anda? Saya pikir itu membuat perbedaan ketika mencoba jawaban.
Michael R. Chernick
3
@MichaelChernick: asumsikan semua yang Anda ketahui tentang f adalah sampel X1,,Xn .
Xi'an
2
Saya tidak berpikir itu telah dihitung (jika ada). Jika ada, maka AIC memiliki saudara yang hilang.
4
Serangan pada masalah ini terlihat layak jika Anda menganggap f dan f0 adalah diskrit. Ini mengarah ke penduga yang jelas (menghitung jarak Hellinger antara EDF dan f0 ). Bootstrapping (secara teoritis, bukan melalui simulasi!) Akan memberi kita pegangan pada kemungkinan bias serta cara untuk mengurangi (atau bahkan menghilangkan) bias. Saya mengulurkan harapan untuk berhasil dengan jarak kuadrat daripada jarak itu sendiri, karena secara matematis lebih mudah ditelusuri. Asumsi diskrit f tidak ada masalah dalam aplikasi; ruang diskrit f adalah subset padat pula.
whuber
2
Terlintas dalam benak Rosenblatt's bukti bahwa tidak ada estimator yang "bonafide" yang tidak bias dari . Bolehkah kita mengatasinya dan mendapatkan estimator H yang tidak di-padamkan ( f , f 0 ) ? Saya tidak tahu fH(f,f0)
Zen

Jawaban:

5

Tidak ada estimator berisi salah satu dari atau H 2 ada untuk f dari setiap kelas nonparametrik cukup luas distribusi.HH2f

Kita dapat menunjukkan ini dengan argumen sederhana yang indah

Bickel dan Lehmann (1969). Perkiraan tidak sesuai dalam keluarga cembung . The Annals of Statistics Matematika, 40 (5) 1523-1535. ( proyek euclid )

Perbaiki beberapa distribusi , F , dan G , dengan kepadatan yang sesuai f 0 , f , dan g . Mari H ( F ) masing menunjukkan H ( f , f 0 ) , dan biarkan H ( X ) akan beberapa estimator dari H ( F ) berdasarkan n sampel iid X i ~ F .F0FGf0fgH(F)H(f,f0)H^(X)H(F)nXiF

Misalkan H adalah berisi sampel dari setiap distribusi dari bentuk M α : = α F + ( 1 - α ) G . Tapi kemudian Q ( α )H^

Mα:=αF+(1α)G.
sehinggaQ(α)harus polinomial dalamαdari gelar paling banyakn.
Q(α)=H(Mα)=x1xnH^(X)dMα(x1)dMα(xn)=x1xnH^(X)[αdF(x1)+(1α)dG(x1)][αdF(xn)+(1α)dG(xn)]=αnEXFn[H^(X)]++(1α)nEXGn[H^(X)],
Q(α)αn

Sekarang, mari kita mengkhususkan diri pada kasus yang masuk akal dan menunjukkan bahwa sesuai bukanlah polinomial.Q

Misalkan adalah beberapa distribusi yang memiliki kerapatan konstan pada [ - 1 , 1 ] : f 0 ( x ) = c untuk semua | x | 1 . (Perilakunya di luar rentang itu tidak masalah.) Misalkan F adalah distribusi yang hanya didukung pada [ - 1 , 0 ] , dan G beberapa distribusi hanya didukung pada [ 0 , 1 ] .F0[1,1]f0(x)=c|x|1F[1,0]G[0,1]

Sekarang manaBF:=R

Q(α)=H(mα,f0)=1Rmα(x)f0(x)dx=110cαf(x)dx01c(1α)g(x)dx=1αBF1αBG,
dan juga untukBG. Perhatikan bahwaBF>0,BG>0untuk setiap distribusiF,Gyang memiliki kerapatan.BF:=Rf(x)f0(x)dxBGBF>0BG>0FG

tidak polinomial dari setiap tingkat yang terbatas. Dengan demikian, tidak ada estimator H dapat berisi untukHpada semua distribusiMαdengan finitely banyak sampel.1αBF1αBGH^HMα

Demikian juga, karena juga tidak polinomial, tidak ada estimator untuk H 2yang berisi tentang semua distribusiMαdengan finitely banyak sampel.1αBF1αBGH2Mα

Ini mengecualikan hampir semua kelas distribusi nonparametrik yang masuk akal, kecuali untuk kelas dengan kepadatan yang dibatasi di bawah ini (asumsi analisis nonparametrik kadang-kadang dibuat). Anda mungkin bisa membunuh kelas-kelas itu juga dengan argumen serupa dengan hanya membuat kepadatan konstan atau sesuatu.

Dougal
sumber
13

Saya tidak tahu bagaimana membangun (jika ada) penduga yang tidak bias dari jarak Hellinger. Tampaknya mungkin untuk membuat penduga yang konsisten. Kami memiliki beberapa kepadatan dikenal tetap , dan sampel acak X 1 , ... , X n dari kepadatan f > 0 . Kami ingin memperkirakan H ( f , f 0 ) = f0X1,,Xnf>0 =

H(f,f0)=1Xf(x)f0(x)dx=1Xf0(x)f(x)f(x)dx
mana X f . Oleh SLLN, kita tahu itu
=1E[f0(X)f(X)],
Xf
11ni=1nf0(Xi)f(Xi)H(f,f0),
nH(f,f0)fn^f
H^=11ni=1nf0(Xi)fn^(Xi).
Zen
sumber
3
@Zen: Good point! I consider this answer as the answer because it made me realise H sounds very much like a standard deviation, for which there exists no unbiased estimator. As for the variance of H^n2, no worries: E[(f0(X)/f(X))2]=1 implies that this estimator has a finite variance.
Xi'an
1
Thanks for the clarification about the variance of the estimator, Xi'an!
Zen
2
Some work on other consistent estimators: (a) arxiv.org/abs/1707.03083 and related work based on k-NN density estimators; (b) arxiv.org/abs/1402.2966 based on correcting kernel density estimates; (c) ieeexplore.ieee.org/document/5605355 based on a connection to classification. (Many of these are based on samples from both f and f0, because that's the work I knew about offhand, but I think there are variants for known f0.)
Dougal