Bagaimana melakukan estimasi, ketika hanya statistik ringkasan yang tersedia?

17

Ini sebagian dimotivasi oleh pertanyaan berikut dan diskusi mengikutinya.

Misalkan sampel iid diamati, XiF(x,θ) . Tujuannya adalah untuk memperkirakan θ . Tetapi sampel asli tidak tersedia. Apa yang kita miliki bukan adalah beberapa statistik dari sampel T1,...,Tk . Misalkan k sudah diperbaiki. Bagaimana cara kami memperkirakan θ ? Apa yang akan menjadi penaksir kemungkinan maksimum dalam kasus ini?

mpiktas
sumber
1
Jika Ti=f(Xi) untuk fungsi yang diketahui f maka Anda dapat menuliskan distribusi Ti dan estimator kemungkinan maksimum diturunkan dengan cara biasa. Tetapi Anda belum mengetahui apa itu Ti ?
Stéphane Laurent
3
Saya tertarik dalam kasus ketika untuk diketahui f . Ini adalah apa yang saya maksudkan ketika saya mengatakan bahwa T i adalah statistik sampel. Ti=f(X1,...,Xn)fTi
mpiktas
Jadi apa perbedaan antara dan T j ? TiTj
Stéphane Laurent
2
Maaf, itu seharusnya , bukan f . Kami memiliki beberapa fungsi f i , yang diambil sebagai argumen seluruh sampel. fiffi
mpiktas
Bukankah ini yang dimaksudkan dengan entropi maksimum?
probabilityislogic

Jawaban:

14

Dalam hal ini, Anda dapat mempertimbangkan perkiraan ABC dari kemungkinan (dan akibatnya dari MLE ) di bawah asumsi / batasan berikut:

Anggapan. Ukuran sampel asli diketahui.n

Ini bukan asumsi liar mengingat bahwa kualitas, dalam hal konvergensi, penduga sering tergantung pada ukuran sampel, oleh karena itu seseorang tidak dapat memperoleh penduga yang baik secara sewenang-wenang tanpa mengetahui ukuran sampel asli.

Idenya adalah untuk menghasilkan sampel dari distribusi posterior dan, untuk menghasilkan perkiraan MLE , Anda dapat menggunakan teknik sampel penting seperti pada [1] atau untuk mempertimbangkan seragam sebelumnya θ dengan dukungan pada yang sesuai. atur seperti pada [2] .θθ

Saya akan menjelaskan metode ini di [2]. Pertama-tama, izinkan saya menggambarkan sampler ABC.

ABC Sampler

Misalkan menjadi model yang menghasilkan sampel di mana θ Θ adalah parameter (diperkirakan), T menjadi statistik (fungsi sampel) dan T 0 menjadi statistik yang diamati, dalam jargon ABC ini disebut statistik ringkasan , ρ menjadi metrik, π ( θ ) distribusi sebelumnya pada θ dan ϵ > 0 a toleransi. Kemudian, sampler penolakan-ABC dapat diimplementasikan sebagai berikut.f(|θ)θΘTT0ρπ(θ)θϵ>0

  1. Sampel dari π ( ) .θπ()
  2. Hasilkan sampel ukuran n dari model f ( |xn .f(|θ)
  3. Hitung .T=T(x)
  4. Jika , terima θ sebagai simulasi dari posterior θ .ρ(T,T0)<ϵθθ

Algoritma ini menghasilkan sampel perkiraan dari distribusi posterior diberikan T ( x ) = T 0 . Oleh karena itu, skenario terbaik adalah ketika statistik T mencukupi tetapi statistik lain dapat digunakan. Untuk penjelasan lebih rinci tentang ini, lihat makalah ini .θT(x)=T0T

Sekarang, dalam kerangka umum, jika seseorang menggunakan seragam sebelumnya yang berisi MLE dalam dukungannya, maka Maximum a posteriori (MAP) bertepatan dengan Maximum Likelihood Estimator (MLE). Karena itu, jika Anda mempertimbangkan seragam yang sesuai sebelum di ABC Sampler, maka Anda dapat membuat sampel perkiraan distribusi posterior yang MAPnya bertepatan dengan MLE. Langkah yang tersisa terdiri dari memperkirakan mode ini. Masalah ini telah dibahas dalam CV, misalnya dalam "Estimasi efisien multivarian mode secara komputasi" .

Contoh mainan

Mari menjadi sampel dari N ( μ , 1 ) dan anggaplah bahwa satu-satunya informasi yang tersedia dari sampel ini ˉ x = 1(x1,...,xn)N(μ,1). Biarkanρmenjadi metrik Euclidean dalamRdanϵ=0,001. Kode R berikut menunjukkan cara mendapatkan perkiraan MLE menggunakan metode yang dijelaskan di atas menggunakan sampel simulasi dengann=100danμ=0, sampel distribusi posterior ukuran1000, seragam sebelumμpada(-0,3,0,3), dan estimator densitas kernel untuk estimasi mode sampel posterior (MAP = MLE).x¯=1nj=1nxjρRϵ=0.001n=100μ=01000μ(0.3,0.3)

rm(list=ls())

# Simulated data
set.seed(1)
x = rnorm(100)

# Observed statistic
T0=mean(x)

# ABC Sampler using a uniform prior 

N=1000
eps = 0.001
ABCsamp = rep(0,N)
i=1

while(i<N+1){
u = runif(1,-0.3,0.3)
t.samp = rnorm(100,u,1)
Ts = mean(t.samp)
if(abs(Ts-T0)<eps){
ABCsamp[i]=u
i=i+1
print(i)
}
}

# Approximation of the MLE
kd = density(ABCsamp)
kd$x[which(kd$y==max(kd$y))]

Seperti yang dapat Anda lihat, dengan menggunakan toleransi kecil, kami mendapatkan perkiraan MLE yang sangat baik (yang dalam contoh sepele ini dapat dihitung dari statistik karena cukup). Penting untuk diperhatikan bahwa pilihan statistik ringkasan sangat penting. Kuantil biasanya merupakan pilihan yang baik untuk statistik ringkasan, tetapi tidak semua pilihan menghasilkan perkiraan yang baik. Bisa jadi statistik ringkasannya tidak terlalu informatif dan kualitas perkiraannya mungkin buruk, yang terkenal di komunitas ABC.

Pembaruan: Pendekatan serupa baru-baru ini diterbitkan di Fan et al. (2012) . Lihat entri ini untuk diskusi di atas kertas.

Masyarakat
sumber
2
(+1) Untuk menyatakan hasil yang benar tentang hubungan antara MLE dan MAP dan untuk peringatan di paragraf terakhir (di antara alasan lain). Untuk membuat peringatan itu lebih eksplisit, pendekatan ini (atau apa pun!) Akan gagal total jika statistik yang tersedia adalah tambahan atau hampir sama. Orang dapat mempertimbangkan contoh mainan Anda dan , misalnya. T=i(XiX¯)2
kardinal
1
+1 @procrastinator Saya akan mengatakan sederhana ya Anda dapat menggunakan statistik yang cukup jika tersedia untuk model Anda. Tetapi jawaban Anda yang luas tampaknya telah mencakup hal itu.
Michael R. Chernick
Satu pertanyaan sederhana, Anda menyebutkan bahwa seragam sebelumnya harus mengandung MLE dalam dukungannya. Tetapi MLE adalah variabel acak yang hanya dibatasi secara stokastik, yaitu bisa di luar set terikat dengan probabilitas positif.
mpiktas
1
@mpiktas Untuk sampel tertentu, Anda harus memilih dukungan yang sesuai dari seragam sebelumnya. Ini dapat berubah jika Anda mengubah sampel. Penting untuk dicatat bahwa ini bukan prosedur Bayesian, kami hanya menggunakannya sebagai metode numerik, oleh karena itu tidak ada masalah dalam bermain dengan pilihan sebelumnya. Semakin kecil dukungan dari sebelumnya, semakin baik. Ini akan meningkatkan kecepatan ABC sampler tetapi ketika informasi Anda tidak jelas dalam arti bahwa Anda tidak memiliki petunjuk yang dapat diandalkan tentang di mana MLE berada, maka Anda mungkin memerlukan dukungan yang lebih besar (dan akan membayar harganya).
@mpiktas Pada contoh mainan, Anda dapat menggunakan, misalnya, seragam sebelum dukungan pada atau seragam sebelumnya dengan dukungan pada ( 0,1 , 0,15 ) mendapatkan hasil yang sama tetapi dengan tingkat penerimaan yang sangat berbeda. Pilihan dukungan ini ad hoc dan tidak mungkin untuk datang dengan tujuan umum sebelum diberikan bahwa MLE tidak terikat secara stokastik, seperti yang Anda sebutkan. Pilihan ini dapat dianggap sebagai pengungkit metode yang harus disesuaikan dalam setiap kasus tertentu. (1000000,1000000)(0.1,0.15)
5

Ti

(T1,,Tk)g(t1,,tk|θ,n)
(T1,,Tk)(X1,,Xn). It will necessarily be less efficient, with a larger asymptotic variance.

If the above joint distribution with density g is not available, the solution proposed by Procrastinator is quite appropriate.

Xi'an
sumber
1

The (frequentist) maximum likelihood estimator is as follows:

For F in the exponential family, and if your statistics are sufficient your likelihood to be maximised can always be written in the form:

l(θ|T)=exp(ψ(θ)+T,ϕ(θ)),
where , is the scalar product, T is the vector of suff. stats. and ψ() and ϕ() are continuous twice-differentiable.

The way you actually maximize the likelihood depends mostly on the possiblity to write the likelihood analytically in a tractable way. If this is possible you will be able to consider general optimisation algorithms (newton-raphson, simplex...). If you do not have a tractable likelihood, you may find it easier to compute a conditional expection as in the EM algorithm, which will also yield maximum likelihood estimates under rather affordable hypotheses.

Best

julien stirnemann
sumber
For problems I am interested in, analytical tractability is not possible.
mpiktas
The reason for non-tractability then conditions the optimization scheme. However, extensions of the EM usually allow to get arround most of these reasons. I don"t think I can be more specific in my suggestions without seeing the model itself
julien stirnemann