Kapan menggunakan median sampel sebagai penduga untuk median distribusi lognormal?

8

Saya sendiri akan selalu menggunakan mean geometrik untuk memperkirakan median lognormal. Namun, di dunia industri, kadang-kadang menggunakan median sampel memberikan hasil yang lebih baik. Dengan demikian pertanyaannya adalah, adakah rentang cutoff / titik mulai dari mana median sampel dapat digunakan secara andal sebagai penduga untuk median populasi?

Juga, rata-rata geometris sampel adalah MLE untuk median, tetapi tidak bias. Estimator yang tidak bias akan menjadiβ^CGM0=exp(μ^σ2/2N) jika σdikenal. Dalam praktiknya, estimator yang bias bias β^CGM (lihat di bawah) digunakan sejak σselalu tidak dikenal. Ada beberapa makalah yang mengatakan bahwa estimator geoma yang dikoreksi bias ini lebih baik karena MSE yang lebih kecil dan tidak bias. Namun, pada kenyataannya, ketika kita hanya memiliki ukuran sampel 4 hingga 6, dapatkah saya berpendapat bahwa koreksi bias tidak masuk akal sejak itu

  1. Ketidaktepatan berarti penaksir berpusat di sekitar parameter populasi sebenarnya, baik di bawah maupun di atas perkiraan parameter. Untuk distribusi miring positif, pusat adalah median bukan rata-rata.
  2. Invarian untuk transformasi adalah properti penting di area saya saat ini (transformasi antara DT50 dan laju degradasi k, k = log (2) / DT50). Anda akan mendapatkan hasil yang berbeda berdasarkan data asli dan data yang diubah.
  3. Untuk ukuran sampel terbatas, ketidakberpihakan rata-rata berpotensi menyesatkan. Bias bukan kesalahan, estimator yang tidak bias dapat memberikan kesalahan yang lebih besar. Dari sudut pandang Bayesian, data diketahui dan diperbaiki, MLE memaksimalkan kemungkinan mengamati data, sementara koreksi bias didasarkan pada parameter tetap.

Estimator rata-rata sampel geometrik adalah MLE, median-bias, tidak berubah untuk transformasi. Saya pikir itu harus lebih disukai ke estimator geoma yang dikoreksi bias. Apakah saya benar?

Asumsi X1,X2,...,XNLN(μ,σ2)

β=exp(μ)

β^GM=exp(μ^)=exp(log(Xi)N)LN(μ,σ2/N)

β^SM=median(X1,X2,...,XN)

β^CGM=exp(μ^σ^2/2N)

dimana, μ dan σ adalah log-mean dan log-sd, μ^ dan σ^ untuk MLE μ dan σ.

Pertanyaan terkait: untuk varian median sampel, ada rumus perkiraan 14Nf(m)2; Berapa ukuran sampel yang cukup besar untuk menggunakan rumus ini?

Zhenglei
sumber
Ekspresi Anda untuk β^CGM tidak memiliki topi di σ2. Apakah itu berarti diasumsikanσ2dikenal? Itu tampaknya membuatnya tidak terlalu berguna.
Hong Ooi
maaf, seharusnya begitu σ^2
Zhenglei
2
Tidak jelas apa penaksir Anda karena Anda belum menentukan μ^ atau σ^. Perhatian utama tentang model lognormal dan sampel kecil adalah bahwa penaksir berbasis lognormal sensitif terhadap asumsi lognormal, jadi kecuali jika Anda memiliki bukti yang baik bahwa asumsi ini benar, biasanya lebih baik menggunakan penaksir kuat alternatif.
whuber
@whuber, μ^ dan σ^adalah MLE. Saya setuju dengan keprihatinan asumsi lognormal. Di wilayah kerja saya saat ini, asumsi lognormal adalah praktik standar dan diterima oleh pihak berwenang. Jadi semua pertanyaan saya didasarkan pada asumsi lognormal yang benar.
Zhenglei
2
tidak, itu μ dan σadalah log-mean dan log-sd, bukan mean dan sd untuk lognormal. Saya akan mengedit pertanyaan untuk membuatnya jelas.
Zhenglei

Jawaban:

3

Rupanya konsep ketidakberpihakan telah dibahas sejak lama. Saya merasa ini adalah topik diskusi yang layak karena ketidakberpihakan rata-rata adalah persyaratan standar untuk penaksir yang baik, tetapi untuk sampel kecil, itu tidak berarti sebanyak dalam estimasi sampel besar.

Saya memposting dua referensi ini sebagai jawaban untuk pertanyaan kedua saya di posting.

Brown, George W. "Pada Estimasi Sampel Kecil." The Annals of Statistics Matematika, vol. 18, tidak. 4 (Desember 1947), hlm. 582–585. JSTOR 2236236.

Lehmann, EL "Konsep Umum Ketidaksesuaian" The Annals of Mathematical Statistics, vol. 22, tidak. 4 (Desember, 1951), hlm. 587–592. JSTOR 2236928

Zhenglei
sumber