Untuk model linier, solusi OLS memberikan penaksir tidak bias linier terbaik untuk parameter.
Tentu saja kita dapat memperdagangkan bias untuk varian yang lebih rendah, misalnya regresi ridge. Tetapi pertanyaan saya adalah tentang tidak memiliki bias. Apakah ada estimator lain yang agak umum digunakan, yang tidak bias tetapi dengan varians yang lebih tinggi daripada parameter perkiraan OLS?
Jika saya akan memiliki kumpulan data yang sangat besar tentu saja saya dapat mengambil sampel dan memperkirakan parameter dengan data yang lebih sedikit, dan meningkatkan varians. Saya menganggap ini bisa berguna secara hipotesis.
Ini lebih merupakan pertanyaan retoris, karena ketika saya telah membaca tentang estimator BLUE, alternatif yang lebih buruk tidak disediakan. Saya kira memberikan alternatif yang lebih buruk juga dapat membantu orang memahami kekuatan estimator BLUE dengan lebih baik.
Jawaban:
Salah satu contoh yang terlintas dalam pikiran adalah beberapa penduga GLS yang menimbang pengamatan secara berbeda walaupun itu tidak diperlukan ketika asumsi Gauss-Markov terpenuhi (yang ahli statistik mungkin tidak tahu kasusnya dan karenanya berlaku masih menerapkan GLS).
Pertimbangkan kasus regresiyi , i=1,…,n pada konstanta untuk ilustrasi (siap digeneralisasikan ke penduga GLS umum). Di sini, {yi} diasumsikan sampel acak dari populasi dengan mean μ dan variansi σ2 .
Kemudian, kita tahu bahwa OLS hanya β = ˉ y , sampel berarti. Untuk menekankan titik bahwa setiap pengamatan tertimbang dengan berat 1 / n , menulis ini sebagai β = n Σ i = 1 1β^=y¯ 1/n β^=∑i=1n1nyi.
Hal ini juga diketahui bahwaVar(β^)=σ2/n .
Sekarang, pertimbangkan estimator lain yang dapat ditulis sebagaiβ~=∑i=1nwiyi,
di mana bobot yang sedemikian rupa sehingga ∑iwi=1 . Hal ini memastikan bahwa estimator yang berisi, seperti
E(∑i=1nwiyi)=∑i=1nwiE(yi)=∑i=1nwiμ=μ. wi=1/n i
Berikut ini adalah ilustrasi grafis dari sedikit simulasi, dibuat dengan kode di bawah ini:
EDIT: Sebagai tanggapan atas saran @ kjetilbhalvorsen dan @ RichardHardy, saya juga menyertakan medianysaya , MLE dari parameter lokasi pf pada (4) distribusi (saya mendapat peringatan
In log(s) : NaNs produced
bahwa saya tidak memeriksa lebih lanjut) dan penduga Huber dalam plot.Kami mengamati bahwa semua penduga tampaknya tidak bias. Namun, estimator yang menggunakan bobotwsaya= ( 1 ± ϵ ) / n karena bobot untuk separuh sampel lebih bervariasi, seperti median, MLE distribusi-t dan penduga Huber (yang terakhir hanya sedikit, lihat juga di sini ).
Bahwa tiga yang terakhir dikalahkan oleh solusi OLS tidak segera tersirat oleh properti BIRU (setidaknya tidak bagi saya), karena tidak jelas apakah mereka adalah penduga linier (juga saya tidak tahu apakah MLE dan Huber tidak bias).
sumber