Mengapa kita membutuhkan estimator agar konsisten?

15

Saya pikir, saya sudah mengerti definisi matematika dari penduga yang konsisten. Koreksi saya jika saya salah:

Wn adalah estimator yang konsisten untukθ jikaϵ>0

limnP(|Wnθ|>ϵ)=0,θΘ

Di mana, Θ adalah Parametric Space. Tetapi saya ingin memahami perlunya penaksir untuk konsisten. Mengapa estimator yang tidak konsisten buruk? Bisakah Anda memberi saya beberapa contoh?

Saya menerima simulasi dalam R atau python.

Keluarga
sumber
3
Penaksir yang tidak konsisten tidak selalu buruk. Ambil contoh estimator yang tidak konsisten tetapi tidak bias. Lihat artikel Wikipedia tentang Pengukur Konsisten en.wikipedia.org/wiki/Consistent_estimator , khususnya bagian tentang Bias versus Konsistensi
compbiostats
Konsistensi secara kasar berbicara tentang perilaku asimtotik optimal dari penaksir. Kami memilih penduga yang mendekati nilai sebenarnya dari dalam jangka panjang. Karena ini hanya konvergensi dalam probabilitas, utas ini mungkin bermanfaat: stats.stackexchange.com/questions/134701/… . θ
StubbornAtom
@StubbornAtom, saya akan berhati-hati untuk memanggil estimator yang konsisten "optimal", karena istilah itu biasanya disediakan untuk estimator yang juga, dalam beberapa hal, efisien.
Christoph Hanck

Jawaban:

22

Jika estimator tidak konsisten, itu tidak akan konvergen ke nilai sebenarnya dalam probabilitas . Dengan kata lain, selalu ada kemungkinan bahwa penaksir dan nilai sebenarnya Anda akan memiliki perbedaan, tidak peduli berapa banyak poin data yang Anda miliki. Ini sebenarnya buruk, karena bahkan jika Anda mengumpulkan sejumlah besar data, perkiraan Anda akan selalu memiliki probabilitas positif menjadi beberapa ϵ>0 berbeda dari nilai sebenarnya. Secara praktis, Anda dapat mempertimbangkan situasi ini seolah-olah Anda menggunakan penduga jumlah yang bahkan mensurvei semua populasi, bukannya sampel kecil, tidak akan membantu Anda.

senjata
sumber
21

Pertimbangkan n=10000 pengamatan dari distribusi Cauchy standar, yang sama dengan distribusi t Student dengan 1 derajat kebebasan. Ekor dari distribusi ini cukup berat sehingga tidak berarti; distribusi dipusatkan pada mediannyaη=0.

Urutan sampel berarti Aj=1ji=1jXitidak konsisten untuk pusat distribusi Cauchy. Secara kasar, kesulitannya adalah bahwa pengamatan yang sangat ekstrimXi(positif atau negatif) terjadi dengan keteraturan yang cukup sehingga tidak ada peluang bagiAjuntuk konvergen menjadiη=0.(Ajtidak hanya lambat untuk konvergen, mereka tidak ' tidak pernah konvergen. DistribusiAjlagi standar Cauchy [bukti].)

Sebaliknya, setiap satu langkah dalam proses pengambilan sampel melanjutkan, sekitar setengah dari pengamatan Xi akan berbaring di kedua sisi η, sehingga urutan Hj dari median sampel tidak konvergen ke η.

Kurangnya konvergensi Aj dan konvergensi Hj diilustrasikan oleh simulasi berikut.

set.seed(2019)  # for reproducibility
n = 10000;  x = rt(n, 1);  j = 1:n
a = cumsum(x)/j
h = numeric(n)
for (i in 1:n) {
  h[i] = median(x[1:i])  } 
par(mfrow=c(1,2))
 plot(j,a, type="l", ylim=c(-5,5), lwd=2,
    main="Trace of Sample Mean")
  abline(h=0, col="green2")
  k = j[abs(x)>1000] 
  abline(v=k, col="red", lty="dotted")
 plot(j,h, type="l", ylim=c(-5,5), lwd=2,
     main="Trace of Sample Median")
  abline(h=0, col="green2") 
par(mfrow=c(1,1))

masukkan deskripsi gambar di sini

Berikut adalah daftar langkah-langkah di mana |Xi|>1000. Anda dapat melihat efek dari beberapa pengamatan ekstrem ini terhadap rata-rata berlari di plot di sebelah kiri (di garis putus-putus merah vertikal).

k = j[abs(x)>1000]
rbind(k, round(x[k]))
   [,1] [,2] [,3]  [,4] [,5]  [,6]   [,7]  [,8]
k   291  898 1293  1602 2547  5472   6079  9158
  -5440 2502 5421 -2231 1635 -2644 -10194 -3137

Konsistensi dalam estimasi penting: Dalam pengambilan sampel dari populasi Cauchy, rata-rata sampel dari sampel n=10000 pengamatan tidak lebih baik untuk memperkirakan pusatη dari hanya satu pengamatan. Sebaliknya, median sampel konsisten konvergen keη, sehingga sampel yang lebih besar menghasilkan perkiraan yang lebih baik.

BruceET
sumber
1
Nitpicking sedikit, tetapi simulasi Anda menggambarkan kegagalan sampel berarti untuk konvergen hampir pasti, tidak dalam probabilitas, ke pusat Cauchy (konsistensi kuat vs lemah).
aleshing
9

Contoh yang sangat sederhana tentang mengapa penting untuk memikirkan konsistensi, yang menurut saya tidak mendapatkan perhatian yang cukup, adalah model yang terlalu disederhanakan.

Sebagai contoh teoretis, anggaplah Anda ingin menyesuaikan model regresi linier pada beberapa data, di mana efek sebenarnya sebenarnya non-linear. Maka prediksi Anda tidak dapat konsisten untuk mean sebenarnya untuk semua kombinasi kovariat, sementara yang lebih fleksibel mungkin bisa. Dengan kata lain, model yang disederhanakan akan memiliki kekurangan yang tidak dapat diatasi dengan menggunakan lebih banyak data.

Cliff AB
sumber
Hal ini tidak selalu benar, karena model regresi linear "selalu cocok", dalam arti bahwa . Anda bisa berargumen bahwa model itu baik-baik saja, tetapi "kesalahan" sebenarnya dengan asumsi residual memiliki distribusi normal iid. yi=y^i+e^i
probabilityislogic
8

@BruceET telah memberikan jawaban teknis yang sangat baik, tetapi saya ingin menambahkan poin tentang interpretasi dari semuanya.

Salah satu konsep dasar dalam statistik adalah bahwa dengan bertambahnya ukuran sampel, kami dapat mencapai kesimpulan yang lebih tepat tentang distribusi yang mendasarinya. Anda bisa menganggapnya sebagai gagasan bahwa mengambil banyak sampel menghilangkan jitter acak dalam data, jadi kami mendapatkan gagasan yang lebih baik tentang struktur yang mendasarinya.

(Xi)iN E[X1]<

1nk=1nXkE[X]   a.s.

Sekarang, meminta penaksir untuk konsisten adalah menuntut bahwa ia juga mengikuti aturan ini: Karena tugasnya adalah memperkirakan parameter yang tidak diketahui, kami ingin konvergen ke parameter itu (baca: memperkirakan parameter itu dengan sewenang-wenang) sebagai sampel kami ukuran cenderung tak terbatas.

Persamaannya

limnP(|Wnθ|>ϵ)=0,ϵ>0 θ Θ

Wnθ

[θε,θ+ε]θ

Marc Vaisband
sumber