Mengapa statistik yang cukup berisi semua informasi yang diperlukan untuk menghitung estimasi parameter apa pun?

16

Saya baru saja mulai mempelajari statistik dan saya tidak bisa mendapatkan pemahaman yang memadai tentang kecukupan. Untuk lebih tepatnya saya tidak dapat mengerti bagaimana menunjukkan bahwa dua paragraf berikut ini setara:

Secara kasar, diberikan satu set X data independen yang terdistribusi secara identik dikondisikan pada parameter yang tidak diketahui θ, statistik yang cukup adalah fungsi T (X) yang nilainya berisi semua informasi yang diperlukan untuk menghitung estimasi parameter apa pun.

Statistik T (X) cukup untuk parameter dasar θ tepatnya jika distribusi probabilitas bersyarat dari data X, mengingat statistik T (X), tidak bergantung pada parameter θ.

(Saya telah mengambil kutipan dari statistik Cukup )

Meskipun saya memahami pernyataan kedua, dan saya dapat menggunakan teorema faktorisasi untuk menunjukkan apakah statistik yang diberikan cukup, saya tidak dapat memahami mengapa statistik dengan properti seperti itu juga memiliki properti yang "berisi semua informasi yang diperlukan untuk menghitung setiap estimasi parameter ". Saya tidak mencari bukti formal, yang akan membantu memperbaiki pemahaman saya, saya ingin mendapatkan penjelasan intuitif mengapa kedua pernyataan itu setara.

Singkatnya, pertanyaan saya adalah: mengapa kedua pernyataan itu setara? Bisakah seseorang memberikan penjelasan intuitif untuk kesetaraannya?

gcoll
sumber
1
Ide intuitif utama adalah bahwa Anda kadang-kadang tidak perlu melihat seluruh sampel karena Anda dapat menemukan statistik yang merangkum semua informasi yang dibutuhkan dari sampel. Ambil contoh, distribusi binomial: yang perlu Anda ketahui untuk model Anda adalah jumlah keberhasilan. Anda melakukan apa pun tidak kalah dari nilai jika saya hanya memberitahu Anda bahwa inxi=c , bukannya menunjukkan Anda seluruh rangkaian nilai-nilai sampelx={1,0,0,1,0,1,...} .
mugen
Saya mengerti mengapa saya membutuhkan statistik yang cukup dan bagaimana menunjukkan bahwa jumlah keberhasilan adalah statistik yang cukup untuk p dalam proses Bernoulli. Yang tidak saya mengerti adalah mengapa statistik seperti yang dijelaskan dalam paragraf kedua berisi semua informasi yang diperlukan untuk menghitung estimasi parameter apa pun.
gcoll
3
Sebenarnya, kutipan pertama salah besar. Ada banyak estimator yang dapat dihitung dari seluruh dataset yang tidak dapat dihitung hanya dari statistik yang memadai. Itulah salah satu alasan mengapa kutipan dimulai "secara kasar." Alasan lain adalah bahwa ia tidak menyediakan definisi kuantitatif atau informasi "informasi." Karena karakterisasi yang jauh lebih akurat (tetapi masih intuitif) telah diberikan dalam paragraf sebelumnya, ada sedikit masalah dengan kutipan ini dalam konteks yang tepat.
whuber
1
Ini memiliki koneksi ke kemungkinan maksimum dan pada dasarnya informasi yang dibutuhkan dalam kemungkinan maksimum
Kamster
1
Mengikuti komentar whuber dan @Kamster, saya mungkin mendapat pemahaman yang lebih baik. Ketika kami mengatakan bahwa statistik yang cukup berisi semua informasi yang diperlukan untuk menghitung estimasi parameter apa pun, apakah kami benar-benar bermaksud bahwa itu cukup untuk menghitung estimator kemungkinan maksimum (yang merupakan fungsi dari semua statistik yang memadai)? Jika ini benar, masalahnya adalah semua yang berkaitan dengan definisi (informasi) non-seperti yang disarankan Whuber, dan pertanyaan saya dijawab.
gcoll

Jawaban:

3

Mengikuti komentar @whuber dan @Kamster, saya mungkin mendapatkan pemahaman yang lebih baik. Ketika kami mengatakan bahwa statistik yang cukup berisi semua informasi yang diperlukan untuk menghitung estimasi parameter apa pun, yang kami maksud sebenarnya adalah bahwa itu cukup untuk menghitung estimator kemungkinan maksimum (yang merupakan fungsi dari semua statistik yang memadai).

Mengingat bahwa saya menjawab pertanyaan saya sendiri, dan karenanya saya tidak 100% yakin akan jawabannya, saya tidak akan menandainya sebagai benar sampai saya mendapatkan umpan balik. Silakan tambahkan komentar dan pilih-turun jika Anda pikir saya salah / tidak tepat / dll ...

(Beri tahu saya jika ini tidak kompatibel dengan etiket SE, karena ini pertanyaan pertama saya, saya mohon maaf jika saya melanggar aturan apa pun)

gcoll
sumber
1

Ketika saya belajar tentang kecukupan, saya menemukan pertanyaan Anda karena saya juga ingin memahami intuisi tentang Dari apa yang saya kumpulkan, inilah yang saya hasilkan (beri tahu saya apa yang Anda pikirkan, jika saya membuat kesalahan, dll).

Misalkan menjadi sampel acak dari distribusi Poisson dengan rata-rata θ > 0 .X1,,Xnθ>0

Kita tahu bahwa adalah statistik cukup untuk θ , karena distribusi bersyarat dari X 1 , ... , X n diberikan T ( X ) adalah bebas dari θ , dengan kata lain, tidak tergantung pada θ .T(X)=i=1nXiθX1,,XnT(X)θθ

Sekarang, ahli statistik tahu bahwa X 1 , ... , X n i . i . d ~ P o i s s o n ( 4 ) dan menciptakan n = 400 nilai acak dari distribusi ini:A X1,,Xni.i.dPoisson(4)n=400

n<-400
theta<-4
set.seed(1234)
x<-rpois(n,theta)
y=sum(x)

freq.x<-table(x) # We will use this latter on
rel.freq.x<-freq.x/sum(freq.x)

Untuk nilai yang dibuat oleh ahli statistik , ia mengambil jumlahnya dan bertanya kepada ahli statistik B berikut ini:AB

"Saya telah nilai-nilai sampel ini diambil dari distribusi Poisson. Mengetahui bahwa Σ n i = 1 x i = y = 4068 , apa yang bisa Anda ceritakan tentang distribusi ini?"x1,,xni=1nxi=y=4068

Jadi, hanya mengetahui bahwa (dan fakta bahwa sampel muncul dari distribusi Poisson) sudah cukup bagi ahli statistik B untuk mengatakan sesuatu tentang θ ? Karena kita tahu bahwa ini adalah statistik yang cukup, kita tahu bahwa jawabannya adalah "ya".i=1nxi=y=4068Bθ

Untuk mendapatkan intution tentang makna ini, mari kita lakukan hal berikut (diambil dari "Pengantar Statistik Matematika" Hogg & Mckean & Craig, edisi ke-7, latihan 7.1.9):

" memutuskan untuk membuat beberapa pengamatan palsu, yang dia sebut z 1 , z 2 , ... , z n (karena dia tahu mereka mungkin tidak akan sama dengan nilai x- asli ) sebagai berikut. Dia mencatat bahwa probabilitas bersyarat Poisson independen variabel acak Z 1 , Z 2 ... , Z n yang sama dengan z 1 , z 2 , ... , z n , diberikan Σ z i = y , adalahBz1,z2,,znxZ1,Z2,Znz1,z2,,znzi=y

θz1eθz1!θz2eθz2!θzneθzn!nθyenθy!=y!z1!z2!zn!(1n)z1(1n)z2(1n)zn

since Y=Zi has a Poisson distribution with mean nθ. The latter distribution is multinomial with y independent trials, each terminating in one of n mutually exclusive and exhaustive ways, each of which has the same probability 1/n. Accordingly, B runs such a multinomial experiment y independent trials and obtains z1,,zn."

This is what the exercise states. So, let's do exactly that:

# Fake observations from multinomial experiment
prob<-rep(1/n,n)
set.seed(1234)
z<-as.numeric(t(rmultinom(y,n=c(1:n),prob)))
y.fake<-sum(z) # y and y.fake must be equal
freq.z<-table(z)
rel.freq.z<-freq.z/sum(freq.z)

And let's see what Z looks like (I'm also plotting the real density of Poisson(4) for k=0,1,,13 - anything above 13 is pratically zero -, for comparison):

# Verifying distributions
k<-13
plot(x=c(0:k),y=dpois(c(0:k), lambda=theta, log = FALSE),t="o",ylab="Probability",xlab="k",
     xlim=c(0,k),ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(8,0.2, legend=c("Real Poisson","Random Z given y"), 
       col = c("black","green"),pch=c(1,4))

masukkan deskripsi gambar di sini

So, knowing nothing about θ and knowing only the sufficient statistic Y=Xi we were able to recriate a "distribution" that looks a lot like a Poisson(4) distribution (as n increases, the two curves become more similar).

Now, comparing X and Z|y:

plot(rel.freq.x,t="o",pch=16,col="red",ylab="Relative Frequency",xlab="k",
     ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(7,0.2, legend=c("Random X","Random Z given y"), col = c("red","green"),pch=c(16,4))

masukkan deskripsi gambar di sini

We see that they are pretty similar, as well (as expected)

Jadi, "untuk tujuan membuat keputusan statistik, kita dapat mengabaikan variabel acak individu Xsaya dan mendasarkan keputusan sepenuhnya pada Y=X1+X2++Xn"(Ash, R." Inferensi Statistik: Kursus singkat ", halaman 59).

Gus_est
sumber
0

Biarkan saya memberikan perspektif lain yang dapat membantu. Ini juga kualitatif, tetapi ada versi ketat yang sangat penting dalam Teori Informasi - dikenal sebagai properti Markov.

Pada awalnya, kita memiliki dua objek, data (berasal dari Variabel Acak, sebut saja X) dan parameter, θ(rv lain, secara implisit diasumsikan karena kita berbicara tentang estimatornya). Keduanya, dianggap tergantung (jika tidak, tidak ada gunanya mencoba memperkirakan satu dari yang lain). Sekarang, objek ketiga memasuki permainan, Statistik Cukup, T. Gagasan intuitif ketika kita mengatakan T sudah cukup untuk diperkirakanθ benar - benar berarti bahwa jika kita tahu T (yaitu dikondisikan pada T), X tidak memberikan info tambahan, yaitu, X dan θindependen. Dengan kata lain, pengetahuan tentang X setara dengan pengetahuan tentang T sejauh estimasiθprihatin. Perhatikan bahwa dalam probabilitas adalah di mana semua ketidakpastian ditangkap, dan karenanya "setiap perkiraan" ketika probabilitas (bersyarat) independen (mis. Kepadatan bersyarat faktorisasi).

Mahdi
sumber