Saya baru saja mulai mempelajari statistik dan saya tidak bisa mendapatkan pemahaman yang memadai tentang kecukupan. Untuk lebih tepatnya saya tidak dapat mengerti bagaimana menunjukkan bahwa dua paragraf berikut ini setara:
Secara kasar, diberikan satu set X data independen yang terdistribusi secara identik dikondisikan pada parameter yang tidak diketahui θ, statistik yang cukup adalah fungsi T (X) yang nilainya berisi semua informasi yang diperlukan untuk menghitung estimasi parameter apa pun.
Statistik T (X) cukup untuk parameter dasar θ tepatnya jika distribusi probabilitas bersyarat dari data X, mengingat statistik T (X), tidak bergantung pada parameter θ.
(Saya telah mengambil kutipan dari statistik Cukup )
Meskipun saya memahami pernyataan kedua, dan saya dapat menggunakan teorema faktorisasi untuk menunjukkan apakah statistik yang diberikan cukup, saya tidak dapat memahami mengapa statistik dengan properti seperti itu juga memiliki properti yang "berisi semua informasi yang diperlukan untuk menghitung setiap estimasi parameter ". Saya tidak mencari bukti formal, yang akan membantu memperbaiki pemahaman saya, saya ingin mendapatkan penjelasan intuitif mengapa kedua pernyataan itu setara.
Singkatnya, pertanyaan saya adalah: mengapa kedua pernyataan itu setara? Bisakah seseorang memberikan penjelasan intuitif untuk kesetaraannya?
sumber
Jawaban:
Mengikuti komentar @whuber dan @Kamster, saya mungkin mendapatkan pemahaman yang lebih baik. Ketika kami mengatakan bahwa statistik yang cukup berisi semua informasi yang diperlukan untuk menghitung estimasi parameter apa pun, yang kami maksud sebenarnya adalah bahwa itu cukup untuk menghitung estimator kemungkinan maksimum (yang merupakan fungsi dari semua statistik yang memadai).
Mengingat bahwa saya menjawab pertanyaan saya sendiri, dan karenanya saya tidak 100% yakin akan jawabannya, saya tidak akan menandainya sebagai benar sampai saya mendapatkan umpan balik. Silakan tambahkan komentar dan pilih-turun jika Anda pikir saya salah / tidak tepat / dll ...
(Beri tahu saya jika ini tidak kompatibel dengan etiket SE, karena ini pertanyaan pertama saya, saya mohon maaf jika saya melanggar aturan apa pun)
sumber
Ketika saya belajar tentang kecukupan, saya menemukan pertanyaan Anda karena saya juga ingin memahami intuisi tentang Dari apa yang saya kumpulkan, inilah yang saya hasilkan (beri tahu saya apa yang Anda pikirkan, jika saya membuat kesalahan, dll).
Misalkan menjadi sampel acak dari distribusi Poisson dengan rata-rata θ > 0 .X1,…,Xn θ>0
Kita tahu bahwa adalah statistik cukup untuk θ , karena distribusi bersyarat dari X 1 , ... , X n diberikan T ( X ) adalah bebas dari θ , dengan kata lain, tidak tergantung pada θ .T(X)=∑ni=1Xi θ X1,…,Xn T(X) θ θ
Sekarang, ahli statistik tahu bahwa X 1 , ... , X n i . i . d ~ P o i s s o n ( 4 ) dan menciptakan n = 400 nilai acak dari distribusi ini:A X1,…,Xn∼i.i.dPoisson(4) n=400
Untuk nilai yang dibuat oleh ahli statistik , ia mengambil jumlahnya dan bertanya kepada ahli statistik B berikut ini:A B
"Saya telah nilai-nilai sampel ini diambil dari distribusi Poisson. Mengetahui bahwa Σ n i = 1 x i = y = 4068 , apa yang bisa Anda ceritakan tentang distribusi ini?"x1,…,xn ∑ni=1xi=y=4068
Jadi, hanya mengetahui bahwa (dan fakta bahwa sampel muncul dari distribusi Poisson) sudah cukup bagi ahli statistik B untuk mengatakan sesuatu tentang θ ? Karena kita tahu bahwa ini adalah statistik yang cukup, kita tahu bahwa jawabannya adalah "ya".∑ni=1xi=y=4068 B θ
Untuk mendapatkan intution tentang makna ini, mari kita lakukan hal berikut (diambil dari "Pengantar Statistik Matematika" Hogg & Mckean & Craig, edisi ke-7, latihan 7.1.9):
" memutuskan untuk membuat beberapa pengamatan palsu, yang dia sebut z 1 , z 2 , ... , z n (karena dia tahu mereka mungkin tidak akan sama dengan nilai x- asli ) sebagai berikut. Dia mencatat bahwa probabilitas bersyarat Poisson independen variabel acak Z 1 , Z 2 ... , Z n yang sama dengan z 1 , z 2 , ... , z n , diberikan Σ z i = y , adalahB z1,z2,…,zn x Z1,Z2…,Zn z1,z2,…,zn ∑zi=y
sinceY=∑Zi has a Poisson distribution with mean nθ . The latter distribution is multinomial with y independent trials, each terminating in one of n mutually exclusive and exhaustive ways, each of which has the same probability 1/n . Accordingly, B runs such a multinomial experiment y independent trials and obtains z1,…,zn ."
This is what the exercise states. So, let's do exactly that:
And let's see whatZ looks like (I'm also plotting the real density of Poisson(4) for k=0,1,…,13 - anything above 13 is pratically zero -, for comparison):
So, knowing nothing aboutθ and knowing only the sufficient statistic Y=∑Xi we were able to recriate a "distribution" that looks a lot like a Poisson(4) distribution (as n increases, the two curves become more similar).
Now, comparingX and Z|y :
We see that they are pretty similar, as well (as expected)
Jadi, "untuk tujuan membuat keputusan statistik, kita dapat mengabaikan variabel acak individuXsaya dan mendasarkan keputusan sepenuhnya pada Y= X1+ X2+ ⋯ + Xn "(Ash, R." Inferensi Statistik: Kursus singkat ", halaman 59).
sumber
Biarkan saya memberikan perspektif lain yang dapat membantu. Ini juga kualitatif, tetapi ada versi ketat yang sangat penting dalam Teori Informasi - dikenal sebagai properti Markov.
Pada awalnya, kita memiliki dua objek, data (berasal dari Variabel Acak, sebut saja X) dan parameter,θ (rv lain, secara implisit diasumsikan karena kita berbicara tentang estimatornya). Keduanya, dianggap tergantung (jika tidak, tidak ada gunanya mencoba memperkirakan satu dari yang lain). Sekarang, objek ketiga memasuki permainan, Statistik Cukup, T. Gagasan intuitif ketika kita mengatakan T sudah cukup untuk diperkirakanθ benar - benar berarti bahwa jika kita tahu T (yaitu dikondisikan pada T), X tidak memberikan info tambahan, yaitu, X dan θ independen. Dengan kata lain, pengetahuan tentang X setara dengan pengetahuan tentang T sejauh estimasiθ prihatin. Perhatikan bahwa dalam probabilitas adalah di mana semua ketidakpastian ditangkap, dan karenanya "setiap perkiraan" ketika probabilitas (bersyarat) independen (mis. Kepadatan bersyarat faktorisasi).
sumber