Saya belajar sendiri beberapa statistik untuk bersenang-senang dan saya memiliki kebingungan mengenai statistik yang cukup . Saya akan menuliskan kebingungan saya dalam format daftar:
Jika distribusi memiliki parameter maka akan ia memiliki statistik yang cukup?
Apakah ada korespondensi langsung antara statistik yang cukup dan parameter? Atau apakah statistik yang cukup hanya berfungsi sebagai kumpulan "informasi" sehingga kami dapat membuat ulang pengaturan sehingga kami dapat menghitung perkiraan yang sama untuk parameter distribusi yang mendasarinya.
Apakah semua distribusi memiliki statistik yang cukup? yaitu. dapatkah teorema faktorisasi gagal?
Dengan menggunakan sampel data kami, kami mengasumsikan distribusi yang kemungkinan besar berasal dari data dan kemudian dapat menghitung taksiran (misalnya MLE) untuk parameter untuk distribusi. Statistik yang memadai adalah cara untuk dapat menghitung estimasi yang sama untuk parameter tanpa harus bergantung pada data itu sendiri, bukan?
Apakah semua set statistik yang memadai memiliki statistik yang cukup memadai?
Ini adalah bahan yang saya gunakan untuk mencoba memahami materi topik: https://onlinecourses.science.psu.edu/stat414/node/283
Dari apa yang saya pahami kami memiliki teorema faktorisasi yang memisahkan distribusi bersama menjadi dua fungsi, tetapi saya tidak mengerti bagaimana kami dapat mengekstrak statistik yang cukup setelah memfaktorkan distribusi ke dalam fungsi kami.
Pertanyaan Poisson yang diberikan dalam contoh ini memiliki faktorisasi yang jelas, tetapi kemudian dinyatakan bahwa statistik yang cukup adalah mean sampel dan jumlah sampel. Bagaimana kita tahu bahwa itu adalah statistik yang cukup hanya dengan melihat bentuk persamaan pertama?
Bagaimana mungkin untuk melakukan estimasi MLE yang sama menggunakan statistik yang cukup jika persamaan kedua dari hasil faktorisasi kadang-kadang akan tergantung pada nilai data sendiri? Misalnya dalam kasus Poisson fungsi kedua bergantung pada kebalikan dari produk faktorial data, dan kami tidak lagi memiliki data!
Mengapa ukuran sampel statistik tidak mencukupi, dalam kaitannya dengan contoh Poisson di halaman web ? Kita akan memerlukan n untuk merekonstruksi bagian-bagian tertentu dari fungsi pertama jadi mengapa itu bukan statistik yang cukup juga?
Jawaban:
Anda mungkin akan mendapat manfaat dari membaca tentang kecukupan dalam setiap buku teks tentang statistik teoritis, di mana sebagian besar pertanyaan ini akan dibahas secara rinci. Secara singkat ...
Belum tentu. Itu adalah kasus khusus: distribusi di mana dukungan (rentang nilai data dapat diambil) tidak bergantung pada parameter yang tidak diketahui, hanya mereka yang berada dalam keluarga eksponensial yang memiliki statistik yang cukup dengan dimensi yang sama dengan jumlah parameter. Jadi untuk memperkirakan bentuk & skala distribusi Weibull atau lokasi & skala distribusi logistik dari pengamatan independen, statistik urutan (seluruh rangkaian pengamatan yang mengabaikan urutannya) cukup memadai — Anda tidak dapat menguranginya lebih jauh tanpa kehilangan informasi tentang parameter. Jika dukungan bergantung pada parameter yang tidak diketahui, maka bervariasi: untuk distribusi yang seragam pada , maksimum sampel cukup untuk θ(0,θ) θ ; untuk distribusi yang seragam pada sampel minimum dan maksimum cukup memadai.(θ−1,θ+1)
Saya tidak tahu apa yang Anda maksud dengan "korespondensi langsung"; alternatif yang Anda berikan tampaknya merupakan cara yang adil untuk menggambarkan statistik yang memadai.
Ya: sepele data secara keseluruhan sudah cukup. (Jika Anda mendengar seseorang berkata tidak ada statistik yang cukup, artinya tidak ada dimensi rendah.)
Ya, itulah idenya. (Apa yang tersisa — distribusi data tergantung pada statistik yang memadai — dapat digunakan untuk memeriksa asumsi distribusi secara independen dari parameter yang tidak diketahui.)
Tampaknya tidak, meskipun saya mengumpulkan contoh-contohnya bukan distribusi yang mungkin ingin Anda gunakan dalam praktik. [Akan bagus kalau ada yang bisa menjelaskan ini tanpa terlalu banyak ke teori ukuran.]
Menanggapi pertanyaan lebih lanjut ...
Faktor pertama, , tergantung pada λ hanya sampai ∑ x i . Jadi setiap fungsi satu-ke-satu dari Σ x i cukup: Σ x i , Σ x ie−nλ⋅λ∑xi λ ∑xi ∑xi ∑xi ∑xi/n (∑xi)2
, tidak bergantung pada1x1!x2!…xn! λ λ f(x;λ)
sumber