Statistik yang cukup, masalah spesifik / intuisi

16

Saya belajar sendiri beberapa statistik untuk bersenang-senang dan saya memiliki kebingungan mengenai statistik yang cukup . Saya akan menuliskan kebingungan saya dalam format daftar:

  1. Jika distribusi memiliki n parameter maka akan ia memiliki statistik yang cukup?n

  2. Apakah ada korespondensi langsung antara statistik yang cukup dan parameter? Atau apakah statistik yang cukup hanya berfungsi sebagai kumpulan "informasi" sehingga kami dapat membuat ulang pengaturan sehingga kami dapat menghitung perkiraan yang sama untuk parameter distribusi yang mendasarinya.

  3. Apakah semua distribusi memiliki statistik yang cukup? yaitu. dapatkah teorema faktorisasi gagal?

  4. Dengan menggunakan sampel data kami, kami mengasumsikan distribusi yang kemungkinan besar berasal dari data dan kemudian dapat menghitung taksiran (misalnya MLE) untuk parameter untuk distribusi. Statistik yang memadai adalah cara untuk dapat menghitung estimasi yang sama untuk parameter tanpa harus bergantung pada data itu sendiri, bukan?

  5. Apakah semua set statistik yang memadai memiliki statistik yang cukup memadai?

Ini adalah bahan yang saya gunakan untuk mencoba memahami materi topik: https://onlinecourses.science.psu.edu/stat414/node/283

Dari apa yang saya pahami kami memiliki teorema faktorisasi yang memisahkan distribusi bersama menjadi dua fungsi, tetapi saya tidak mengerti bagaimana kami dapat mengekstrak statistik yang cukup setelah memfaktorkan distribusi ke dalam fungsi kami.

  1. Pertanyaan Poisson yang diberikan dalam contoh ini memiliki faktorisasi yang jelas, tetapi kemudian dinyatakan bahwa statistik yang cukup adalah mean sampel dan jumlah sampel. Bagaimana kita tahu bahwa itu adalah statistik yang cukup hanya dengan melihat bentuk persamaan pertama?

  2. Bagaimana mungkin untuk melakukan estimasi MLE yang sama menggunakan statistik yang cukup jika persamaan kedua dari hasil faktorisasi kadang-kadang akan tergantung pada nilai data sendiri? Misalnya dalam kasus Poisson fungsi kedua bergantung pada kebalikan dari produk faktorial data, dan kami tidak lagi memiliki data!Xi

  3. Mengapa ukuran sampel statistik tidak mencukupi, dalam kaitannya dengan contoh Poisson di halaman web ? Kita akan memerlukan n untuk merekonstruksi bagian-bagian tertentu dari fungsi pertama jadi mengapa itu bukan statistik yang cukup juga?nn

Kimchi
sumber
Hanya pertanyaan klarifikasi cepat - dari mana "sudut" mana Anda cukup? Kemungkinan maksimum? Bayesian? Entropi maksimum? Teori sampel? Sesuatu yang lain
probabilityislogic
Saya datang dari sudut pandang MLE, maaf jika postingan saya bukan yang terbesar, ini postingan pertama saya di forum ini!
Kimchi

Jawaban:

12

Anda mungkin akan mendapat manfaat dari membaca tentang kecukupan dalam setiap buku teks tentang statistik teoritis, di mana sebagian besar pertanyaan ini akan dibahas secara rinci. Secara singkat ...

  1. Belum tentu. Itu adalah kasus khusus: distribusi di mana dukungan (rentang nilai data dapat diambil) tidak bergantung pada parameter yang tidak diketahui, hanya mereka yang berada dalam keluarga eksponensial yang memiliki statistik yang cukup dengan dimensi yang sama dengan jumlah parameter. Jadi untuk memperkirakan bentuk & skala distribusi Weibull atau lokasi & skala distribusi logistik dari pengamatan independen, statistik urutan (seluruh rangkaian pengamatan yang mengabaikan urutannya) cukup memadai — Anda tidak dapat menguranginya lebih jauh tanpa kehilangan informasi tentang parameter. Jika dukungan bergantung pada parameter yang tidak diketahui, maka bervariasi: untuk distribusi yang seragam pada , maksimum sampel cukup untuk θ(0,θ)θ; untuk distribusi yang seragam pada sampel minimum dan maksimum cukup memadai.(θ1,θ+1)

  2. Saya tidak tahu apa yang Anda maksud dengan "korespondensi langsung"; alternatif yang Anda berikan tampaknya merupakan cara yang adil untuk menggambarkan statistik yang memadai.

  3. Ya: sepele data secara keseluruhan sudah cukup. (Jika Anda mendengar seseorang berkata tidak ada statistik yang cukup, artinya tidak ada dimensi rendah.)

  4. Ya, itulah idenya. (Apa yang tersisa — distribusi data tergantung pada statistik yang memadai — dapat digunakan untuk memeriksa asumsi distribusi secara independen dari parameter yang tidak diketahui.)

  5. Tampaknya tidak, meskipun saya mengumpulkan contoh-contohnya bukan distribusi yang mungkin ingin Anda gunakan dalam praktik. [Akan bagus kalau ada yang bisa menjelaskan ini tanpa terlalu banyak ke teori ukuran.]

Menanggapi pertanyaan lebih lanjut ...

  1. Faktor pertama, , tergantung pada λ hanya sampai x i . Jadi setiap fungsi satu-ke-satu dari Σ x i cukup: Σ x i , Σ x ienλλxiλxixixixi/n(xi)2

  2. , tidak bergantung pada1x1!x2!xn!λλf(x;λ)

  3. n

xi

n N(xi,n)nθxi

Scortchi - Reinstate Monica
sumber
1
Saya ingin melihat contoh tandingan ke 5. Saya mencoba untuk membuktikan sebaliknya untuk sementara dengan Zorn's Lemma tetapi itu rusak pada satu titik. Tapi dari apa yang telah saya kumpulkan, counterexample harus benar-benar konyol. Apakah Anda memiliki titik referensi di mana saya dapat menemukannya? Saya tidak keberatan itu terlalu berat pada teori ukuran.
sjm.majewski
@ sjm.majewski: Lehmann memberi Pitcher (1957), "Set tindakan yang tidak mengakui statistik dan subbidang yang diperlukan dan memadai", Ann. Matematika Statist. , 28 , p267-268; dan Landers & Rogge (1973). "Tentang kecukupan dan invarian", Ann. Statist. , 1 , p543-544.
Scortchi