Saya memiliki histogram data jumlah berikut. Dan saya ingin mencocokkan distribusi diskrit dengannya. Saya tidak yakin bagaimana saya harus melakukan ini.
Haruskah saya pertama menempatkan superimpose distribusi diskrit, katakanlah distribusi Binomial Negatif, pada histogram sehingga saya akan mendapatkan parameter distribusi diskrit dan kemudian menjalankan tes Kolmogorov-Smirnov untuk memeriksa nilai-p?
Saya tidak yakin apakah metode ini benar atau tidak.
Apakah ada metode umum untuk mengatasi masalah seperti ini?
Ini adalah tabel frekuensi dari data hitungan. Dalam masalah saya, saya hanya fokus pada jumlah bukan nol.
Counts: 1 2 3 4 5 6 7 9 10
Frequency: 3875 2454 921 192 37 11 1 1 2
UPDATE: Saya ingin bertanya: Saya menggunakan fungsi fitdistr di R untuk mendapatkan parameter untuk pemasangan data.
fitdistr(abc[abc != 0], "Poisson")
lambda
1.68147852
(0.01497921)
Saya kemudian memetakan fungsi massa probabilitas distribusi Poisson di atas histogram.
Namun, sepertinya distribusi Poisson gagal memodelkan data jumlah. Apakah ada sesuatu yang saya bisa lakukan?
sumber
?MASS::fitdistr
, karena sudah dalam distribusi R Anda (lihat contoh terakhir di bagian bawah; lihat rnegbin untuk informasi lebih lanjut tentang parameterisasi Binomial Negatif). .... " Dan setelah menemukan ML, apa yang harus saya lakukan selanjutnya? " - yah pada saat itu Anda memiliki perkiraan parameter dan kesalahan standar. Di luar itu, apa yang ingin Anda capai? - Saya tidak bisa menebak.Jawaban:
Metode distribusi diskrit pas
Ada tiga metode utama * yang digunakan agar sesuai (memperkirakan parameter) distribusi diskrit.
1) Kemungkinan Maksimum
Ini menemukan nilai parameter yang memberikan peluang terbaik untuk memasok sampel Anda (dengan asumsi lain, seperti independensi, parameter konstan, dll)
2) Metode momen
Ini menemukan nilai parameter yang membuat beberapa momen populasi pertama cocok dengan momen sampel Anda. Ini seringkali cukup mudah dilakukan, dan dalam banyak kasus menghasilkan penaksir yang cukup masuk akal. Ini juga terkadang digunakan untuk memasok nilai awal ke rutinitas ML.
3) Minimum chi-square
Ini meminimalkan statistik kesesuaian chi-square atas distribusi diskrit, meskipun kadang-kadang dengan set data yang lebih besar, kategori akhir mungkin digabungkan untuk kenyamanan. Ini sering bekerja dengan cukup baik, dan bahkan bisa dibilang memiliki beberapa keunggulan dibandingkan ML dalam situasi tertentu, tetapi umumnya harus diulangi dengan konvergensi, dalam hal ini kebanyakan orang cenderung memilih ML.
Dua metode pertama juga digunakan untuk distribusi kontinu; yang ketiga biasanya tidak digunakan dalam kasus itu.
Ini tidak berarti terdiri dari daftar lengkap, dan akan sangat mungkin untuk memperkirakan parameter dengan meminimalkan KS-statistik misalnya - dan bahkan (jika Anda menyesuaikan untuk kelonggaran), untuk mendapatkan wilayah konsonan gabungan dari itu, jika Anda sangat cenderung. Karena Anda bekerja di R, estimasi ML cukup mudah dicapai untuk binomial negatif. Jika sampel Anda ada
x
, semudahlibrary(MASS);fitdistr (x,"negative binomial")
:Itu adalah estimasi parameter dan kesalahan standar (asimptotik) mereka.
Dalam kasus distribusi Poisson, MLE dan MoM sama-sama memperkirakan parameter Poisson pada rata-rata sampel.
Jika Anda ingin melihat contoh, Anda harus memposting beberapa penghitungan yang sebenarnya. Perhatikan bahwa histogram Anda telah dilakukan dengan nampan yang dipilih sehingga kategori 0 dan 1 digabungkan dan kami tidak memiliki jumlah mentah.
Sejauh yang bisa saya tebak, data Anda kira-kira sebagai berikut:
Tetapi bilangan besar akan tidak pasti (itu sangat bergantung pada seberapa akurat penghitungan rendah diwakili oleh penghitungan piksel ketinggian bar mereka) dan bisa beberapa kelipatan dari angka-angka itu, seperti dua kali angka-angka itu (penghitungan mentah mempengaruhi kesalahan standar, jadi itu penting apakah mereka tentang nilai-nilai itu atau dua kali lebih besar)
Penggabungan dua kelompok pertama membuatnya sedikit canggung (mungkin dilakukan, tetapi tidak begitu mudah jika Anda menggabungkan beberapa kategori. Banyak informasi ada dalam dua kelompok pertama sehingga sebaiknya tidak membiarkan histogram standar menggumpalkannya) ).
* Metode lain dari distribusi diskrit pas mungkin saja (orang mungkin cocok dengan kuantil atau meminimalkan statistik kecocokan lainnya misalnya). Yang saya sebutkan tampaknya paling umum.
sumber
1)
, alih-alih penomoran markup yang didukung CV (yaitu,1.
- yang mengarah ke indentasi)?Dalam edit, Anda memberikan beberapa data, dan menambahkan pertanyaan baru:
"Ini adalah tabel frekuensi dari data jumlah. Dalam masalah saya, saya hanya fokus pada jumlah yang bukan nol.
Bisakah seseorang memberi saya contoh tentang bagaimana Anda melakukan uji kelayakan chi-squared di sini? "
Ini mengarah ke komentar lebih lanjut:
Memiliki nol tetapi ingin mengabaikannya bisa masuk akal, tetapi secara umum orang-orang ingin tahu alasan mengapa.
Jika Anda memilih untuk mengabaikan nol, Anda menempatkan diri Anda di wilayah yang sulit, karena Anda tidak bisa hanya menjalankan rutinitas untuk mis. Poisson atau binomial negatif jika Anda meninggalkan nol. Ya, Anda bisa, tetapi jawabannya salah. Anda memerlukan fungsi atau perintah tujuan khusus untuk distribusi seperti Poisson nol terpotong atau binomial negatif terpotong nol. Itu hal-hal yang menantang dan perlu bacaan khusus untuk menjelaskan apa yang Anda lakukan.
Bertanya bagaimana melakukan tes chi-square menunjukkan kepada saya bahwa Anda belum benar-benar mengerti apa yang saya katakan dengan singkat dan @Glen_b mengatakan lebih detail (dan, menurut saya, dengan sangat jelas). Membagi menjadi dua:
Tidak boleh ada uji chi-square tanpa frekuensi yang diharapkan dan tidak ada frekuensi yang diharapkan tanpa estimasi parameter. Mungkin Anda paling terbiasa dengan rutinitas uji chi-square di mana independensi baris dan kolom dalam tabel dua arah diuji. Meskipun itu adalah tes chi-square yang paling banyak ditemui dalam kursus pengantar, sebenarnya sangat tidak biasa di antara tes chi-square secara umum karena perangkat lunak yang biasa berlaku melakukan estimasi parameter untuk Anda dan dengan demikian mendapatkan frekuensi yang diharapkan. Di luar itu, di sebagian besar masalah yang lebih rumit, seperti milik Anda, Anda harus mendapatkan perkiraan parameter terlebih dahulu.
Tes chi-square tidak salah, tetapi jika Anda memperkirakan parameter dengan kemungkinan maksimum itu tidak relevan karena rutinitas pemasangan memberi Anda perkiraan dan kesalahan standar dan memungkinkan pengujian di belakangnya. @ Glen_b sudah memberikan contoh dalam jawabannya.
Masalah sampingannya adalah bahwa akan lebih jelas untuk mengubah histogram Anda untuk menghormati diskresi variabel dan menunjukkan probabilitas, bukan kepadatan. Kesenjangan yang tampak hanyalah artefak dari pilihan bin default yang tidak menghormati diskresi variabel.
UPDATE: Pertanyaan tambahan tentang uji chi-square sekarang telah dihapus. Untuk saat ini saya membiarkan nomor 3 di atas berdiri, kalau-kalau ada orang lain mengikuti jalan yang sama menginginkan tes chi-square.
sumber