Jika bukan Poisson, lalu distribusi apa ini?

11

Saya memiliki kumpulan data yang berisi jumlah tindakan yang dilakukan oleh individu selama 7 hari. Tindakan spesifik seharusnya tidak relevan untuk pertanyaan ini. Berikut adalah beberapa statistik deskriptif untuk kumpulan data:

Range0772Mean18.2Variance2791Number of observations696

Berikut ini adalah histogram data: aksi histogram

Menilai dari sumber data, saya pikir itu akan cocok dengan distribusi Poisson. Namun, varian ≠ rata-rata, dan histogram sangat berbobot ke kiri. Selain itu, saya menjalankan goodfittes dalam R dan mendapat:

> gf <- goodfit(actions,type="poisson", method = "MinChisq") <br>
> summary(gf) <br>
Goodness-of-fit test for poisson distribution <br>
X^2                   df         P(> X^2) <br>
Pearson 2.937599e+248 771        0  

Metode Maximum Likelihood juga menghasilkan p-value = 0. Dengan asumsi hipotesis nol adalah: data cocok dengan distribusi Poisson (dokumentasi tidak menentukan ini), maka goodfittes mengatakan kita harus menolak hipotesis nol, oleh karena itu data tidak cocok dengan distribusi Poisson.

Apakah analisis itu benar? Jika demikian, menurut Anda distribusi apa yang sesuai dengan data ini?

Tujuan utama saya adalah membandingkan jumlah rata-rata tindakan antara 2 sampel untuk melihat apakah rata-rata berbeda; apakah perlu memeriksa distribusi? Pemahaman saya adalah tes tipikal (z-, t-, tes) tidak berfungsi untuk distribusi Poisson. Tes apa yang harus saya gunakan jika data memang terdistribusi Poisson?χ2

Dcook
sumber
Sudahkah Anda mencoba binomial negatif? Apakah ini membantu?
Ric
@Richard, saya mencoba binomial negatif, dan itu tidak cocok. Terima kasih atas sarannya. Karena saya tidak tahu distribusi apa ini, saya memutuskan untuk mengabaikan distribusi dan pergi dengan tes non-parametrik, tes Mann-Whitney U.
Dcook
Hanya satu komentar lagi untuk neg bin. Dalam en.wikipedia.org/wiki/Negative_binomial_distribution Anda melihat rumus untuk mean dan varians dan . Seperti akan ini masuk akal? Jika tidak maka ada lebih banyak bukti bahwa neg bin bukanlah model yang baik di sini (jika kita percaya pada penduga momen). pmean/variance=1pp
Ric
Saya tidak berpikir konsep persidangan Bernoulli berlaku dalam kasus saya. Tidak ada konsep sukses atau gagal; subyek melakukan tindakan yang menarik atau tidak. Mereka tidak mencoba dan gagal. Karena itu, gagasan tentang probabilitas keberhasilan tidak masuk akal. Kecuali persidangan adalah satuan waktu. Tapi kemudian tidak ada yang bisa mencegah subjek melakukan beberapa tindakan dalam periode waktu itu.
Dcook
Anda paling tahu bagaimana menafsirkan data Anda. Saya hanya ingin mengingatkan Anda neg.bin itu. muncul sebagai campuran Poisson (jika mengikuti distribusi Gamma. Dengan demikian orang dapat mengartikannya dengan cara yang sama seperti dalam kasus Poisson. Tapi saya tidak ingin memaksa Anda :). Satu komentar lagi: jika subjek dapat melakukan beberapa tindakan dalam satu titik waktu: bukankah itu Compound Poisson / NegBin? Tolong beritahu saya jika Anda ingin komentar lebih lanjut tentang itu. lmabda
Ric

Jawaban:

8

Jika varians lebih besar dari rata-rata maka ini disebut dispersi berlebihan. Model alami untuk ini adalah distribusi binomial negatif. Ini juga dapat dilihat sebagai distribusi Poisson di mana Parameter lambda mengikuti distribusi Gamma. Langkah pertama dan mudah adalah menyesuaikan distribusi binomial negatif.

Ric
sumber
5

Jika data jumlah mentah Anda tidak terlihat seperti distribusi Poisson, maka Anda kehilangan sesuatu. Mungkin jumlah tindakan tergantung pada suhu, jadi pada hari-hari panas orang melakukan lebih sedikit hal. Kemudian variasi suhu selama periode studi Anda akan mempengaruhi distribusi dan menjadikannya non-Poisson.

Namun, jumlah tindakan setiap hari masih bisa menjadi Poisson dengan rata-rata bergantung pada suhu. Jika Anda memiliki suhu setiap hari, maka Anda dapat melakukan GLM, merevisi sejumlah tindakan sebagai variabel Poisson, tergantung pada suhu. Jika itu cocok, pekerjaan sudah selesai.

Jika Anda tidak memiliki variabel penjelas yang memungkinkan, maka yang dapat Anda katakan adalah "sesuatu yang lain sedang terjadi - jumlah tindakan bukan dari sampel Poisson independen" - yaitu menolak hipotesis nol Anda.

Ada tes bebas distribusi yang dapat membandingkan pengamatan berpasangan dengan menggunakan peringkat dan sebagainya. Biasanya mereka melakukan banyak permutasi dan menghitung statistik uji ...

Spacedman
sumber
4

Satu hal lagi: Anda juga harus menyelidiki pencilan dalam data hitungan. Anda mendapatkan satu hitungan pada 400-ish & kemudian tidak ada sampai 800-ish. Itu tidak mungkin cocok dengan salah satu model umum.

Scortchi - Reinstate Monica
sumber
1

Anda tampaknya menghitung jumlah nol acara - jika demikian, maka Anda dapat mempertimbangkan model ZIP (atau Rintangan) - merujuk Model Regresi untuk Menghitung Data dalam R oleh Zeileis et al untuk ikhtisar.

Untuk meringkas secara kasar, metode ini memodelkan jumlah nol secara terpisah dari sisa jumlah yang mungkin berguna dalam kasus Anda.

Lihat psclpaket zeroinfl()dan hurdle()fungsi.

Sean
sumber
1

Saya mencurigai bahwa histogram Anda dibuang dengan cara menipu. Jika Anda memiliki sedikit lebih dari 300 pengamatan yang tersebar merata di rentang 0-50, sekitar 320 tersebar merata di kisaran 50-100, dan 50 atau lebih di atas 100, rata-rata Anda seharusnya jauh lebih besar dari 18.2.

Jika data dalam rentang 0-50 tidak tersebar secara merata tetapi terkonsentrasi mendekati nol, maka melihat lebih banyak di kisaran 50-100 daripada di kisaran 0-50 mengejutkan.

Mungkin Anda memiliki campuran distribusi. Saya ragu bahwa siapa pun dapat melakukan banyak hal dengan ini tanpa pengamatan yang sebenarnya dan terutama tanpa mengetahui lebih banyak tentang konteksnya. Apakah masing-masing dari 696 pengamatan adalah seorang individu dan apakah responsnya merupakan jumlah tindakan yang diambil setiap individu? Jika ya, apakah ada berbagai jenis individu dalam data?

Emil Friedman
sumber