Saya memiliki kumpulan data yang berisi jumlah tindakan yang dilakukan oleh individu selama 7 hari. Tindakan spesifik seharusnya tidak relevan untuk pertanyaan ini. Berikut adalah beberapa statistik deskriptif untuk kumpulan data:
Berikut ini adalah histogram data:
Menilai dari sumber data, saya pikir itu akan cocok dengan distribusi Poisson. Namun, varian ≠ rata-rata, dan histogram sangat berbobot ke kiri. Selain itu, saya menjalankan goodfit
tes dalam R dan mendapat:
> gf <- goodfit(actions,type="poisson", method = "MinChisq") <br>
> summary(gf) <br>
Goodness-of-fit test for poisson distribution <br>
X^2 df P(> X^2) <br>
Pearson 2.937599e+248 771 0
Metode Maximum Likelihood juga menghasilkan p-value = 0. Dengan asumsi hipotesis nol adalah: data cocok dengan distribusi Poisson (dokumentasi tidak menentukan ini), maka goodfit
tes mengatakan kita harus menolak hipotesis nol, oleh karena itu data tidak cocok dengan distribusi Poisson.
Apakah analisis itu benar? Jika demikian, menurut Anda distribusi apa yang sesuai dengan data ini?
Tujuan utama saya adalah membandingkan jumlah rata-rata tindakan antara 2 sampel untuk melihat apakah rata-rata berbeda; apakah perlu memeriksa distribusi? Pemahaman saya adalah tes tipikal (z-, t-, tes) tidak berfungsi untuk distribusi Poisson. Tes apa yang harus saya gunakan jika data memang terdistribusi Poisson?
Jawaban:
Jika varians lebih besar dari rata-rata maka ini disebut dispersi berlebihan. Model alami untuk ini adalah distribusi binomial negatif. Ini juga dapat dilihat sebagai distribusi Poisson di mana Parameter lambda mengikuti distribusi Gamma. Langkah pertama dan mudah adalah menyesuaikan distribusi binomial negatif.
sumber
Jika data jumlah mentah Anda tidak terlihat seperti distribusi Poisson, maka Anda kehilangan sesuatu. Mungkin jumlah tindakan tergantung pada suhu, jadi pada hari-hari panas orang melakukan lebih sedikit hal. Kemudian variasi suhu selama periode studi Anda akan mempengaruhi distribusi dan menjadikannya non-Poisson.
Namun, jumlah tindakan setiap hari masih bisa menjadi Poisson dengan rata-rata bergantung pada suhu. Jika Anda memiliki suhu setiap hari, maka Anda dapat melakukan GLM, merevisi sejumlah tindakan sebagai variabel Poisson, tergantung pada suhu. Jika itu cocok, pekerjaan sudah selesai.
Jika Anda tidak memiliki variabel penjelas yang memungkinkan, maka yang dapat Anda katakan adalah "sesuatu yang lain sedang terjadi - jumlah tindakan bukan dari sampel Poisson independen" - yaitu menolak hipotesis nol Anda.
Ada tes bebas distribusi yang dapat membandingkan pengamatan berpasangan dengan menggunakan peringkat dan sebagainya. Biasanya mereka melakukan banyak permutasi dan menghitung statistik uji ...
sumber
Satu hal lagi: Anda juga harus menyelidiki pencilan dalam data hitungan. Anda mendapatkan satu hitungan pada 400-ish & kemudian tidak ada sampai 800-ish. Itu tidak mungkin cocok dengan salah satu model umum.
sumber
Anda tampaknya menghitung jumlah nol acara - jika demikian, maka Anda dapat mempertimbangkan model ZIP (atau Rintangan) - merujuk Model Regresi untuk Menghitung Data dalam R oleh Zeileis et al untuk ikhtisar.
Untuk meringkas secara kasar, metode ini memodelkan jumlah nol secara terpisah dari sisa jumlah yang mungkin berguna dalam kasus Anda.
Lihat
pscl
paketzeroinfl()
danhurdle()
fungsi.sumber
Saya mencurigai bahwa histogram Anda dibuang dengan cara menipu. Jika Anda memiliki sedikit lebih dari 300 pengamatan yang tersebar merata di rentang 0-50, sekitar 320 tersebar merata di kisaran 50-100, dan 50 atau lebih di atas 100, rata-rata Anda seharusnya jauh lebih besar dari 18.2.
Jika data dalam rentang 0-50 tidak tersebar secara merata tetapi terkonsentrasi mendekati nol, maka melihat lebih banyak di kisaran 50-100 daripada di kisaran 0-50 mengejutkan.
Mungkin Anda memiliki campuran distribusi. Saya ragu bahwa siapa pun dapat melakukan banyak hal dengan ini tanpa pengamatan yang sebenarnya dan terutama tanpa mengetahui lebih banyak tentang konteksnya. Apakah masing-masing dari 696 pengamatan adalah seorang individu dan apakah responsnya merupakan jumlah tindakan yang diambil setiap individu? Jika ya, apakah ada berbagai jenis individu dalam data?
sumber