Saya mencoba memasukkan sedikit ke dalam statistik, tetapi saya terjebak dengan sesuatu. Data saya adalah sebagai berikut:
Year Number_of_genes
1990 1
1991 1
1993 3
1995 4
Sekarang saya ingin membangun model regresi untuk dapat memprediksi jumlah gen untuk tahun tertentu berdasarkan data. Saya melakukannya dengan regresi linier sampai sekarang, tetapi saya telah melakukan beberapa pembacaan dan sepertinya bukan pilihan terbaik untuk data jenis ini. Saya telah membaca bahwa regresi Poisson mungkin berguna, tetapi saya tidak yakin apa yang harus digunakan. Jadi pertanyaan saya adalah:
Apakah ada model regresi umum untuk data seperti ini? Jika tidak, apa yang harus saya lakukan untuk mengetahui metode mana yang paling tepat untuk digunakan (dalam hal apa yang harus saya ketahui tentang data)?
regression
count-data
poisson-regression
sequence_hard
sumber
sumber
Jawaban:
Tidak, tidak ada model regresi data hitung umum .
(Sama seperti tidak ada model regresi umum untuk data kontinu. Model linier dengan noise homoskedastik terdistribusi normal paling sering diasumsikan, dan dilengkapi dengan menggunakan Ordinary Least Squares. Namun, regresi gamma atau regresi eksponensial sering digunakan untuk menangani asumsi distribusi kesalahan yang berbeda , atau model heteroskedastisitas bersyarat, seperti ARCH atau GARCH dalam konteks deret waktu, untuk menangani kebisingan heteroskedastik.)
Model umum termasuk regresi poisson , saat Anda menulis, atau Regresi Binomial Negatif. Model-model ini cukup luas untuk menemukan semua jenis perangkat lunak, tutorial atau buku teks. Saya terutama menyukai Regresi Binomial Negatif Hilbe . Pertanyaan sebelumnya ini membahas bagaimana memilih antara model data jumlah yang berbeda.
Jika Anda memiliki "banyak" nol dalam data Anda, dan terutama jika Anda menduga bahwa nol dapat didorong oleh proses penghasil data yang berbeda dari bukan nol (atau bahwa beberapa nol berasal dari satu DGP, dan nol lainnya dan non-nol datang dari DGP yang berbeda), model nol-inflasi mungkin berguna. Yang paling umum adalah regresi zero-inflated Poisson (ZIP).
Anda juga dapat membaca pertanyaan sebelumnya dengan menandai "regresi" dan "data hitung" .
EDIT: @MichaelM memunculkan poin yang bagus. Ini memang terlihat seperti deret waktu dari jumlah data. (Dan data yang hilang untuk tahun 1992 dan 1994 menunjukkan kepada saya bahwa harus ada nol di setiap tahun-tahun ini. Jika demikian, sertakan itu. Nol adalah angka yang valid, dan memang membawa informasi.) Mengingat hal ini, saya Kami juga menyarankan untuk melihat melalui pertanyaan kami sebelumnya yang ditandai "seri waktu" dan "data hitung" .
sumber
Distribusi "default", yang paling umum digunakan dan dijelaskan, untuk data jumlah adalah distribusi Poisson . Paling sering diilustrasikan menggunakan contoh penggunaan praktis pertama:
Distribusi poisson ditentukan oleh laju per interval waktu tetap ( juga berarti dan variansnya). Dalam kasus regresi, kita dapat menggunakan distribusi Poisson dalam model linier umum dengan fungsi link-linearλλ λ
yang disebut regresi Poisson , karena kita dapat mengasumsikan bahwa adalah tingkat distribusi Poisson. Namun perhatikan bahwa untuk regresi log-linier Anda tidak harus membuat asumsi seperti itu dan cukup menggunakan GLM dengan tautan log dengan data yang tidak dihitung. Ketika menafsirkan parameter yang perlu Anda ingat bahwa, karena menggunakan transformasi log, perubahan variabel independen menghasilkan perubahan multiplikatif dalam jumlah yang diprediksi.λ
Masalah dengan menggunakan distribusi Poisson untuk data kehidupan nyata adalah mengasumsikan berarti sama dengan varians. Pelanggaran terhadap asumsi ini disebut overdispersion . Dalam kasus seperti itu Anda selalu dapat menggunakan model kuasi-Poisson , model log-linear non-Poisson (untuk jumlah besar Poisson dapat didekati dengan distribusi normal), regresi binomial negatif (terkait erat dengan Poisson; lihat Berk dan MacDonald, 2008), atau model lain, seperti yang dijelaskan oleh Stephan Kolassa .
Untuk beberapa pengantar yang ramah untuk regresi Poisson Anda juga dapat memeriksa makalah oleh Lavery (2010), atau Coxe, West dan Aiken (2009).
Lavery, R. (2010). Panduan Animasi: Pengantar Regresi Poisson. Kertas NESUG, sa04.
Coxe, S., West, SG, & Aiken, LS (2009). Analisis data jumlah: Pengantar lembut untuk regresi Poisson dan alternatifnya. Jurnal penilaian kepribadian, 91 (2), 121-136.
Berk, R., & MacDonald, JM (2008). Penyebaran berlebihan dan regresi Poisson. Jurnal Kriminologi Kuantitatif, 24 (3), 269-284.
sumber
Poisson atau binomial negatif adalah dua model yang banyak digunakan untuk menghitung data. Saya akan memilih binomial negatif karena memiliki asumsi varian yang lebih baik.
sumber