Saya memiliki data kepadatan ikan yang saya coba bandingkan di antara beberapa teknik pengumpulan yang berbeda, datanya memiliki banyak nol, dan histogram terlihat vaugley sesuai untuk distribusi poisson kecuali bahwa, sebagai kepadatan, itu bukan data integer. Saya relatif baru di GLM dan telah menghabiskan beberapa hari terakhir mencari online cara mengetahui distribusi mana yang akan digunakan tetapi telah gagal total dalam menemukan sumber daya apa pun yang membantu membuat keputusan ini. Contoh histogram data terlihat seperti berikut:
Saya tidak tahu bagaimana cara memutuskan keluarga yang tepat untuk digunakan untuk GLM. Jika ada yang punya saran atau bisa memberi saya sumber daya yang harus saya periksa, itu akan fantastis.
Jawaban:
Keluarga GLM terdiri dari fungsi tautan serta hubungan mean-variance. Untuk Poisson GLM, fungsi tautan adalah log, dan hubungan mean-variance adalah identitas. Terlepas dari peringatan yang diberikan oleh sebagian besar perangkat lunak statistik, sangat masuk akal untuk memodelkan hubungan dalam data berkelanjutan di mana hubungan antara dua variabel linier pada skala log, dan variansnya meningkat sesuai dengan rata-rata.
Ini, pada dasarnya, adalah alasan untuk memilih fungsi tautan dan varians dalam GLM. Tentu saja, ada beberapa asumsi di balik proses ini. Anda dapat membuat model yang lebih kuat dengan menggunakan quasilikelihood (lihat
?quasipoisson
) atau kesalahan standar yang kuat (lihat paketsandwich
ataugee
).Anda telah mencatat dengan benar bahwa banyak kepadatan adalah 0 dalam data Anda. Di bawah model probabilitas Poisson, adalah tepat untuk sesekali mengambil sampel 0s dalam data, jadi itu tidak selalu menjadi kasus bahwa pengamatan ini mengarah pada bias dalam estimasi tarif Anda.
Untuk memeriksa asumsi di balik GLM, biasanya bermanfaat untuk melihat residu Pearson. Ini menjelaskan hubungan varians rata-rata dan menunjukkan ahli statistik apakah pengamatan tertentu, seperti 0s ini, sangat memengaruhi estimasi dan hasil.
sumber
Model linier umum didefinisikan dalam hal prediktor linier
sehingga model dapat didefinisikan dalam istilah probabilistik sebagai
Jika hasil Anda kontinu dan tidak terbatas, maka pilihan paling "default" adalah distribusi Gaussian ( distribusi normal ), yaitu regresi linier standar (kecuali jika Anda menggunakan fungsi tautan lainnya maka tautan identitas default).
Jika Anda berurusan dengan hasil non-negatif terus menerus , maka Anda dapat mempertimbangkan distribusi Gamma , atau distribusi Inverse Gaussian .
Jika hasil Anda diskrit , atau lebih tepatnya, Anda berhadapan dengan penghitungan (berapa kali sesuatu terjadi dalam interval waktu tertentu), maka pilihan distribusi yang paling umum untuk memulai adalah distribusi Poisson . Masalah dengan distribusi Poisson adalah bahwa itu agak tidak fleksibel dalam kenyataan bahwa ia mengasumsikan bahwa rata-rata sama dengan varians, jika asumsi ini tidak terpenuhi, Anda dapat mempertimbangkan menggunakan keluarga quasi-Poisson , atau distribusi binomial negatif (lihat juga Definisi dispersi parameter untuk keluarga quasipoisson ).
Jika hasil Anda adalah biner (nol dan satu), proporsi "keberhasilan" dan "kegagalan" (nilai antara 0 dan 1), atau jumlah mereka , Anda dapat menggunakan distribusi Binomial , yaitu model regresi logistik . Jika ada lebih dari dua kategori, Anda akan menggunakan distribusi multinomial dalam regresi multinomial .
Di sisi lain, dalam praktiknya, jika Anda tertarik untuk membangun model prediksi, Anda mungkin tertarik untuk menguji beberapa distribusi yang berbeda, dan pada akhirnya mengetahui bahwa salah satu dari mereka memberi Anda hasil yang lebih akurat daripada yang lain bahkan jika itu bukan paling "tepat" dalam hal pertimbangan teoretis (misalnya dalam teori Anda harus menggunakan Poisson, tetapi dalam praktiknya regresi linier standar paling cocok untuk data Anda).
sumber
Ini adalah pertanyaan yang agak luas, Anda bertanya bagaimana melakukan pemodelan, dan ada seluruh buku yang didedikasikan untuk itu. Misalnya, saat berurusan dengan data jumlah, pertimbangkan hal berikut:
Selain memilih distribusi, Anda harus memilih fungsi tautan. Dengan data jumlah, Anda dapat mencoba distribusi binomial poisson atau negatif, dan fungsi tautan log. Alasan untuk tautan log diberikan di sini: Goodness of fit dan model mana untuk memilih regresi linier atau Poisson. Jika tambalan Anda memiliki area yang sangat berbeda, mungkin Anda harus memasukkan logaritma area sebagai offset, untuk memodelkan jumlah per unit area dan tidak mutlak penting. Untuk penjelasan offset dalam regresi data hitung, lihat Kapan menggunakan offset dalam regresi Poisson?
Jawaban ini awalnya diposting ke pertanyaan lain, yang digabung dengan yang ini. Walaupun jawabannya umum, jawabannya adalah spesifik dari kumpulan data dan masalah yang tidak ada lagi dalam pertanyaan. Pertanyaan asli dapat ditemukan di tautan berikut: Keluarga di GLM - bagaimana memilih yang benar?
sumber