Mencoba menghitung jumlah kunjungan dari demografi dan layanan. Data sangat miring.
Histogram:
plot qq (kiri adalah log):
m <- lm(d$Visits~d$Age+d$Gender+city+service)
m <- lm(log(d$Visits)~d$Age+d$Gender+city+service)
city
dan service
merupakan variabel faktor.
Saya mendapatkan nilai p rendah *** untuk semua variabel, tapi saya juga mendapatkan r-kuadrat rendah 0,05. Apa yang harus saya lakukan? Apakah model lain berfungsi, seperti eksponensial atau sesuatu?
Jawaban:
Regresi linier bukan pilihan yang tepat untuk hasil Anda, mengingat:
Model variabel dependen terbatas untuk menghitung data
Strategi estimasi yang dapat Anda pilih ditentukan oleh "struktur" variabel hasil Anda. Yaitu, jika variabel hasil Anda terbatas pada nilai yang dapat diambil (yaitu jika itu adalah variabel dependen terbatas ), Anda harus memilih model di mana nilai yang diprediksi akan berada dalam kisaran yang mungkin untuk hasil Anda. Sementara kadang-kadang regresi linier adalah perkiraan yang baik untuk variabel dependen terbatas (misalnya, dalam kasus biner logit / probit), seringkali tidak. Masukkan Generalized Linear Models . Dalam kasus Anda, karena variabel hasil adalah data jumlah, Anda memiliki beberapa pilihan:
Pilihan biasanya ditentukan secara empiris. Saya akan secara singkat membahas memilih antara opsi-opsi di bawah ini.
Poisson vs Binomial Negatif
ZIP vs. ZINB
Salah satu potensi komplikasi adalah inflasi nol, yang mungkin menjadi masalah di sini. Di sinilah model zero-inflated ZIP dan ZINB masuk. Dengan menggunakan model ini, Anda menganggap bahwa proses yang menghasilkan nilai-nilai nol terpisah dari proses yang menghasilkan nilai-nilai non-nol lainnya. Seperti sebelumnya, ZINB sesuai ketika hasilnya memiliki nol berlebihan dan disebarkan berlebihan, sedangkan ZIP sesuai ketika hasilnya memiliki nol berlebihan tetapi kondisional berarti = varian bersyarat. Untuk model nol-inflasi, selain model kovariat yang telah Anda sebutkan di atas, Anda perlu memikirkan variabel yang mungkin telah menghasilkan nol berlebih yang Anda lihat di hasil. Sekali lagi, ada tes statistik yang datang dengan output dari model ini (kadang-kadang Anda mungkin harus menentukannya ketika Anda menjalankan perintah) yang akan membiarkan Andaθ
Akhirnya, saya tidak menggunakan R, tetapi halaman contoh analisis data IDRE di UCLA dapat memandu Anda untuk menyesuaikan model ini.
[Edit oleh pengguna lain tanpa reputasi yang cukup untuk berkomentar: Makalah ini menjelaskan mengapa Anda tidak boleh menggunakan tes Vuong untuk membandingkan model nol-inflasi dan memberikan alternatif.
P. Wilson, "Penyalahgunaan Tes Vuong Untuk Model Non-Bersarang untuk Menguji Inflasi Nol." Economics Letters, 2015, vol. 127, edisi C, 51-53 ]
sumber
Coba Generalized Linear Model dengan Gamma Distribution. Ini dapat mendekati variabel dependen Anda dengan baik karena bernilai positif dan sama dengan nol pada x = 0. Saya telah menggunakan R dan GLM dengan beberapa keberhasilan dalam kasus serupa.
sumber
Semua asumsi statistik adalah tentang kesalahan dari suatu model. Jika Anda membuat model sederhana menggunakan 6 seri indikator yang mencerminkan hari ... Anda akan mulai melihat distribusi kesalahan yang jauh lebih baik. Lanjutkan untuk memasukkan efek bulanan dan efek liburan (SEBELUM, HIDUP DAN SETELAH) dan distribusi kesalahan akan menjadi lebih baik. Menambahkan indikator akhir pekan dan bulan-bulan-bulan-bulan-bulan-bulan-panjang, dan hal-hal bahkan akan menjadi lebih baik.
Lihatlah metode sederhana peramalan jumlah tamu yang diberikan data terkini dan historis dan /stats//search?q=user%3A3382+daily+ data untuk membaca lebih menyenangkan.
sumber