Regresi dengan data miring

11

Mencoba menghitung jumlah kunjungan dari demografi dan layanan. Data sangat miring.

Histogram:

histogram

plot qq (kiri adalah log):

plot qq - hak adalah log

m <- lm(d$Visits~d$Age+d$Gender+city+service)
m <- lm(log(d$Visits)~d$Age+d$Gender+city+service)

citydan servicemerupakan variabel faktor.

Saya mendapatkan nilai p rendah *** untuk semua variabel, tapi saya juga mendapatkan r-kuadrat rendah 0,05. Apa yang harus saya lakukan? Apakah model lain berfungsi, seperti eksponensial atau sesuatu?

pxxd
sumber
Karena apa yang awalnya saya pikir adalah frekuensi tinggi nol sebenarnya frekuensi tinggi berpasangan, dapatkah Anda memberi tahu kami sedikit lebih banyak tentang proses pembuatan data? Layanan seperti apa yang dilakukan orang, dan apa "tujuan akhir" analisis ini? Apakah Anda mencoba memprediksi jumlah (jumlah) kunjungan, dengan serangkaian karakteristik (yaitu sebagai ukuran kualitas layanan)? Apakah Anda benar-benar perlu mempertahankan hasil sebagai penghitungan untuk tujuan menjawab pertanyaan penelitian Anda, atau bisakah Anda membagi variabel hasil ke dalam lebih sedikit, tetapi kategori yang lebih besar?
Marquis de Carabas
2
Anda memiliki data jumlah. Cari situs ini untuk regresi Poisson.
kjetil b halvorsen

Jawaban:

10

Regresi linier bukan pilihan yang tepat untuk hasil Anda, mengingat:

  1. Variabel hasil tidak terdistribusi secara normal
  2. Variabel hasil dibatasi dalam nilai yang dapat diambilnya (hitung data berarti nilai yang diprediksi tidak boleh negatif)
  3. Apa yang tampaknya merupakan frekuensi tinggi kasus dengan 0 kunjungan

Model variabel dependen terbatas untuk menghitung data

Strategi estimasi yang dapat Anda pilih ditentukan oleh "struktur" variabel hasil Anda. Yaitu, jika variabel hasil Anda terbatas pada nilai yang dapat diambil (yaitu jika itu adalah variabel dependen terbatas ), Anda harus memilih model di mana nilai yang diprediksi akan berada dalam kisaran yang mungkin untuk hasil Anda. Sementara kadang-kadang regresi linier adalah perkiraan yang baik untuk variabel dependen terbatas (misalnya, dalam kasus biner logit / probit), seringkali tidak. Masukkan Generalized Linear Models . Dalam kasus Anda, karena variabel hasil adalah data jumlah, Anda memiliki beberapa pilihan:

  1. Model Poisson
  2. Model Binomial negatif
  3. Model Zero Inflated Poisson (ZIP)
  4. Model Nol Inflated Negative Binomial (ZINB)

Pilihan biasanya ditentukan secara empiris. Saya akan secara singkat membahas memilih antara opsi-opsi di bawah ini.


Poisson vs Binomial Negatif

θH0:θ=0H1:θ0θ

ZIP vs. ZINB

Salah satu potensi komplikasi adalah inflasi nol, yang mungkin menjadi masalah di sini. Di sinilah model zero-inflated ZIP dan ZINB masuk. Dengan menggunakan model ini, Anda menganggap bahwa proses yang menghasilkan nilai-nilai nol terpisah dari proses yang menghasilkan nilai-nilai non-nol lainnya. Seperti sebelumnya, ZINB sesuai ketika hasilnya memiliki nol berlebihan dan disebarkan berlebihan, sedangkan ZIP sesuai ketika hasilnya memiliki nol berlebihan tetapi kondisional berarti = varian bersyarat. Untuk model nol-inflasi, selain model kovariat yang telah Anda sebutkan di atas, Anda perlu memikirkan variabel yang mungkin telah menghasilkan nol berlebih yang Anda lihat di hasil. Sekali lagi, ada tes statistik yang datang dengan output dari model ini (kadang-kadang Anda mungkin harus menentukannya ketika Anda menjalankan perintah) yang akan membiarkan Andaθ

θH0:θ=0H1:θ0H0:Excess zeroes is not a result of a separate processH1:Excess zeroes is a result of a separate process


θθ

Akhirnya, saya tidak menggunakan R, tetapi halaman contoh analisis data IDRE di UCLA dapat memandu Anda untuk menyesuaikan model ini.

[Edit oleh pengguna lain tanpa reputasi yang cukup untuk berkomentar: Makalah ini menjelaskan mengapa Anda tidak boleh menggunakan tes Vuong untuk membandingkan model nol-inflasi dan memberikan alternatif.

P. Wilson, "Penyalahgunaan Tes Vuong Untuk Model Non-Bersarang untuk Menguji Inflasi Nol." Economics Letters, 2015, vol. 127, edisi C, 51-53 ]

Marquis de Carabas
sumber
mayoritas adalah 2 ~ kunjungan. Semua catatan lebih dari 1 kunjungan
pxxd
Saya mendapatkan plot qq yang sama untuk glm of poisson dan gamma, apakah tidak apa-apa?
pxxd
3
1. variabel hasil tidak terdistribusi secara normal tidak per se argumen yang valid terhadap regresi linier. Serangkaian asumsi regresi yang menjamin sifat-sifat bagus dari estimator (seperti konsistensi dan normalitas asimptotik) tidak termasuk normalitas variabel hasil (dan bahkan tidak normalitas kesalahan).
Richard Hardy
2

Coba Generalized Linear Model dengan Gamma Distribution. Ini dapat mendekati variabel dependen Anda dengan baik karena bernilai positif dan sama dengan nol pada x = 0. Saya telah menggunakan R dan GLM dengan beberapa keberhasilan dalam kasus serupa.

Diego
sumber
Visits d
1
Tidak, saya yakin Anda tidak harus menggunakan tautan log melainkan tautan identitas. Tetapi pertama-tama periksa seberapa baik fungsi gamma sesuai dengan distribusi Anda.
Diego
0

Semua asumsi statistik adalah tentang kesalahan dari suatu model. Jika Anda membuat model sederhana menggunakan 6 seri indikator yang mencerminkan hari ... Anda akan mulai melihat distribusi kesalahan yang jauh lebih baik. Lanjutkan untuk memasukkan efek bulanan dan efek liburan (SEBELUM, HIDUP DAN SETELAH) dan distribusi kesalahan akan menjadi lebih baik. Menambahkan indikator akhir pekan dan bulan-bulan-bulan-bulan-bulan-bulan-panjang, dan hal-hal bahkan akan menjadi lebih baik.

Lihatlah metode sederhana peramalan jumlah tamu yang diberikan data terkini dan historis dan /stats//search?q=user%3A3382+daily+ data untuk membaca lebih menyenangkan.

IrishStat
sumber
1
Jawaban ini tampaknya tidak menyangkut pertanyaan yang sebenarnya ditanyakan. Bisakah Anda membuat koneksi eksplisit?
whuber
Saya mengambil DVISITS-nya untuk menyarankan data harian ... jika tidak demikian maka saya membatalkan jawaban saya. Jika itu benar-benar cross-sectional .. maka mungkin ia harus mempertimbangkan stratifikasi data dengan klasifikasi utama.
IrishStat