Bagaimana cara memodelkan data kontinu nol-meningkat non-negatif?

15

Saat ini saya mencoba menerapkan model linier ( family = gaussian) ke indikator keanekaragaman hayati yang tidak dapat mengambil nilai lebih rendah dari nol, inflasi nol dan berkelanjutan. Nilai berkisar dari 0 hingga sedikit di atas 0,25. Sebagai akibatnya, ada pola yang cukup jelas dalam residu model yang belum berhasil saya singkirkan: masukkan deskripsi gambar di sini

Adakah yang punya ide untuk menyelesaikannya?

David
sumber
1
Selamat datang di CV! Perhatikan bahwa nama pengguna, identitas, & tautan ke halaman pengguna Anda secara otomatis ditambahkan ke setiap posting yang Anda buat, jadi tidak perlu menandatangani posting Anda. Faktanya, kami lebih suka Anda tidak melakukannya.
Silverfish
3
Jika inflasi nol tidak dapat kontinu, karena variabel kontinu tidak dapat memiliki lompatan dalam cdf (dan jelas ada satu di 0). Mungkin terus menerus selain dari 0.
Glen_b -Reinstate Monica
Terkait: stats.stackexchange.com/questions/105320
amoeba mengatakan Reinstate Monica

Jawaban:

32

Ada berbagai solusi untuk kasus distribusi kontinu nol-meningkat (semi-):

  • Regresi Tobit : mengasumsikan bahwa data berasal dari satu distribusi Normal yang mendasarinya, tetapi nilai negatif disensor dan ditumpuk pada nol (mis. Paket censReg )
  • model rintangan atau "dua tahap": gunakan model binomial untuk memprediksi apakah nilainya 0 atau> 0, kemudian gunakan model linier (atau Gamma, atau terpotong Normal, atau log-Normal) untuk memodelkan nilai bukan nol yang diamati
  • 1<p<2x>0

Atau, jika struktur data Anda cukup sederhana, Anda bisa menggunakan model linier dan menggunakan tes permutasi atau pendekatan kuat lainnya untuk memastikan bahwa kesimpulan Anda tidak dikacaukan oleh distribusi data yang menarik.

Ada paket R / solusi yang tersedia untuk sebagian besar kasus ini.

Ada pertanyaan lain di SE tentang data kontinu nol-inflated (semi) (misalnya di sini , di sini , dan di sini ), tetapi mereka tampaknya tidak menawarkan jawaban umum yang jelas ...

Lihat juga Min & Agresti, 2002, Pemodelan Data Nonnegatif dengan Clumping at Zero: A Survey untuk ikhtisar.

Ben Bolker
sumber
@ Ben Bolker Apakah Anda "menggunakan model linier (atau Gamma, atau terpotong Normal, atau log-Normal) untuk memodelkan" nilai yang diprediksi atau aktual bukan nol?
rolando2