Estimasi kepadatan dengan distribusi terpotong?

8

Saya punya beberapa data yang jelas terpotong di sebelah kiri. Saya ingin mencocokkannya dengan estimasi kepadatan yang akan menanganinya dalam beberapa cara alih-alih mencoba memuluskannya.

Metode apa yang diketahui (seperti biasa, dalam R) yang dapat mengatasi ini?

Kode sampel:

set.seed(1341)
x <- c(runif(30, 0, 0.01), rnorm(100,3))
hist(x, br = 10, freq = F)
lines(density(x), col = 3, lwd = 3)

masukkan deskripsi gambar di sini

Terima kasih :)

Tal Galili
sumber
6
Ini adalah contoh yang bagus dari sesuatu yang kadang-kadang disebut "delta lognormal distribution" (di mana sumbu x ditafsirkan sebagai logaritma). Anda dapat menganggapnya sebagai campuran dari satu distribusi kontinu (yang terlihat hampir Normal - tetapi identifikasi yang tepat terserah Anda) dan distribusi titik didukung di dekat 0. Model campuran harus melakukan pekerjaan dengan baik. Dalam kasus khusus ini, pemisahan antara atom dekat 0 dan sisa data sangat baik sehingga Anda akan cukup hanya menghapus data di sebelah kiri (kurang dari 0,5) dan memperkirakan kepadatan sisanya.
whuber
2
Dalam beberapa konteks, sesuatu seperti ini mungkin disebut distribusi Tweedie , dalam kasus yang membantu ketika Anda menjelajahi ini.
kardinal
Kardinal - terima kasih untuk referensi! Whuber, saya lebih tertarik pada bagian 0 dekat, jadi jawaban Greg di bawah ini bagus. Terima kasih semuanya.
Tal Galili

Jawaban:

6

Paket logspline untuk R memiliki fungsi oldlogspline yang akan memperkirakan kepadatan menggunakan campuran data yang diamati dan disensor.

Greg Snow
sumber
5

Fungsi kerapatan juga memiliki fromparameter untuk menunjukkan sisi paling kiri "dari grid di mana kerapatan diperkirakan". Melanjutkan dari contoh di atas:

lines(density(x, from = 0), col = 4, lwd = 3)

Namun, seperti yang Anda lihat, distribusi ini persis sama tanpa fromparameter seperti di atas. Itu baru dimulai dari 0, itu saja.

Mike T
sumber