Saya hanya memikirkan cara yang rapi (belum tentu bagus) untuk membuat perkiraan kepadatan satu dimensi dan pertanyaan saya adalah:
Apakah metode estimasi kerapatan ini memiliki nama? Jika tidak, apakah ini merupakan kasus khusus dari beberapa metode lain dalam literatur?
Berikut adalah metode: Kami memiliki vektor yang kami asumsikan diambil dari beberapa distribusi yang tidak diketahui yang ingin kami perkirakan. Cara melakukan ini adalah dengan mengambil semua pasangan nilai yang mungkin dalam X dan untuk setiap pasangan [ x i , x j ] i ≠ j cocok dengan distribusi Normal menggunakan kemungkinan maksimum. Estimasi kepadatan yang dihasilkan kemudian distribusi campuran yang terdiri dari semua Normals yang dihasilkan, di mana setiap Normal diberi bobot yang sama.
Gambar di bawah ini mengilustrasikan menggunakan metode ini pada vektor . Di sini lingkaran adalah titik data, Norma berwarna adalah distribusi kemungkinan maksimum yang diperkirakan menggunakan setiap pasangan yang mungkin dan garis hitam tebal menunjukkan perkiraan kerapatan yang dihasilkan (yaitu, distribusi campuran).
Omong-omong, sangat mudah untuk menerapkan metode dalam R yang menarik sampel dari distribusi campuran yang dihasilkan:
# Generating some "data"
x <- rnorm(30)
# Drawing from the density estimate using the method described above.
density_estimate_sample <- replicate(9999, {
pair <- sample(x, size = 2)
rnorm(1, mean(pair), sd(pair))
})
# Plotting the density estimate compared with
# the "data" and the "true" density.
hist(x ,xlim=c(-5, 5), main='The "data"')
hist(density_estimate_sample, xlim=c(-5, 5), main='Estimated density')
hist(rnorm(9999), xlim=c(-5, 5), main='The "true" density')
sumber
x <- c(rnorm(30), rnorm(30, 10))
Jawaban:
Ini adalah ide yang menarik, karena penduga standar deviasi tampaknya kurang sensitif terhadap outlier daripada pendekatan root-mean-square biasa. Namun, saya ragu estimator ini telah dipublikasikan. Ada tiga alasan mengapa: itu tidak efisien secara komputasi, itu bias, dan bahkan ketika bias diperbaiki, secara statistik tidak efisien (tetapi hanya sedikit). Ini dapat dilihat dengan sedikit analisis pendahuluan, jadi mari kita lakukan itu terlebih dahulu dan kemudian menarik kesimpulan.
Analisis
dan
Karena itu metode yang dijelaskan dalam pertanyaan adalah
yang merupakan penduga rata-rata, dan
Kesimpulan
R
. (Pada platform lain, persyaratan RAM akan jauh lebih kecil, mungkin dengan sedikit biaya dalam waktu perhitungan.)Secara statistik tidak efisien. Untuk memberikan yang terbaik, mari kita pertimbangkan versi yang tidak bias dan bandingkan dengan versi yang tidak bias dari kuadrat terkecil atau penduga kemungkinan maksimum
R
Kemudian
Kode
sumber