Saya mencoba untuk mendapatkan pemahaman yang lebih baik tentang estimasi kepadatan kernel.
Menggunakan definisi dari Wikipedia: https://en.wikipedia.org/wiki/Kernel_density_estimation#Definition
Mari kita ambil menjadi fungsi persegi panjang yang memberikan jika adalah antara dan dan sebaliknya, dan (ukuran jendela) menjadi 1.
Saya mengerti bahwa kepadatan adalah konvolusi dari dua fungsi, tetapi saya tidak yakin saya tahu bagaimana mendefinisikan kedua fungsi ini. Salah satunya harus (mungkin) menjadi fungsi dari data yang, untuk setiap titik dalam R, memberi tahu kami berapa banyak titik data yang kami miliki di lokasi tersebut (kebanyakan ). Dan fungsi lainnya mungkin harus beberapa modifikasi dari fungsi kernel, dikombinasikan dengan ukuran jendela. Tetapi saya tidak yakin bagaimana mendefinisikannya.
Ada saran?
Di bawah ini adalah contoh kode R yang (saya curiga) mereplikasi pengaturan yang saya tetapkan di atas (dengan campuran dua Gaussi dan ), di mana saya berharap melihat "bukti" bahwa fungsi yang akan berbelit-belit adalah seperti yang kita duga .
# example code:
set.seed(2346639)
x <- c(rnorm(50), rnorm(50,2))
plot(density(x, kernel='rectangular', width=1, n = 10**4))
rug(x)
sumber
Jawaban:
Sesuai dengan kumpulan data apa punX= ( x1, x2, ... , xn) adalah "fungsi kepadatan empiris" -nya
Di sini,δ adalah "fungsi umum". Terlepas dari nama itu, itu sama sekali bukan fungsi: itu adalah objek matematika baru yang hanya dapat digunakan dalam integral. Properti definisinya adalah bahwa untuk setiap fungsi g dukungan kompak yang kontinu dalam lingkungan 0 ,
(Nama untukδ termasuk ukuran "atom" atau "titik" dan " Fungsi delta Dirac ." Dalam perhitungan berikut konsep ini diperluas untuk mencakup fungsi g yang kontinu dari satu sisi saja.)
Membenarkan karakterisasifX ini adalah pengamatan itu
sumber