Adakah yang bisa melaporkan pengalaman mereka dengan penaksir kepadatan kernel adaptif?
(Ada banyak sinonim: adaptif | variabel | lebar variabel, KDE | histogram | interpolator ...)
Estimasi kepadatan kernel variabel
mengatakan "kami memvariasikan lebar kernel di berbagai daerah ruang sampel. Ada dua metode ..." sebenarnya, lebih: tetangga dalam beberapa radius, KNN tetangga terdekat (K biasanya diperbaiki), pohon Kd, multigrid ...
Tentu saja tidak ada metode tunggal yang dapat melakukan segalanya, tetapi metode adaptif terlihat menarik.
Lihat misalnya gambar yang bagus dari mesh 2d adaptif dalam
metode elemen hingga .
Saya ingin mendengar apa yang berhasil / apa yang tidak berfungsi untuk data nyata, terutama> = 100rb titik data yang tersebar di 2d atau 3d.
Ditambahkan 2 Nov: inilah plot kepadatan "clumpy" (secara berurutan x ^ 2 * y ^ 2), perkiraan tetangga terdekat, dan Gaussian KDE dengan faktor Scott. Sementara satu (1) contoh tidak membuktikan apa-apa, itu menunjukkan bahwa NN dapat memuat bukit tajam dengan cukup baik (dan, menggunakan pohon KD, cepat dalam 2d, 3d ...)
sumber
Jawaban:
Intuisi di balik hasil ini adalah bahwa jika Anda tidak dalam pengaturan yang sangat jarang, maka, kepadatan lokal tidak cukup bervariasi untuk mendapatkan bias untuk mengalahkan kerugian dalam efisiensi (dan karenanya AMISE kernel lebar variabel meningkat relatif terhadap AMISE dengan lebar tetap). Juga, mengingat ukuran sampel besar yang Anda miliki (dan dimensi kecil) kernel dengan lebar tetap sudah sangat lokal, mengurangi setiap potensi keuntungan dalam hal bias.
sumber
Kertas
Maxim V. Shapovalov, Roland L. Dunbrack Jr., Perpustakaan Rotamer Bertulang Back-Dependent untuk Protein Berasal dari Perkiraan dan Regresi Kepadatan Kernel Adaptif, Struktur, Volume 19, Edisi 6, 8 Juni 2011, Halaman 844-858, ISSN 0969- 2126, 10.1016 / j.str.2011.03.019.
menggunakan estimasi kepadatan kernel adaptif untuk membuat estimasi kepadatannya halus di wilayah di mana data jarang.
sumber
Loess / lowess pada dasarnya adalah metode variabel KDE, dengan lebar kernel diatur oleh pendekatan tetangga terdekat. Saya telah menemukan bahwa itu bekerja dengan cukup baik, tentu jauh lebih baik daripada model lebar tetap ketika kepadatan titik data sangat bervariasi.
Satu hal yang perlu diperhatikan dengan KDE dan data multi dimensi adalah kutukan dimensi. Hal-hal lain dianggap sama, ada jauh lebih sedikit titik dalam radius yang ditetapkan ketika p ~ 10, daripada ketika p ~ 2. Ini mungkin tidak menjadi masalah bagi Anda jika Anda hanya memiliki data 3d, tetapi itu sesuatu yang perlu diingat.
sumber