Versi singkat: Apa metode yang paling efisien secara komputasi untuk memperkirakan mode set data multidimensi, yang diambil dari distribusi kontinu?
Versi panjang: Saya punya satu set data yang saya perlukan untuk memperkirakan mode. Mode ini tidak sesuai dengan mean atau median. Contoh ditunjukkan di bawah ini, ini adalah contoh 2D, tetapi solusi ND akan lebih baik:
Saat ini, metode saya adalah
- Hitung estimasi kepadatan kernel pada grid yang sama dengan resolusi mode yang diinginkan
- Cari titik perhitungan terbesar
Jelas, ini menghitung KDE pada banyak titik yang tidak masuk akal, yang sangat buruk jika ada banyak titik data berdimensi tinggi atau saya mengharapkan resolusi yang baik pada mode.
Alternatifnya adalah menggunakan anil simulasi, algoritma genetika, dll untuk menemukan puncak global di KDE.
Pertanyaannya adalah apakah ada metode yang lebih cerdas dalam melakukan perhitungan ini?
Jawaban:
Eksposisi yang sangat rinci pada algoritma juga diberikan dalam entri blog ini .
sumber
Jika minat utama Anda adalah masalah 2-Dimensi, saya akan mengatakan bahwa estimasi kepadatan kernel adalah pilihan yang baik karena memiliki sifat asimptotis yang bagus (perhatikan bahwa saya tidak mengatakan bahwa itu adalah yang terbaik). Lihat misalnya
Untuk dimensi yang lebih tinggi (4+) metode ini sangat lambat karena kesulitan yang terkenal dalam memperkirakan matriks bandwidth optimal, lihat .
Sekarang, masalah dengan perintah
ks
dalam paketKDE
adalah, seperti yang Anda sebutkan, bahwa ia mengevaluasi kepadatan dalam kotak tertentu yang bisa sangat membatasi. Masalah ini dapat diatasi jika Anda menggunakan paketKDE
untuk memperkirakan matriks bandwidth, menggunakan misalnyaHscv
, mengimplementasikan penduga kepadatan Kernel dan kemudian mengoptimalkan fungsi ini menggunakan perintahoptim
. Ini ditunjukkan di bawah ini menggunakan data simulasi dan kernel Gaussian diR
.Pengukur bentuk terbatas cenderung lebih cepat, misalnya
Tetapi mereka terlalu memuncak untuk tujuan ini.
Metode lain yang dapat Anda pertimbangkan untuk digunakan adalah: memasang campuran multivariat hingga normals (atau distribusi fleksibel lainnya) atau
Saya harap ini membantu.
sumber
Baru-baru ini kami telah menerbitkan makalah yang menyarankan penduga mode cepat yang konsisten.
Saya juga akan menyarankan penduga mode varians minimal baru dari makalah saya baru-baru ini
sumber