Saya punya beberapa data dan berusaha menyesuaikan kurva yang halus dengannya. Namun, saya tidak ingin menegakkan terlalu banyak kepercayaan sebelumnya atau pra-konsepsi yang terlalu kuat (kecuali yang tersirat oleh sisa pertanyaan saya) di atasnya, atau distribusi tertentu.
Saya hanya ingin mencocokkannya dengan beberapa kurva yang halus (atau memiliki perkiraan yang baik dari distribusi probabilitas yang mungkin berasal dari). Satu-satunya metode yang saya tahu untuk melakukan ini adalah estimasi kepadatan kernel (KDE). Saya bertanya-tanya, apakah orang tahu metode lain untuk memperkirakan hal seperti itu. Saya hanya ingin daftar mereka dan dari sana saya bisa melakukan penelitian sendiri untuk mencari tahu mana yang ingin saya gunakan.
Memberikan tautan atau referensi bagus (atau intuisi yang bagus) selalu diterima (dan dianjurkan)!
sumber
Jawaban:
Anda tidak menentukan bahwa Anda sedang berbicara tentang variabel acak kontinu, tetapi saya akan berasumsi, karena Anda menyebutkan KDE, bahwa Anda menginginkannya.
Dua metode lain untuk memasang kerapatan halus:
1) estimasi kepadatan log-spline. Di sini kurva spline dipasang ke kepadatan log.
Contoh makalah:
Kooperberg dan Stone (1991),
"Sebuah studi estimasi kepadatan logspline,"
Statistik Komputasi & Analisis Data , 12 , 327-347
Kooperberg menyediakan tautan ke pdf makalahnya di sini , di bawah "1991".
Jika Anda menggunakan R, ada paket untuk ini. Contoh kecocokan yang dihasilkan olehnya ada di sini . Di bawah ini adalah histogram dari log data yang ditetapkan di sana, dan reproduksi perkiraan logspline dan kepadatan kernel dari jawabannya:
Perkiraan kepadatan logspline:
Perkiraan kepadatan kernel:
2) model campuran hingga . Di sini beberapa keluarga distribusi yang nyaman dipilih (dalam banyak kasus, normal), dan kepadatan diasumsikan merupakan campuran dari beberapa anggota keluarga yang berbeda. Perhatikan bahwa perkiraan kepadatan kernel dapat dilihat sebagai campuran seperti itu (dengan kernel Gaussian, mereka adalah campuran dari Gaussians).
Lebih umum ini mungkin dipasang melalui ML, atau algoritma EM, atau dalam beberapa kasus melalui pencocokan momen, meskipun dalam keadaan tertentu pendekatan lain mungkin layak.
(Ada banyak paket R yang melakukan berbagai bentuk pemodelan campuran.)
Ditambahkan di edit:
3) Histogram bergeser rata-rata
(yang secara harfiah tidak mulus, tetapi mungkin cukup mulus untuk kriteria Anda yang tidak disebutkan):
Bayangkan menghitung urutan histogram pada beberapa binwidth tetap ( ), melintasi asal-bin yang bergeser dengan untuk beberapa integer setiap kali, dan kemudian dirata-ratakan. Sekilas ini tampak seperti histogram yang dilakukan pada binwidth , tetapi jauh lebih lancar.b b / k k b / k
Misalnya, hitung 4 histogram masing-masing pada binwidth 1, tetapi diimbangi dengan + 0, + 0,25, + 0,5, + 0,75 dan kemudian rata-rata ketinggian pada setiap diberikan . Anda berakhir dengan sesuatu seperti:x
Diagram diambil dari jawaban ini . Seperti yang saya katakan di sana, jika Anda pergi ke tingkat upaya itu, Anda mungkin juga melakukan estimasi kepadatan kernel.
sumber
Tunduk pada komentar di atas tentang asumsi seperti kehalusan dll. Anda dapat melakukan estimasi kepadatan nonparametrik Bayesian menggunakan model campuran dengan proses Dirichlet sebelumnya.
Gambar di bawah ini menunjukkan kontur kerapatan probabilitas yang diperoleh dari estimasi MCMC untuk model campuran DP normal bivariat untuk data 'setia lama'. Poin-poin diwarnai IIRC sesuai dengan pengelompokan yang diperoleh pada langkah MCMC terakhir.
Teh 2010 memberikan latar belakang yang bagus.
sumber
Pilihan yang populer adalah hutan acak (lihat bab lima dari " Hutan Keputusan: Kerangka Kerja Terpadu untuk Klasifikasi, Regresi, Estimasi Kepadatan, Manifold Learning, dan Semi-Supervised Learning ".
Ini menjelaskan secara rinci algoritma dan mengevaluasinya terhadap pilihan populer lainnya seperti k-means, GMM dan KDE. Hutan Acak diimplementasikan dalam R dan scikit-belajar.
Hutan Acak adalah kantong pohon keputusan dalam cara yang cerdas.
sumber