Saya memiliki beberapa distribusi (10 distribusi pada gambar di bawah).
Sebenarnya ini adalah histogram: ada 70 nilai pada sumbu x yang merupakan ukuran beberapa partikel dalam larutan dan untuk setiap nilai x nilai y yang sesuai adalah proporsi partikel yang ukurannya berada di sekitar nilai x.
Saya ingin mengelompokkan distribusi ini. Saat ini saya menggunakan pengelompokan hierarkis dengan jarak Euclidean misalnya. Saya tidak puas dengan pilihan jarak. Saya telah mencoba informasi-teori jarak seperti Kullback-Leibler tetapi ada banyak nol dalam data dan ini menyebabkan kesulitan. Apakah Anda memiliki proposal dengan jarak yang sesuai dan / atau metode pengelompokan lain?
sumber
Jika data Anda adalah histogram, Anda mungkin ingin melihat fungsi jarak yang sesuai untuk itu seperti "jarak persimpangan histogram".
Ada alat yang disebut ELKI yang memiliki berbagai macam algoritma pengelompokan (jauh lebih modern daripada k-means dan pengelompokan hierarkis) dan bahkan memiliki versi jarak persimpangan histogram yang disertakan, yang dapat Anda gunakan di sebagian besar algoritma. Anda mungkin ingin mencoba beberapa algoritma yang tersedia di dalamnya. Dari plot yang Anda berikan di atas, tidak jelas bagi saya apa yang ingin Anda lakukan. Kelompokkan histogram individu, bukan? Menilai dari 10 yang Anda tunjukkan di atas, mungkin tidak ada cluster.
sumber
Anda mungkin ingin menggunakan beberapa teknik ekstraksi fitur untuk memperoleh deskriptor untuk k-means atau tipe pengelompokan lainnya.
Pendekatan dasar adalah mencocokkan distribusi tertentu dengan histogram Anda dan menggunakan parameternya sebagai deskriptor. Misalnya, Anda tampaknya memiliki distribusi bimodal, yang dapat Anda gambarkan dengan 2 cara dan 2 standar deviasi.
Kemungkinan lain adalah untuk mengelompokkan dua atau tiga komponen utama dari hitungan histogram.
Atau pendekatan wavelet dapat digunakan.
Halaman ini menjelaskan cara melakukannya ketika berhadapan dengan paku ekstraseluler. Data berbeda, tetapi idenya harus berlaku untuk kasus Anda. Anda juga akan menemukan banyak referensi di bagian bawah.
http://www.scholarpedia.org/article/Spike_sorting
Dalam R Anda dapat menghitung komponen utama dari puncak Anda menggunakan salah satu
princomp
atauprcomp
fungsi. Di sini Anda akan menemukan tutorial tentang PCA di R.Untuk wavelet Anda dapat melihat
wavelets
paket.k-means clustering dapat dicapai menggunakan
kmeans
fungsi.sumber