Saya memiliki urutan biner seperti 11111011011110101100000000000100101011011111101111100000000000011010100000010000000011101111
Di mana kluster sebagian besar 1 diikuti oleh jumlah yang lebih besar dari nol, seperti pada gambar di bawah ini (hitam singkatan dari 1):
Saya ingin menerapkan teknik (lebih disukai dalam R atau dengan Python) di mana saya dapat secara otomatis mendeteksi kluster 1 ini, dan menghasilkan bentang (dilambangkan sebagai garis merah pada gambar). Saya tahu orang bisa melakukan ini dengan ambang, yaitu mengatakan bahwa dua cluster harus dipisahkan oleh setidaknya n 0 untuk menjadi cluster, tetapi saya bertanya-tanya apakah ada metode lain yang ditetapkan yang tidak menggunakan ambang batas yang telah ditentukan .
Ada ide?
Referensi 1 pada halaman 49-55 memiliki bagian yang bagus tentang metode berbasis kernel yang mungkin berguna di sini. Jika saya melakukannya maka saya akan melihat sejumlah nilai tertimbang dari nilai aktual dan turunan pertama mereka karena mungkin menjadi indikator yang lebih baik dari "informasi".
Referensi: http://amzn.com/0198538642 "Jaringan Saraf untuk Pengenalan Pola" oleh Christopher Bishop. (1995)
sumber
Masalahnya memiliki beberapa kesamaan dengan pemrosesan gambar. Anda memiliki gambar biner dengan tinggi satu piksel dan ingin mencapai semacam segmentasi .
Sifat gambar input menunjukkan filter morfologis untuk menghaluskan daerah, misalnya penutupan . Anda harus memilih elemen penataan yang dengan demikian menentukan "keterkaitan" cluster. Pada akhirnya ini sangat mirip dengan pendekatan Anda. Anda juga dapat menghaluskan gambar menggunakan filter konvolusi, misalnya menggunakan blur, atau kernel gaussian dan menerapkan ambang yang dipilih untuk melakukan binarisasi ulang.
Jika Anda dapat memperlakukan setiap
1
sebagai titik, posisinya dalam urutan sebagai koordinat, dan dapat membuat beberapa metrik jarak, Anda dapat menggunakan hampir semua algoritma pengelompokan standar yang ada. Misalnya, Anda dapat menggunakan pengelompokan hierarkis (pilih kriteria keterkaitan dan ambang batas), Anda dapat menggunakan k-means atau EM dengan model campuran gaussian (pilih jumlah cluster yang Anda cari).Tapi saya tidak berpikir, Anda akhirnya bisa pergi tanpa harus menentukan sensitivitas dari algoritma setidaknya.
sumber