Saya tahu bahwa pertanyaan ini tidak didefinisikan dengan baik, tetapi beberapa cluster cenderung berbentuk elips atau terletak di ruang dimensi yang lebih rendah sementara yang lain memiliki bentuk nonlinear (dalam contoh 2D atau 3D).
Apakah ada ukuran nonlinier (atau "bentuk") dari kluster?
Perhatikan bahwa dalam ruang 2D dan 3D, bukan masalah untuk melihat bentuk cluster mana pun, tetapi di ruang dimensi yang lebih tinggi, masalah untuk mengatakan sesuatu tentang bentuk. Secara khusus, apakah ada langkah-langkah bagaimana cluster cembung itu?
Saya terinspirasi untuk pertanyaan ini oleh banyak pertanyaan pengelompokan di mana orang berbicara tentang cluster tetapi tidak ada yang bisa melihatnya (dalam ruang dimensi yang lebih tinggi). Selain itu, saya tahu bahwa ada beberapa ukuran nonlinier untuk kurva 2D.
sumber
Jawaban:
Saya suka model Gaussian Mixture (GMM).
Salah satu fitur mereka adalah bahwa, dalam domain probit , mereka bertindak seperti interpolator piecewise. Salah satu implikasi dari hal ini adalah mereka dapat bertindak seperti basis pengganti, penaksir universal. Ini berarti bahwa untuk distribusi non-gaussian, seperti lognormal, weibull, atau non-analitik yang lebih gila, selama beberapa kriteria terpenuhi - GMM dapat memperkirakan distribusi.
Jadi jika Anda tahu parameter dari AICc atau BIC perkiraan optimal menggunakan GMM maka Anda dapat memproyeksikan ke dimensi yang lebih kecil. Anda dapat memutarnya, dan melihat sumbu utama dari komponen GMM yang mendekati.
Konsekuensinya akan menjadi cara yang informatif dan dapat diakses secara visual untuk melihat bagian paling penting dari data dimensi yang lebih tinggi menggunakan persepsi visual menonton 3d kami.
EDIT: (tentu saja, whuber)
Ada beberapa cara untuk melihat bentuknya.
EDIT:
Apa arti bentuk? Mereka mengatakan kekhususan adalah jiwa dari semua komunikasi yang baik. Apa yang Anda maksud dengan "ukuran"?
Gagasan tentang apa artinya:
Sebagian besar "beberapa cara" adalah beberapa variasi.
sumber
Ini mungkin agak sederhana, tetapi Anda mungkin mendapatkan wawasan dengan melakukan analisis nilai eigen pada masing-masing cluster Anda.
Apa yang akan saya coba adalah untuk mengambil semua poin yang ditugaskan ke sebuah cluster dan menyesuaikannya dengan Gaussian multivarian. Kemudian Anda dapat menghitung nilai eigen dari matriks kovarian yang dipasang dan memplotnya. Ada banyak cara untuk melakukan ini; mungkin yang paling terkenal dan banyak digunakan disebut analisis komponen utama atau PCA .
Setelah Anda memiliki nilai eigen (juga disebut spektrum), Anda dapat memeriksa ukuran relatifnya untuk menentukan seberapa "terentang" cluster dalam dimensi tertentu. Semakin sedikit seragam spektrumnya, semakin banyak "bentuk cerutu" klusternya, dan semakin seragam spektrumnya, semakin bulat klasternya. Anda bahkan dapat mendefinisikan semacam metrik untuk menunjukkan seberapa tidak seragamnya nilai eigennya (entropi spektral?); lihat http://en.wikipedia.org/wiki/Spectral_flatness .
Sebagai manfaat sampingan, Anda dapat memeriksa komponen utama (vektor eigen yang terkait dengan nilai eigen besar) untuk melihat "di mana" cluster "berbentuk cerutu" menunjuk di ruang data Anda.
Secara alami ini adalah perkiraan kasar untuk kluster yang sewenang-wenang, karena hanya memodelkan titik-titik dalam kluster sebagai ellipsoid tunggal. Tapi, seperti yang saya katakan, itu mungkin memberi Anda wawasan.
sumber
Algoritma pengelompokan korelasi seperti 4C, ERiC atau LMCLUS biasanya menganggap cluster sebagai manifold linier. Yakni hyperplanes k-dimensional dalam ruang d-dimensional. Nah, untuk 4C dan ERiC hanya linier secara lokal, sehingga sebenarnya bisa non-cembung. Tetapi mereka masih mencoba untuk mendeteksi kelompok dimensi lokal yang berkurang.
Menemukan cluster berbentuk sewenang-wenang dalam data dimensi tinggi adalah masalah yang cukup sulit. Khususnya, karena kutukan dimensi yang memungkinkan ruang pencarian meledak dan pada saat yang sama juga mengharuskan Anda memiliki data input yang jauh lebih besar jika Anda masih menginginkan hasil yang signifikan . Terlalu banyak algoritma tidak memperhatikan apakah apa yang mereka temukan masih signifikan atau bisa juga acak.
Jadi sebenarnya saya percaya ada masalah lain untuk dipecahkan sebelum berpikir tentang cembung non-cembung cluster kompleks di ruang dimensi tinggi.
Lihat juga kompleksitas komputasi cembung lambung dalam dimensi yang lebih tinggi ...
Juga, apakah Anda memiliki kasus penggunaan yang sebenarnya untuk itu di luar rasa ingin tahu?
sumber
Jika dimensi Anda tidak jauh lebih tinggi dari 2 atau 3, maka dimungkinkan untuk memproyeksikan gugus minat ke ruang 2D beberapa kali dan memvisualisasikan hasil atau menggunakan pengukuran 2D nonlinier Anda. Saya memikirkan hal ini karena metode Proyeksi Acak http://users.ics.aalto.fi/ella/publications/randproj_kdd.pdf .
Proyeksi acak dapat digunakan untuk mengurangi dimensi untuk membangun indeks. Teorinya adalah bahwa jika dua titik dekat dalam dimensi D dan Anda mengambil proyeksi acak ke dalam dimensi d dengan d
Untuk konkret, Anda bisa memikirkan memproyeksikan bola dunia ke permukaan yang rata. Tidak peduli bagaimana Anda memproyeksikannya, New York dan New Jersey akan bersama, tetapi jarang Anda akan menyatukan New York dan London.
Saya tidak tahu apakah ini dapat membantu Anda dengan keras tetapi mungkin ini cara cepat untuk memvisualisasikan kluster.
sumber