Asumsi analisis kluster

16

Permintaan maaf untuk pertanyaan mendasar, saya baru dalam bentuk analisis ini dan memiliki pemahaman yang sangat terbatas tentang prinsip-prinsip sejauh ini.

Saya hanya ingin tahu apakah banyak asumsi parametrik untuk uji multivariat / univariat yang berlaku untuk analisis Cluster? Banyak sumber informasi yang saya baca mengenai analisis klaster gagal untuk menentukan asumsi apa pun.

Saya khususnya tertarik pada asumsi independensi pengamatan. Pemahaman saya adalah bahwa pelanggaran terhadap asumsi ini (dalam ANOVA dan MAVOVA misalnya) adalah serius karena memengaruhi estimasi kesalahan. Dari bacaan saya sejauh ini, tampaknya analisis cluster sebagian besar merupakan teknik deskriptif (yang hanya melibatkan inferensi statistik dalam kasus-kasus tertentu). Oleh karena itu, apakah asumsi seperti independensi dan data berdistribusi normal diperlukan?

Setiap rekomendasi teks yang membahas masalah ini akan sangat dihargai. Terimakasih banyak.

Kyle Brown
sumber

Jawaban:

7

Nah, teknik pengelompokan tidak terbatas pada metode berbasis jarak di mana kami mencari kelompok unit statistik yang luar biasa dekat satu sama lain, dalam arti geometris. Ada juga berbagai teknik yang mengandalkan kepadatan (cluster dilihat sebagai "daerah" di ruang fitur) atau distribusi probabilitas .

Kasus terakhir juga dikenal sebagai pengelompokan berbasis model ; psikometrik menggunakan istilah Analisis Profil Laten untuk menunjukkan kasus spesifik Model Campuran Hingga ini , di mana kami mengasumsikan bahwa populasi terdiri dari berbagai kelompok yang tidak teramati, atau kelas laten, dan bahwa kepadatan bersama semua variabel manifes adalah campuran dari kelas ini- kepadatan spesifik. Implementasi yang baik tersedia di Mclust paket atau Mplus perangkat lunak. Matriks kovarian kelas-invarian yang berbeda dapat digunakan (pada kenyataannya, Mclust menggunakan kriteria BIC untuk memilih yang optimal sambil memvariasikan jumlah cluster).

Model Kelas Laten standar juga membuat asumsi bahwa data yang diamati berasal dari campuran g distribusi multinomial multivariat. Tinjauan yang baik tersedia dalam analisis kluster berbasis Model: Pertahanan , oleh Gilles Celeux.

Karena metode ini bergantung pada asumsi distribusi, ini juga memungkinkan untuk menggunakan tes formal atau indeks good-of-fit untuk memutuskan tentang jumlah cluster atau kelas, yang tetap menjadi masalah yang sulit dalam analisis cluster berbasis jarak, tetapi lihat artikel berikut yang membahas masalah ini:

  1. Handl, J., Knowles, J., dan Kell, DB (2005). Validasi cluster komputasi dalam analisis data pasca-genom. Bioinformatika , 21 (15) , 3201-3212.
  2. Hennig, C. (2007) Penilaian klaster untuk stabilitas cluster. Statistik Komputasi dan Analisis Data , 52 , 258-271.
  3. Hennig, C. (2008) Titik disolusi dan ketahanan isolasi: kriteria ketahanan untuk metode analisis kluster umum. Jurnal Analisis Multivariat , 99 , 1154-1176.
chl
sumber
3

Ada berbagai metode pengelompokan yang sangat luas, yang bersifat eksploratif, dan saya tidak berpikir bahwa ada di antara mereka, apakah berdasarkan hierarki atau berdasarkan partisi, bergantung pada jenis asumsi yang harus dipenuhi seseorang untuk menganalisis varian.

Melihat dokumentasi [MV] di Stata untuk menjawab pertanyaan Anda, saya menemukan kutipan lucu ini di halaman 85:

Meskipun ada yang mengatakan bahwa ada banyak metode analisis cluster karena ada orang yang melakukan analisis cluster. Ini meremehkan! Ada jauh lebih banyak cara untuk melakukan analisis kluster daripada orang yang melakukannya.

Dalam konteks itu, saya ragu bahwa ada asumsi yang berlaku di seluruh metode clustering. Sisa dari teks ini hanya menetapkan sebagai aturan umum bahwa Anda memerlukan suatu bentuk "ukuran ketidaksamaan", yang bahkan tidak perlu jarak metrik, untuk membuat cluster.

Namun, ada satu pengecualian, yaitu ketika Anda mengelompokkan pengamatan sebagai bagian dari analisis pasca estimasi. Di Stata, vceperintah tersebut disertai dengan peringatan berikut, di halaman 86 dari sumber yang sama:

Jika Anda terbiasa dengan array besar perintah estimasi Stata, berhati-hatilah untuk membedakan antara analisis cluster (perintah cluster) dan opsi vce (cluster clustvar) yang diizinkan dengan banyak perintah estimasi. Analisis cluster menemukan kelompok dalam data. Opsi vce (cluster clustvar) diizinkan dengan berbagai perintah estimasi menunjukkan bahwa pengamatan independen di seluruh kelompok yang ditentukan oleh opsi tetapi tidak harus independen dalam kelompok-kelompok tersebut. Variabel pengelompokan yang dihasilkan oleh perintah cluster akan jarang memenuhi asumsi di balik penggunaan opsi vce (cluster clustvar).

Berdasarkan itu, saya akan menganggap bahwa pengamatan independen tidak diperlukan di luar kasus khusus itu. Secara intuitif, saya akan menambahkan bahwa analisis kluster bahkan dapat digunakan untuk tujuan yang tepat untuk mengeksplorasi sejauh mana pengamatan independen atau tidak.

Aku akan menyelesaikan dengan menyebutkan bahwa, pada halaman 356 dari Statistik dengan Stata , Lawrence Hamilton menyebutkan variabel standar sebagai aspek "penting" dari analisis cluster, meskipun ia tidak pergi ke lebih mendalam mengenai masalah ini.

Fr.
sumber
2

Analisis klaster spasial menggunakan pengamatan yang dirujuk secara geografis dan merupakan bagian dari analisis kluster yang tidak terbatas pada analisis eksplorasi.

Contoh 1

Ini dapat digunakan untuk membuat daerah pemilihan yang adil.

Contoh 2

Tindakan autokorelasi spasial lokal digunakan dalam metode pengelompokan AMOEBA . Aldstadt dan Getis menggunakan cluster yang dihasilkan untuk membuat matriks bobot spasial yang dapat ditentukan dalam regresi spasial untuk menguji hipotesis.

Lihat Aldstadt, Jared dan Arthur Getis (2006) “Menggunakan AMOEBA untuk membuat matriks bobot spasial dan mengidentifikasi cluster spasial.” Analisis Geografis 38 (4) 327-343

Contoh 3

Analisis klaster berdasarkan daerah yang tumbuh secara acak dengan serangkaian kriteria dapat digunakan sebagai metode probabilistik untuk menunjukkan ketidakadilan dalam desain zona kelembagaan seperti zona kehadiran sekolah atau daerah pemilihan.

b_dev
sumber