Dengan data kategorikal, dapatkah ada kelompok tanpa variabel yang terkait?

19

Ketika mencoba menjelaskan analisis kluster, adalah umum bagi orang-orang untuk salah memahami proses yang terkait dengan apakah variabel berkorelasi. Salah satu cara untuk membuat orang melewati kebingungan itu adalah plot seperti ini:

masukkan deskripsi gambar di sini

Ini jelas menampilkan perbedaan antara pertanyaan apakah ada kelompok dan pertanyaan apakah variabel terkait. Namun, ini hanya menggambarkan perbedaan untuk data kontinu. Saya kesulitan memikirkan analog dengan data kategorikal:

ID  property.A  property.B
1   yes         yes
2   yes         yes
3   yes         yes
4   yes         yes
5   no          no
6   no          no
7   no          no
8   no          no

Kita dapat melihat bahwa ada dua kelompok yang jelas: orang-orang dengan properti A dan B, dan yang tidak. Namun, jika kita melihat variabel (misalnya, dengan uji chi-squared), mereka jelas terkait:

tab
#      B
# A     yes no
#   yes   4  0
#   no    0  4
chisq.test(tab)
# X-squared = 4.5, df = 1, p-value = 0.03389

Saya merasa saya bingung bagaimana membangun contoh dengan data kategorikal yang analog dengan yang dengan data kontinu di atas. Apakah mungkin untuk memiliki cluster dalam data murni kategori tanpa variabel yang terkait juga? Bagaimana jika variabel memiliki lebih dari dua level, atau karena Anda memiliki jumlah variabel yang lebih besar? Jika pengelompokan pengamatan tidak selalu memerlukan hubungan antara variabel dan sebaliknya, apakah itu menyiratkan bahwa pengelompokan tidak benar-benar layak dilakukan ketika Anda hanya memiliki data kategorikal (yaitu, haruskah Anda menganalisis variabel saja sebagai gantinya)?


Pembaruan: Saya meninggalkan banyak pertanyaan awal karena saya hanya ingin fokus pada gagasan bahwa contoh sederhana dapat dibuat yang akan langsung intuitif bahkan kepada seseorang yang sebagian besar tidak terbiasa dengan analisis cluster. Namun, saya menyadari bahwa banyak pengelompokan bergantung pada pilihan jarak dan algoritma, dll. Mungkin membantu jika saya menentukan lebih banyak.

Saya mengakui bahwa korelasi Pearson benar-benar hanya sesuai untuk data yang berkelanjutan. Untuk data kategorikal, kita dapat memikirkan uji chi-squared (untuk tabel kontingensi dua arah) atau model log-linear (untuk tabel kontingensi multi-arah) sebagai cara untuk menilai independensi variabel kategorikal.

Untuk suatu algoritma, kita dapat membayangkan menggunakan k-medoid / PAM, yang dapat diterapkan pada situasi kontinu dan data kategorikal. (Perhatikan bahwa, bagian dari maksud di balik contoh kontinu adalah bahwa algoritma pengelompokan yang masuk akal apa pun harus dapat mendeteksi kluster tersebut, dan jika tidak, contoh yang lebih ekstrem harus dimungkinkan untuk dibuat.)

Mengenai konsepsi jarak. Saya menganggap Euclidean sebagai contoh berkelanjutan, karena ini akan menjadi yang paling mendasar bagi pemirsa yang naif. Saya kira jarak yang analog dengan data kategorikal (dalam hal itu akan menjadi yang paling intuitif segera) akan menjadi pencocokan sederhana. Namun, saya terbuka untuk diskusi jarak lain jika itu mengarah pada solusi atau hanya diskusi yang menarik.

gung - Reinstate Monica
sumber
2
Saya bertanya-tanya apakah kita memiliki sesuatu seperti cluster dalam data kategorikal sama sekali . Ini bukan seolah-olah varians antara cluster akan lebih besar daripada di dalam cluster, atau dapat berbicara tentang perbedaan kepadatan antar cluster. Jadi jika kecocokan clostest adalah item items yang sering, maka variabel harus terkait untuk membentuk cluster.
Anony-Mousse -Reinstate Monica
@ Anony-Mousse, itu menarik. Mengapa tidak mengembangkan itu menjadi jawaban? BTW, saya dapat gambar cluster sebenarnya ada (misalnya, dalam variabel kontinu laten yang menimbulkan probabilitas berbeda untuk berbagai tingkat variabel nominal), tetapi saya menduga bukan itu yang Anda maksudkan.
gung - Reinstate Monica
Anda dapat mengubah distribusi kategorikal ke vektor yang komponennya adalah frekuensi yang dinormalisasi. Maka metrik Euclidean dapat diterapkan. Ini bukan satu-satunya pilihan: math.umn.edu/~garrett/m/fun/notes_2012-13/02_spaces_fcns.pdf dan en.m.wikipedia.org/wiki/Normed_vector_space
@ttnphns, tampaknya Anda telah menambahkan [data-association]tag. Saya tidak yakin apa yang seharusnya ditunjukkan & tidak memiliki kutipan / petunjuk penggunaan. Apakah kita benar-benar membutuhkan tag ini? Apakah sepertinya kandidat yang baik untuk dihapus. Jika kami benar-benar membutuhkannya di CV & Anda tahu apa yang seharusnya, bisakah Anda setidaknya menambahkan kutipan untuk itu?
gung - Reinstate Monica
@ung, saya juga tidak begitu mengerti apa maksud dari tag ini. Saya menambahkannya karena topik "hubungan / korelasi antara atribut" dari pertanyaan. Anda bebas untuk menghapus tag dari Q atau sama sekali. Di sisi lain, sudah waktunya (saya pikir) untuk memikirkan kembali tentang tag kami yang mencakup seluruh bidang korelasi / asosiasi. Misalnya, haruskah "korelasi" dipertahankan hanya untuk korelasi Pearson? Haruskah kita membuat tag baru "asosiasi-variabel" (menggantikan "asosiasi-data")?
ttnphns

Jawaban:

11

Pertimbangkan kasus gugus-jelas dengan variabel skala tidak berkorelasi - seperti gambar kanan atas dalam pertanyaan. Dan kategorikan datanya.

masukkan deskripsi gambar di sini

Kami membagi rentang skala dari kedua variabel X dan Y menjadi 3 sampah yang sekarang kami perlakukan sebagai label kategori. Selain itu, kami akan mendeklarasikannya nominal, bukan ordinal, karena pertanyaan yang diajukan secara implisit dan terutama tentang data kualitatif. Ukuran bintik adalah frekuensi dalam sel tabel lintas frekuensi; semua kasus dalam sel yang sama dianggap identik.

Secara intuitif dan paling umum, "cluster" didefinisikan sebagai gumpalan titik data yang dipisahkan oleh daerah jarang dalam "ruang" data. Awalnya dengan data skala dan tetap kesan yang sama dalam tabulasi silang dari data yang dikategorikan. X dan Y sekarang kategorikal, tetapi mereka masih terlihat tidak berkorelasi: asosiasi chi-square hampir mendekati nol. Dan ada cluster.

Namun ingat, kita berhadapan dengan kategori nominal yang urutan dalam tabelnya arbitrer. Kami dapat menyusun ulang seluruh baris dan / atau kolom sesuai keinginan, tanpa memengaruhi nilai chi-square yang diamati. Lakukan pemesanan ulang ...

masukkan deskripsi gambar di sini

... untuk memenuhi cluster yang hilang begitu saja. Keempat sel, a1, a3, c1 dan c3, bisa disatukan dalam satu cluster. Jadi tidak, kami benar - benar tidak memiliki kelompok dalam data kategorikal.

Kasus sel a1 dan c3 (atau juga dari a3 dan c1) sama sekali berbeda: mereka tidak memiliki atribut yang sama. Untuk menginduksi cluster dalam data kami - a1 dan c3 untuk membentuk cluster - kita harus mengosongkan, sebagian besar, mengacaukan sel a3 dan c1, dengan menjatuhkan kasus-kasus ini dari dataset.

masukkan deskripsi gambar di sini

Sekarang cluster memang ada. Tetapi pada saat yang sama kami kehilangan ketidakcocokan. The Struktur diagonal muncul di sinyal tabel yang chi-tatapan statistik mendapat jauh dari nol.

Kasihan. Mari kita berusaha untuk menjaga ketidakterkaitan dan kluster yang kurang lebih jelas pada saat yang sama. Kita dapat memutuskan untuk mengosongkan sel a3, misalnya, dan kemudian mempertimbangkan a1 + c1 sebagai sebuah cluster yang menentang cluster c3:

masukkan deskripsi gambar di sini

Operasi itu tidak membawa Chi-square jauh dari nol ...

[Indeed, table such as for example
 6   6   1
 6   6   1
 1   1   0
retains about the same very low chi-square association after
dividing 2nd column by 3 and multiplying 2nd row by 3, which gives
 6   2   1
18   6   3
 1  1/3  0
Cell (1,2) got thrice lower frequency. We had, however, to upheave
cell (2,1) frequency thrice, to keep Chi-sq almost as before.]

... tetapi situasi dengan cluster bingung. Cluster a1 + c1 berisi kasus-kasus yang sebagian identik, sebagian setengah berbeda. Bahwa sebuah cluster relatif homogen rendah itu sendiri bukan merupakan penghalang untuk struktur cluster yang jelas dalam dataset. Namun, masalah dengan data kategoris kami adalah bahwa cluster a1 + c1 sama sekali tidak lebih baik daripada cluster c1 + c3, analog simetrisnya. Itu berarti bahwa solusi cluster tidak stabil - itu akan tergantung pada urutan kasus dalam dataset. Solusi yang tidak stabil, bahkan relatif "berkerumun jelas", adalah solusi yang buruk, tidak dapat diandalkan.

Satu-satunya cara untuk mengatasi masalah dan membuat solusi jelas dan stabil adalah dengan melepaskan sel c3 dari sel c1 dengan memindahkan data di bawah ini ke sel b3 (atau ke b2).

masukkan deskripsi gambar di sini

Jadi kita memiliki kluster yang jelas a1 + c1 vs b3. Tapi lihat, di sini lagi pola diagonal muncul - dan chi-square dari tabel batas tinggi di atas nol.

Kesimpulan . Tidak mungkin untuk memiliki dua variabel nominal chi-square-unassociated dan kelompok data kasus yang baik secara bersamaan. Cluster yang jelas & stabil menyiratkan hubungan variabel.

Juga jelas bahwa jika asosiasi ada - yaitu pola diagonal ada atau dapat dicapai dengan menata ulang - maka cluster harus ada. Ini karena sifat data kategorikal ("semua atau tidak sama sekali") tidak mengizinkan setengah nada dan kondisi batas, oleh karena itu gambar seperti kiri bawah dalam pertanyaan OP tidak dapat muncul dengan kategorikal, data nominal.

Saya menduga bahwa seperti yang kita dapatkan variabel lebih banyak dan lebih nominal (bukan hanya dua) yang bivariat chi-square tidak berhubungan, kita mendekati kemungkinan untuk memiliki cluster. Tapi nol multivariat chi-square, saya berharap masih tidak kompatibel dengan cluster. Itu belum harus ditunjukkan (bukan oleh saya atau tidak saat ini).


Akhirnya, komentar pada @ Bey's (alias user75138) menjawab yang sebagian saya dukung. Saya telah berkomentar dengan persetujuan saya bahwa seseorang harus terlebih dahulu memutuskan metrik jarak dan ukuran asosiasi sebelum dia dapat mengajukan pertanyaan "apakah asosiasi variabel independen dari cluster kasus?". Ini karena tidak ada ukuran asosiasi universal, atau definisi statistik universal cluster. Lebih lanjut saya akan menambahkan, dia juga harus memutuskan teknik clustering. Berbagai metode pengelompokan secara berbeda mendefinisikan "cluster" apa yang mereka cari. Jadi, seluruh pernyataan itu mungkin benar.

Yang mengatakan, kelemahan dari diktum semacam itu adalah terlalu luas. Seseorang harus berusaha untuk menunjukkan secara konkret, apakah dan di mana pilihan metrik / asosiasi ukuran / metode cluster membuka ruang untuk merekonsiliasi ketidakterkaitan dengan clusteredness, untuk data nominal. Dia akan mengingat, khususnya, bahwa tidak semua banyak koefisien kedekatan untuk data biner masuk akal dengan data nominal, karena untuk data nominal, "kedua kasus tidak memiliki atribut ini" tidak pernah dapat menjadi dasar kesamaan mereka.


Perbarui , laporkan temuan simulasi saya.

.1

r

Temuan umumnya mendukung alasan yang ditampilkan di atas dalam jawaban. Tidak pernah ada kelompok yang sangat jelas (seperti yang mungkin terjadi jika asosiasi chi-square menjadi kuat). Dan hasil dari kriteria pengelompokan yang berbeda sering saling bertentangan (yang sangat tidak mungkin diharapkan ketika cluster benar-benar jelas).

Kadang-kadang pengelompokan hierarkis akan menawarkan solusi k-klaster yang agak baik, seperti yang diamati melalui plot kriteria pengelompokan; Namun, mengujinya untuk stabilitas akan gagal menunjukkan itu stabil. Misalnya, 4x4x3data 3-variabel ini

   V1  V2  V3   Count
    1   1   1   21
            2   24
            3   1
        2   1   22
            2   26
            3   1
        3   1   1
            2   1
            3   1
        4   1   17
            2   20
            3   1
    2   1   1   10
            2   12
            3   1
        2   1   10
            2   12
            3   1
        3   1   1
            2   1
            3   1
        4   1   8
            2   9
            3   1
    3   1   1   24
            2   28
            3   1
        2   1   25
            2   30
            3   1
        3   1   1
            2   1
            3   1
        4   1   19
            2   23
            3   1
    4   1   1   24
            2   28
            3   1
        2   1   26
            2   30
            3   1
        3   1   1
            2   1
            3   1
        4   1   19
            2   23
            3   1

ketika dikelompokkan dengan metode hiearchical linkage lengkap, Dice similarity, tampaknya dipecah - cukup masuk akal - menjadi 9 cluster - dalam hal ini dalam perjanjian di antara tiga hakim validitas internal:

masukkan deskripsi gambar di sini

Tetapi solusinya tidak stabil, seperti yang terlihat dari sparsity matrix kebingungan dari solusi asli terhadap solusi permutasi (yang disusun ulang):

masukkan deskripsi gambar di sini

Jika solusinya stabil (seperti yang mungkin terjadi jika kami terus-menerus data) kami akan memilih solusi 9-cluster sebagai solusi yang cukup persuasif.

Pengelompokan berdasarkan jarak log-likelihood (berlawanan dengan kesamaan Dice) dapat memberikan solusi yang stabil dan "tidak buruk" (secara internal cukup valid). Tapi itu karena jarak, setidaknya seperti yang ada di kluster TwoStep SPSS, mendorong dan menumbuhkan cluster berpenduduk tinggi dan mengabaikan yang berpopulasi rendah. Itu tidak menuntut cluster dengan frekuensi sangat rendah di dalam untuk menjadi padat (yang tampaknya menjadi "kebijakan" dari analisis cluster TwoStep, yang dirancang khusus untuk data besar dan untuk memberikan beberapa cluster, sehingga cluster kecil terlihat seolah-olah outlier) . Misalnya, data 2-variabel ini

masukkan deskripsi gambar di sini

akan digabungkan oleh TwoStep menjadi 5 cluster seperti yang ditunjukkan, secara stabil, dan solusi 5-cluster sama sekali tidak buruk sebagaimana dinilai oleh beberapa kriteria pengelompokan. Karena keempat klaster yang dihuni sangat padat di dalam (sebenarnya, semua kasus identik), dan hanya satu, kluster kelima, yang mencakup beberapa kasus, sangat entropi. Jadi jelas sebenarnya adalah solusi 12-cluster, bukan 5-cluster, tetapi 12 adalah jumlah total sel dalam tabel frekuensi, yang, sebagai "solusi cluster" adalah sepele dan tidak menarik.

ttnphns
sumber
+1, ini yang saya duga. The berpasangan unassociated vs multivariat unassociated hal yang menarik. Mempertimbangkan masalah ini secara lebih luas, apakah ini menyiratkan bahwa sebenarnya tidak ada gunanya mencoba mengelompokkan data nominal murni? Yaitu, haruskah kita selalu menganalisis variabel jika kita tidak memiliki data kontinu?
gung - Reinstate Monica
1
@ung, apakah Anda tidak tahu pepatah bahwa korelasi antara variabel adalah sisi lain dari koin polarisasi kasus ("diagolness")? Ini benar, seperti pepatah, juga untuk data kontinu. Tetapi untuk kontinu, polarisasi mungkin tidak menyiratkan kluster. Untuk kategorikal, tampaknya ini menyiratkan. Karena sifatnya yang terpisah. Jadi mungkin ya, jika variabel kategori berkorelasi, ada kelompok untuk ditemukan. Tetapi Anda harus melakukan pengelompokan untuk mendapatkan kelompok dengan cara yang lebih baik. Itu pendapat tentatif saya untuk pertanyaan besar Anda.
ttnphns
Saya tidak terbiasa dengan itu. Mungkin saya akan menanyakannya nanti. Ini informasi yang bagus untuk dikunyah untuk saat ini, saya pikir.
gung - Reinstate Monica
3

Seperti yang saya yakin Anda tahu, korelasi adalah ukuran dari hubungan linier antara dua variabel, bukan seberapa dekat poin satu sama lain. Ini menjelaskan empat angka teratas.

Tentu saja, Anda juga bisa membuat grafik serupa untuk data diskrit dan bernilai nyata juga.

X{SEBUAH,B,C,D}RXRX

Anda perlu mendefinisikan metrik untuk ruang kategori sebelum Anda benar-benar dapat berbicara tentang pengelompokan dalam arti geometris.


sumber
Saya akan mendukung jawaban ini dan akan merumuskannya kembali, jika @gung dan Bey memungkinkan, secara intuitif. Data yang dikelompokkan didefinisikan oleh "jarak kecil dalam kelompok tetapi jarak yang jauh antara kelompok". Pada gambar-gambarnya, OP memilih, secara implisit, jarak euclidean untuk mengilustrasikan ide clusteredness ini. Dia juga memilih gagasan korelasi Pearson atau sesuatu yang mirip dengannya - untuk mengilustrasikan gagasan hubungan antar variabel. Ini adalah dua pilihan khusus / sewenang-wenang di antara banyak alternatif.
ttnphns
1
(lanjutan) Saya bahkan dapat membayangkan bahwa dapat dipilih ukuran jarak dan ukuran asosiasi seperti itu di mana konsepsi "kasus berkelompok" dan konsepsi "asosiasi variabel" tidak ortogonal. Dan sekarang, untuk data kategorikal. Sebelum seseorang dapat memeriksa & menunjukkan apakah kedua konsepsi tersebut dapat independen atau terkait, ia harus memilih ukuran jarak spesifik untuk poin data kategorikal dan ukuran asosiasi spesifik untuk variabel kategorikal. Ada banyak alternatif untuk dipilih! Dan jawabannya akan tergantung.
ttnphns
@ttnphns (+1) Saya suka bagaimana Anda membingkai dua pilihan utama: metrik jarak dan asosiasi. Tidak yakin bagaimana dengan penjelasan saya yang tidak intuitif ... Anda tidak dapat mendefinisikan cluster tanpa gagasan jarak.
@ttnphns, saya pikir terserah Bey. Mengapa Anda tidak mengubah beberapa ide Anda menjadi jawaban Anda sendiri? Saya akan tertarik pada gagasan bahwa "case clusteredness" & "asosiasi variabel" menjadi non-ortogonal untuk data kontinu yang diberikan beberapa pilihan. Bey & ttnphns, saya telah menambahkan beberapa klarifikasi untuk pertanyaan mengenai jarak & ukuran asosiasi, tetapi Anda harus merasa bebas untuk pergi ke arah yang berbeda, jika Anda mau. Beri tahu saya jika perlu lebih banyak. Preferensi saya adalah bahwa pertanyaannya tetap 'longgar' mungkin untuk memberikan fleksibilitas pada penjawab untuk pergi ke arah yang berbeda.
gung - Reinstate Monica
1
@Bey, tentu saja, ada banyak kemungkinan jarak dan ukuran asosiasi lainnya untuk data kategorikal, jadi Anda bebas menyarankan sesuatu yang esoterik yang membuatnya berfungsi.
gung - Reinstate Monica
2

Pertimbangkan jarak Hamming - jarak Hamming antara dua string dengan panjang yang sama adalah jumlah posisi di mana simbol yang sesuai berbeda. Dari definisi ini tampak jelas bahwa kami dapat menghasilkan data yang kami memiliki cluster berdasarkan jarak Hamming tetapi tidak ada korelasi antara variabel.

Contoh berikut menggunakan Mathematica.

Buat beberapa data kategorikal (3 simbol urutan panjang pengambilan sampel acak seragam 4 karakter):

chs = CharacterRange["a", "d"];
words = StringJoin @@@ Union[Table[RandomChoice[chs, 3], 40]];
Length[words]
words

(* 29 *)

(* {"aac", "aad", "abb", "aca", "acb", "acd", "adb", "adc", "baa", "bab", "bac", "bad", "bcc", "bcd", "caa", "cab", "cac", "cad", "cbb", "ccb", "cda", "cdb", "dab", "dba", "dbb", "dbd", "dca", "dcc", "dcd"} *)

Gunakan plot mosaik untuk hubungan antara variabel (probabilitas bersyarat untuk pasangan nilai dari kolom yang berbeda):

Import["https://raw.githubusercontent.com/antononcube/MathematicaForPrediction/master/MosaicPlot.m"]
wordSeqs = Characters /@ words;
opts = {ColorRules -> {2 -> ColorData[7, "ColorList"]}, ImageSize -> 400};
Grid[{{MosaicPlot[wordSeqs[[All, {1, 2}]], 
    "ColumnNames" -> {"column 1", "column 2"}, opts],
   MosaicPlot[wordSeqs[[All, {2, 3}]], 
    "ColumnNames" -> {"column 2", "column 3"}, opts],
   MosaicPlot[wordSeqs[[All, {1, 3}]], 
    "ColumnNames" -> {"column 1", "column 3"}, opts]}}, Dividers -> All]

masukkan deskripsi gambar di sini

Kita dapat melihat bahwa tidak ada korelasi.

Temukan cluster:

cls = FindClusters[words, 3, DistanceFunction -> HammingDistance]

(* {{"aac", "aad", "adc", "bac"}, {"abb", "acb", "adb", "baa", "bab", "bad", 
  "caa", "cab", "cac", "cad", "cbb", "ccb", "cda", "cdb", "dab", 
  "dbb"}, {"aca", "acd", "bcc", "bcd", "dba", "dbd", "dca", "dcc", "dcd"}} *)

Jika kita mengganti setiap karakter dengan bilangan bulat, kita dapat melihat dari plot ini bagaimana cluster dibentuk dengan jarak Hamming:

esrules = Thread[chs -> Range[Length[chs]]]; gr1 = 
 ListPointPlot3D[Characters[cls] /. esrules, 
  PlotStyle -> {PointSize[0.02]}, PlotLegends -> Automatic, 
  FaceGrids -> {Bottom, Left, Back}];
gr2 = Graphics3D[
   Map[Text[#, Characters[#] /. esrules, {1, 1}] &, Flatten[cls]]];
Show[gr1, gr2]

masukkan deskripsi gambar di sini

Pengelompokan lebih lanjut

Mari kita membuat grafik dengan menghubungkan kata-kata yang jarak Hamming-nya adalah 1:

mat = Clip[Outer[HammingDistance, words, words], {0, 1}, {0, 0}];
nngr = AdjacencyGraph[mat, 
  VertexLabels -> Thread[Range[Length[words]] -> words]]

masukkan deskripsi gambar di sini

Sekarang mari kita temukan cluster komunitas:

CommunityGraphPlot[nngr]

masukkan deskripsi gambar di sini

Bandingkan cluster grafik dengan yang ditemukan dengan FindClusters(yang terpaksa menemukan 3). Kita dapat melihat "bac" sangat sentral, dan "aad" dapat menjadi bagian dari cluster hijau, yang sesuai dengan cluster 1 di plot 3D.

Grafik data

Berikut adalah daftar tepi nngr:

{1 <-> 2, 1 <-> 8, 1 <-> 11, 1 <-> 17, 2 <-> 6, 2 <-> 12, 2 <-> 18, 
 3 <-> 5, 3 <-> 7, 3 <-> 19, 3 <-> 25, 4 <-> 5, 4 <-> 6, 4 <-> 27, 
 5 <-> 6, 5 <-> 7, 5 <-> 20, 6 <-> 14, 6 <-> 29, 7 <-> 8, 7 <-> 22, 
 9 <-> 10, 9 <-> 11, 9 <-> 12, 9 <-> 15, 10 <-> 11, 10 <-> 12, 
 10 <-> 16, 10 <-> 23, 11 <-> 12, 11 <-> 13, 11 <-> 17, 12 <-> 14, 
 12 <-> 18, 13 <-> 14, 13 <-> 28, 14 <-> 29, 15 <-> 16, 15 <-> 17, 
 15 <-> 18, 15 <-> 21, 16 <-> 17, 16 <-> 18, 16 <-> 19, 16 <-> 20, 
 16 <-> 22, 16 <-> 23, 17 <-> 18, 19 <-> 20, 19 <-> 22, 19 <-> 25, 
 20 <-> 22, 21 <-> 22, 23 <-> 25, 24 <-> 25, 24 <-> 26, 24 <-> 27, 
 25 <-> 26, 26 <-> 29, 27 <-> 28, 27 <-> 29, 28 <-> 29}
Anton Antonov
sumber
Selamat datang di situs ini! Sepasang komentar: Bahasa apa kode itu? (yang tidak dijelaskan, selain itu). Bagaimana Anda mendefinisikan relationship between the variables (correlation)?
ttnphns
Ini menarik. Sayangnya, saya tidak tahu Mathematica (& saya kurang akrab dengan jarak edit), jadi saya harus bermain dengan ini untuk memastikan saya memahaminya. Saya belum memiliki kesempatan, tetapi saya bermaksud untuk segera.
gung - Reinstate Monica
@ung saya berpikir untuk melakukannya di R tapi saya pikir bagian terpenting adalah plot 3D dan memutarnya di sudut yang tepat untuk mendapatkan wawasan tentang pembentukan cluster. Pertanyaan yang bagus!
Anton Antonov
Jadi Anda memiliki "cluster" di sini. Tetapi apakah itu bermakna? Apakah mereka lebih baik daripada kelompok lain? Dari plot, saya akan mengatakan cluster 1 cukup acak. Jadi mengapa itu sebuah cluster?
Anony-Mousse -Reinstate Monica
1
Data acak seragam (!) Yang dihasilkan jelas tidak boleh memiliki kelompok. Plot "komunitas" menyesatkan karena tidak menjaga jarak. Grafik dengan 1-jarak menekankan masalah ini. Ini juga menunjukkan contoh lain seperti cda,. Maaf, saya tidak "membeli" "cluster" ini. Data seragam, seharusnya tidak memiliki cluster.
Anony-Mousse -Reinstate Monica
2

Poin @ttnphns tentang asosiasi berpasangan vs multivariat diambil dengan baik. Terkait dengan itu adalah pandangan lama tentang pentingnya menunjukkan hubungan dengan metrik sederhana sebelum melompat ke kerangka kerja multivariat. Dengan kata lain, jika ukuran hubungan berpasangan yang sederhana tidak menunjukkan hubungan, maka semakin tidak mungkin hubungan multivarian juga akan menunjukkan sesuatu. Saya mengatakan "semakin tidak mungkin" karena keengganan untuk menggunakan kata "tidak mungkin." Selain itu, saya agnostik mengenai metrik yang digunakan apakah itu korelasi Spearman monotonik untuk data ordinal, Somer D , Kendall's Tau, korelasi polikorik, MIC Reshef, korelasi jarak Szelkey, apa pun. Pilihan metrik tidak penting dalam diskusi ini.

Pekerjaan awal yang dilakukan untuk menemukan struktur laten dalam informasi kategorikal berasal dari awal 50-an dan Paul Lazersfeld, sosiolog Columbia. Pada dasarnya, ia menemukan kelas model variabel laten yang telah melihat pengembangan dan modifikasi sejak saat itu. Pertama, dengan karya 60-an James Coleman, ekonom politik C, tentang kecenderungan pemilihan pemilih laten, diikuti oleh kontribusi dari Clifford Clogg, juga seorang sosiolog, yang perangkat lunak MELISSA adalah perangkat lunak kelas laten pertama yang tersedia untuk umum.

Pada 80-an, model kelas laten diperluas dari informasi murni kategorikal ke model campuran hingga dengan pengembangan alat-alat seperti Emas Laten dari Inovasi Statistik. Selain itu, Bill Dillon, seorang ilmuwan pemasaran, mengembangkan program Gauss untuk pemasangan model campuran terbatas diskriminan laten. Literatur tentang pendekatan ini untuk menyesuaikan campuran informasi kategorikal dan kontinu sebenarnya cukup luas. Hanya saja tidak dikenal di luar bidang di mana ia telah diterapkan secara luas, misalnya, ilmu pemasaran di mana model ini digunakan untuk segmentasi dan pengelompokan konsumen.

Namun, pendekatan model campuran hingga pendekatan laten clustering dan analisis tabel kontingensi dianggap sekolah tua di dunia saat ini data besar. Keadaan canggih dalam menemukan hubungan di antara sekumpulan besar tabel kontingensi adalah dekomposisi yang tersedia dari penerapan model tensor seperti yang dikembangkan oleh David Dunson dan Bayesian lainnya di Duke. Berikut adalah abstrak dari salah satu makalah mereka serta tautan:

Analisis tabel kontingensi secara rutin bergantung pada model-model log linier, dengan analisis struktur laten memberikan alternatif umum. Model struktur laten menyebabkan faktorisasi tensor peringkat rendah dari fungsi massa probabilitas untuk data kategori multivariat, sementara model log linier mencapai pengurangan dimensionalitas melalui sparsity. Sedikit yang diketahui tentang hubungan antara gagasan pengurangan dimensi dalam dua paradigma ini. Kami memperoleh beberapa hasil yang berkaitan dengan dukungan model log-linear dengan peringkat non-negatif dari tensor probabilitas terkait. Termotivasi oleh temuan-temuan ini, kami mengusulkan kelas dekomposisi tensor Tucker yang runtuh yang baru, yang menjembatani dekomposisi PARAFAC dan Tucker yang ada, memberikan kerangka kerja yang lebih fleksibel untuk mengkarakterisasi data kategori multivariat yang sangat parsimoni.

https://arxiv.org/pdf/1404.0396.pdf

Mike Hunter
sumber
Ini informasi yang menarik. Saya tidak begitu jelas tentang bagaimana hal itu terhubung dengan pertanyaan.
gung - Reinstate Monica
gung Mengingat diskusi luas dan pertanyaan mendasar yang diajukan tentang apakah kelompok data kategorik "bahkan ada," kurangnya kejelasan tentang relevansi kontribusi saya membingungkan. Dalam pandangan saya, informasi yang diberikan menerangi area metodologi dan penemuan pengetahuan yang sebelumnya diabaikan. Bolehkah saya juga menunjukkan pengamatan awal saya - secara eksplisit ditujukan pada pertanyaan OPs - mengenai lompatan dari hubungan berpasangan ke multivariat menjadi sangat tidak mungkin karena tidak adanya hubungan di tingkat yang lebih sederhana.
Mike Hunter
Saya tidak bermaksud melakukan pelanggaran, @ Johnson. Saya (agak) akrab dengan model laten untuk pengelompokan data kategorikal (yaitu, analisis kelas laten). Saya menyinggung hal itu dalam komentar saya di atas. Saya tidak terbiasa dengan sejarah, peneliti, & perangkat lunak. Itu menarik. Saya tidak begitu mengerti bagaimana ia menjawab pertanyaan apakah ada cluster yang dapat dideteksi dalam data nominal di mana variabel tidak menunjukkan hubungan apa pun. Jika itu yang Anda maksud, sebuah contoh akan sangat membantu. Bisakah Anda menyediakannya?
gung - Reinstate Monica
@ung Tentu saja tidak dan tidak ada yang diambil.
Mike Hunter