Saya memiliki dataset yang nominal 16 dimensi. Saya memiliki sekitar 100 sampel dalam satu kasus dan sekitar 20.000 lainnya. Berdasarkan berbagai analisis eksplorasi yang telah saya lakukan menggunakan PCA dan peta panas, saya yakin bahwa dimensi sebenarnya (yaitu jumlah dimensi yang diperlukan untuk menangkap sebagian besar "sinyal") adalah sekitar 4. Saya ingin membuat slide untuk efek itu untuk presentasi. "Kearifan konvensional" tentang data ini, yang ingin saya buktikan, adalah bahwa dimensi sejati adalah satu atau dua.
Apa visualisasi yang bagus dan sederhana untuk menunjukkan dimensi sebenarnya dari suatu dataset? Sebaiknya dimengerti oleh orang-orang yang memiliki latar belakang statistik tetapi bukan ahli statistik "nyata".
Jawaban:
Pendekatan standar adalah dengan melakukan PCA dan kemudian menunjukkan plot scree, yang Anda harus bisa mengeluarkannya dari perangkat lunak apa pun yang Anda pilih. Sedikit bermain-main dan Anda bisa membuatnya lebih bisa ditafsirkan untuk audiens khusus Anda jika perlu. Kadang-kadang mereka bisa meyakinkan, tetapi seringkali mereka ambigu dan selalu ada ruang untuk berdalih tentang bagaimana membacanya sehingga plot scree mungkin (edit: tidak!) Menjadi ideal. Layak untuk dilihat.
sumber
psych
mengimplementasikan keduanya dengan disertai grafik scree-like (lihatfa.parallel()
danVSS()
). Makalah adalah "Perbandingan lima aturan untuk menentukan jumlah komponen yang akan dipertahankan."Salah satu cara untuk memvisualisasikan ini adalah sebagai berikut:
Jika datanya benar≤2 Dimensi, plot harus terlihat seperti garis datar.
Di Matlab (menghindari semua sepatu yang dilempar):
Ini menghasilkan plot pencar berikut:
Jika Anda mengubah
lat_d
ke 4, garisnya kurang rata.sumber
Saya telah melakukan hal serupa menggunakan PROC Varclus di SAS. Ide dasarnya adalah untuk menghasilkan solusi 4 cluster, pilih variabel berkorelasi tertinggi dengan masing-masing cluster, dan kemudian untuk menunjukkan bahwa solusi 4 cluster ini menjelaskan lebih banyak variasi daripada solusi dua cluster. Untuk solusi 2 kluster Anda dapat menggunakan Varclus atau 2 Komponen Utama yang pertama, tetapi saya suka Varclus karena semuanya dijelaskan melalui variabel dan bukan komponen. Ada varclus di R, tapi saya tidak yakin apakah itu melakukan hal yang sama.
-Ralph Winters
sumber