Saya ingin melihat bagaimana 7 ukuran perilaku koreksi teks (waktu yang dihabiskan untuk memperbaiki teks, jumlah penekanan tombol, dll.) Saling berhubungan. Ukurannya berkorelasi. Saya menjalankan PCA untuk melihat bagaimana langkah-langkah diproyeksikan ke PC1 dan PC2, yang menghindari tumpang tindih menjalankan tes korelasi dua arah terpisah antara langkah-langkah.
Saya ditanya mengapa tidak menggunakan t-SNE, karena hubungan antara beberapa tindakan mungkin tidak linier.
Saya bisa melihat bagaimana memperbolehkan non-linearitas akan meningkatkan ini, tapi saya ingin tahu apakah ada alasan yang baik untuk menggunakan PCA dalam kasus ini dan bukan t-SNE? Saya tidak tertarik mengelompokkan teks menurut hubungan mereka dengan ukuran, tetapi lebih pada hubungan antara ukuran itu sendiri.
(Saya kira EFA juga bisa menjadi pendekatan yang lebih baik / lain, tapi itu diskusi yang berbeda.) Dibandingkan dengan metode lain, ada beberapa posting di sini tentang t-SNE, jadi pertanyaannya sepertinya patut ditanyakan.
Jawaban:
Stochasticity dari solusi akhir . PCA bersifat deterministik; -SNE tidak. Satu mendapat bagus visualisasi dan kemudian koleganya mendapat visualisasi lain dan kemudian mereka mendapatkan artistik yang terlihat lebih baik dan jika perbedaan dari di divergensi bermakna ... Dalam PCA yang benar jawaban untuk pertanyaan yang diajukan dijamin. -SNE mungkin memiliki beberapa minimum yang mungkin mengarah pada solusi yang berbeda. Ini mengharuskan beberapa kali berjalan serta menimbulkan pertanyaan tentang reproduktifitas hasil.0,03 % K L ( P | | Q ) tt 0,03 % KL ( P| | Q) t
Interpretabilitas pemetaan . Ini berhubungan dengan poin di atas, tetapi mari kita asumsikan bahwa suatu tim telah menyetujui suatu seed / run acak tertentu. Sekarang pertanyaannya menjadi apa yang ditunjukkan ... -SNE mencoba memetakan hanya lokal / tetangga dengan benar sehingga wawasan kita tentang penyematan itu harus sangat hati-hati; tren global tidak terwakili secara akurat (dan itu bisa berpotensi menjadi hal yang hebat untuk visualisasi). Di sisi lain, PCA hanyalah rotasi diagonal dari matriks kovarians awal kami dan vektor eigen mewakili sistem aksial baru di ruang yang direntang oleh data asli kami. Kita dapat langsung menjelaskan apa yang dilakukan PCA tertentu.t
Aplikasi untuk data baru / tidak terlihat . -SNE tidak mempelajari fungsi dari ruang asli ke dimensi baru (lebih rendah) dan itu masalah. Dalam hal ini, -SNE adalah algoritma pembelajaran non-parametrik sehingga mendekati dengan algoritma parametrik adalah masalah yang buruk. Penanaman dipelajari dengan secara langsung memindahkan data melintasi ruang dimensi rendah. Itu berarti seseorang tidak mendapatkan vektor eigen atau konstruksi serupa untuk digunakan dalam data baru. Sebaliknya, menggunakan PCA vektor eigen menawarkan sistem sumbu baru yang dapat langsung digunakan untuk memproyeksikan data baru. [Rupanya orang bisa mencoba melatih jaringan dalam untuk mempelajari huruft tt t t Pemetaan -SNE (Anda dapat mendengar Dr. van der Maaten di ~ 46 'dari video ini menyarankan sesuatu di sepanjang baris ini) tetapi jelas tidak ada solusi yang mudah.]
Data tidak lengkap . Secara native -SNE tidak berurusan dengan data yang tidak lengkap. Dalam keadilan, PCA tidak berurusan dengan mereka tetapi banyak ekstensi PCA untuk data yang tidak lengkap (misalnya PCA probabilistik ) di luar sana dan hampir merupakan rutinitas pemodelan standar . -SNE saat ini tidak dapat menangani data yang tidak lengkap (selain melatih PCA probabilistik terlebih dahulu dan meneruskan skor PC ke -SNE sebagai input).t tt t t
Huruf bukan (terlalu) kecil.k -SNE memecahkan masalah yang dikenal sebagai masalah crowding, secara efektif titik-titik yang agak serupa dalam dimensi yang lebih tinggi runtuh di atas satu sama lain dalam dimensi yang lebih rendah (lebih lanjut di sini ). Sekarang ketika Anda meningkatkan dimensi yang digunakan masalah crowding yaitu kurang parah. masalah yang Anda coba selesaikan melalui penggunaan -SNE akan dilemahkan. Anda dapat mengatasi masalah ini tetapi tidak sepele. Oleh karena itu, jika Anda memerlukan vektor dimensi sebagai himpunan tereduksi dan tidak cukup kecil, maka optimalitas dari solusi produk dipertanyakan. PCA di sisi lain selalu menawarkant k k kt t k k k kombinasi linear terbaik dalam hal varian dijelaskan. (Terima kasih kepada @amoeba karena memperhatikan aku membuat kekacauan ketika pertama kali mencoba menguraikan hal ini.)
Saya tidak menyebutkan masalah tentang persyaratan komputasi (mis. Kecepatan atau ukuran memori) atau masalah tentang pemilihan hiperparameter yang relevan (mis. Kebingungan). Saya pikir ini adalah masalah internal dari metodologi -SNE dan tidak relevan ketika membandingkannya dengan algoritma lain.t
Untuk meringkas, -SNE bagus tetapi karena semua algoritma memiliki keterbatasan ketika datang ke penerapannya. Saya menggunakan -SNE hampir pada setiap dataset baru yang saya dapatkan sebagai alat analisis data penjelas. Saya pikir meskipun memiliki keterbatasan tertentu yang membuatnya hampir tidak berlaku seperti PCA. Biarkan saya tekankan bahwa PCA juga tidak sempurna; misalnya, visualisasi berbasis PCA seringkali lebih rendah daripada -SNE.t tt t t
sumber
https://stats.stackexchange.com/a/249520/7828
adalah jawaban umum yang bagus.
Saya ingin sedikit lebih fokus pada masalah Anda. Anda tampaknya ingin melihat bagaimana sampel Anda terkait dengan 7 variabel input Anda. Itu adalah sesuatu yang tidak dilakukan SNE. Gagasan SNE dan t-SNE adalah untuk menempatkan tetangga berdekatan satu sama lain, (hampir) sepenuhnya mengabaikan struktur global.
Ini sangat baik untuk visualisasi, karena barang-barang serupa dapat diplot bersebelahan (dan tidak saling bertumpukan, cf crowding).
Ini tidak baik untuk analisis lebih lanjut. Struktur global hilang, beberapa objek mungkin telah diblokir untuk pindah ke tetangga mereka, dan pemisahan antara kelompok yang berbeda tidak dipertahankan secara kuantitatif. Itulah sebabnya mengapa mis. Pengelompokan pada proyeksi biasanya tidak bekerja dengan baik.
PCA justru sebaliknya. Itu mencoba untuk melestarikan properti global (vektor eigen dengan varian tinggi) sementara itu dapat kehilangan penyimpangan varian rendah antara tetangga.
sumber
Untuk memberikan satu sudut yang diterapkan, PCA dan t-SNE tidak saling eksklusif. Dalam beberapa bidang biologi, kita berhadapan dengan data berdimensi tinggi (mis. ScRNA-seq adalah ribuan dimensi) di mana t-SNE tidak berskala. Oleh karena itu, kami menggunakan PCA pertama untuk mengurangi dimensi data dan kemudian, dengan mengambil komponen prinsip utama, kami menghitung grafik lingkungan dan kemudian menanamkan grafik dalam 2 dimensi menggunakan t-SNE (atau pendekatan pengurangan dimensi non-linear yang serupa seperti UMAP) untuk memvisualisasikan data.
sumber