Apa gunanya untuk t-SNE, selain dari visualisasi data?

12

Dalam situasi apa kita harus menggunakan t-SNE (terlepas dari visualisasi data)?

T-SNE digunakan untuk pengurangan dimensi. Jawaban untuk pertanyaan ini menunjukkan bahwa t-SNE harus digunakan hanya untuk visualisasi dan bahwa kita tidak boleh menggunakannya untuk pengelompokan. Lalu apa gunanya t-SNE?

serigala
sumber
6
Saran standar adalah JANGAN menggunakan tsne untuk pengelompokan, karena cluster sangat tergantung pada kebingungan. Seharusnya hanya digunakan untuk "visualisasi". Tapi itu tidak terlalu jelas bagi saya, karena orang segera mencari (dan melihat) cluster ketika melihat plot tsne. Karena itu pertanyaan Anda adalah yang baik: untuk apa manfaatnya?
generic_user
2
Lihat jawaban untuk pertanyaan ini yang saya tanyakan: stats.stackexchange.com/questions/263539/…
generic_user
seperti yang dikatakan @generic_user, saya ingin tahu manfaat dari t-sne, di samping visualisasi itu.
wolfe
Saya tidak tahu mengapa ini ditutup sebagai duplikat. OP bertanya apa kegunaan t-sne selain dari visualisasi. Thread yang ditautkan adalah tentang pengelompokan. Tapi mungkin ada kegunaan lain.
amoeba
Terkait: stats.stackexchange.com/questions/132639/…
Amelio Vazquez-Reina

Jawaban:

4

Jawaban untuk pertanyaan ini menunjukkan bahwa t-SNE harus digunakan hanya untuk visualisasi dan bahwa kita tidak boleh menggunakannya untuk pengelompokan. Lalu apa gunanya t-SNE?

Saya tidak setuju dengan kesimpulan ini. Tidak ada alasan untuk menganggap bahwa t-SNE secara universal lebih buruk daripada algoritma pengelompokan lainnya. Setiap algoritma pengelompokan membuat asumsi tentang struktur data, dan mereka dapat diharapkan untuk melakukan berbeda tergantung pada distribusi yang mendasarinya dan penggunaan akhir dari pengurangan dimensi.

t-SNE seperti banyak algoritma pembelajaran yang tidak diawasi sering memberikan sarana untuk mencapai tujuan, misalnya memperoleh wawasan awal tentang apakah data dapat dipisahkan atau tidak, menguji apakah ia memiliki beberapa struktur yang dapat diidentifikasi, dan memeriksa sifat struktur ini. Orang tidak perlu visualisasi dari output t-SNE untuk mulai menjawab beberapa pertanyaan ini. Aplikasi lain dari embeddings dimensi rendah termasuk fitur bangunan untuk klasifikasi atau menghilangkan multi-collinearity untuk meningkatkan kinerja metode prediksi.

Amelio Vazquez-Reina
sumber