Saya mengerti dari makalah Hinton bahwa T-SNE melakukan pekerjaan dengan baik dalam menjaga kesamaan lokal dan pekerjaan yang layak dalam melestarikan struktur global (klasterisasi).
Namun saya tidak jelas apakah poin yang muncul lebih dekat dalam visualisasi t-sne 2D dapat dianggap sebagai titik data "lebih mirip". Saya menggunakan data dengan 25 fitur.
Sebagai contoh, mengamati gambar di bawah, dapatkah saya berasumsi bahwa titik data biru lebih mirip dengan titik hijau, khususnya untuk kelompok titik hijau terbesar ?. Atau, bertanya secara berbeda, apakah boleh mengasumsikan bahwa titik biru lebih mirip dengan titik hijau di gugus terdekat, daripada titik merah di gugus lainnya? (Mengabaikan poin hijau di cluster red-ish)
Ketika mengamati contoh-contoh lain, seperti yang disajikan di sci-kit, pelajari Manifold belajar, sepertinya benar untuk menganggap ini, tapi saya tidak yakin apakah benar secara statistik.
EDIT
Saya telah menghitung jarak dari dataset asli secara manual (jarak euclidean rata-rata berpasangan) dan visualisasi sebenarnya mewakili jarak spasial proporsional mengenai dataset. Namun, saya ingin tahu apakah ini cukup dapat diterima untuk diharapkan dari formulasi matematika asli dari t-sne dan bukan hanya kebetulan.
sumber
Jawaban:
Saya akan menghadirkan t-SNE sebagai adaptasi probabilistik cerdas dari penyisipan linear-lokal. Dalam kedua kasus, kami berupaya memproyeksikan poin dari ruang dimensi tinggi ke ruang kecil. Proyeksi ini dilakukan dengan mengoptimalkan konservasi jarak lokal (langsung dengan LLE, membuat distribusi probabilistik dan mengoptimalkan divergensi KL dengan t-SNE). Maka jika pertanyaan Anda adalah, apakah ia menjaga jarak global, jawabannya adalah tidak. Ini akan tergantung pada "bentuk" data Anda (jika distribusinya halus, maka jarak harus dilestarikan).
t-SNE sebenarnya tidak bekerja dengan baik pada swiss roll (gambar "S" 3D Anda) dan Anda dapat melihat bahwa, dalam hasil 2D, titik kuning paling tengah biasanya lebih dekat ke yang merah daripada yang biru (mereka terpusat sempurna pada gambar 3D).
Contoh bagus lainnya dari apa yang t-SNE lakukan adalah pengelompokan digit tulisan tangan. Lihat contoh di tautan ini: https://lvdmaaten.github.io/tsne/
sumber