Bisakah poin yang lebih dekat dianggap lebih mirip dalam visualisasi T-SNE?

14

Saya mengerti dari makalah Hinton bahwa T-SNE melakukan pekerjaan dengan baik dalam menjaga kesamaan lokal dan pekerjaan yang layak dalam melestarikan struktur global (klasterisasi).

Namun saya tidak jelas apakah poin yang muncul lebih dekat dalam visualisasi t-sne 2D dapat dianggap sebagai titik data "lebih mirip". Saya menggunakan data dengan 25 fitur.

Sebagai contoh, mengamati gambar di bawah, dapatkah saya berasumsi bahwa titik data biru lebih mirip dengan titik hijau, khususnya untuk kelompok titik hijau terbesar ?. Atau, bertanya secara berbeda, apakah boleh mengasumsikan bahwa titik biru lebih mirip dengan titik hijau di gugus terdekat, daripada titik merah di gugus lainnya? (Mengabaikan poin hijau di cluster red-ish)

masukkan deskripsi gambar di sini

Ketika mengamati contoh-contoh lain, seperti yang disajikan di sci-kit, pelajari Manifold belajar, sepertinya benar untuk menganggap ini, tapi saya tidak yakin apakah benar secara statistik.

masukkan deskripsi gambar di sini

EDIT

Saya telah menghitung jarak dari dataset asli secara manual (jarak euclidean rata-rata berpasangan) dan visualisasi sebenarnya mewakili jarak spasial proporsional mengenai dataset. Namun, saya ingin tahu apakah ini cukup dapat diterima untuk diharapkan dari formulasi matematika asli dari t-sne dan bukan hanya kebetulan.

Javierfdr
sumber
1
Titik biru adalah yang paling dekat dengan titik hijau tetangganya masing-masing, begitulah cara penanaman dilakukan. Secara longgar, kesamaan (atau jarak) harus dipertahankan. Beralih dari 25 dimensi menjadi hanya 2 sangat mungkin mengakibatkan hilangnya informasi, tetapi representasi 2D adalah yang terdekat yang dapat ditampilkan di layar.
Vladislavs Dovgalecs

Jawaban:

5

Saya akan menghadirkan t-SNE sebagai adaptasi probabilistik cerdas dari penyisipan linear-lokal. Dalam kedua kasus, kami berupaya memproyeksikan poin dari ruang dimensi tinggi ke ruang kecil. Proyeksi ini dilakukan dengan mengoptimalkan konservasi jarak lokal (langsung dengan LLE, membuat distribusi probabilistik dan mengoptimalkan divergensi KL dengan t-SNE). Maka jika pertanyaan Anda adalah, apakah ia menjaga jarak global, jawabannya adalah tidak. Ini akan tergantung pada "bentuk" data Anda (jika distribusinya halus, maka jarak harus dilestarikan).

t-SNE sebenarnya tidak bekerja dengan baik pada swiss roll (gambar "S" 3D Anda) dan Anda dapat melihat bahwa, dalam hasil 2D, titik kuning paling tengah biasanya lebih dekat ke yang merah daripada yang biru (mereka terpusat sempurna pada gambar 3D).

Contoh bagus lainnya dari apa yang t-SNE lakukan adalah pengelompokan digit tulisan tangan. Lihat contoh di tautan ini: https://lvdmaaten.github.io/tsne/

Robin
sumber
2
Maksud saya adalah bahwa Anda tidak bisa hanya menggunakan jarak di ruang bawah sebagai kriteria kesamaan. t-SNE akan menjaga struktur global seperti cluster tetapi tidak perlu menjaga jarak. Ini akan tergantung pada bentuk data dimensi tinggi dan kebingungan yang Anda gunakan.
Robin
1
Ok aku paham. Terima kasih telah mengklarifikasi. Ya saya setuju bahwa jarak di ruang bawah tidak akan akurat. Sekarang, karena t-sne praktis untuk visualisasi, bisakah saya menggunakan jarak dalam plot dimensi yang lebih rendah secara konseptual? Sebagai contoh dalam plot saya dapat saya katakan dengan pasti bahwa titik biru lebih dekat atau lebih mirip dengan yang hijau daripada yang merah, mengingat pemisahan yang jelas dari tiga kelompok dalam ruang 2d. Atau itu juga sulit dikatakan?
Javierfdr
1
Sulit dikatakan. Titik-titik dalam ruang dimensi rendah diinisialisasi dengan distribusi gaussian yang berpusat pada titik asal. Mereka kemudian secara iteratif diganti mengoptimalkan KL-divergence. Jadi saya akan mengatakan bahwa dalam kasus Anda poin biru lebih mirip dengan cluster hijau tetapi sekarang ada cara untuk mengevaluasi seberapa dekat mereka daripada dengan cluster merah. t-SNE.
Robin
1
Secara bersama-sama, t-SNE menekankan pada (1) pemodelan titik data yang berbeda dengan menggunakan jarak pasangan-bijaksana yang besar, dan (2) pemodelan titik data serupa dengan cara jarak berpasangan kecil. Secara khusus, t-SNE memperkenalkan kekuatan jarak jauh dalam peta dimensi rendah yang dapat menarik kembali dua (kelompok) poin serupa yang terpisah sejak awal dalam optimasi.
Robin
1
Penjelasan yang sangat bagus. Terima kasih banyak atas usahamu. Saya pikir Anda berbeda komentar mengumpulkan jawaban lengkap.
Javierfdr