Haruskah data dipusatkan + diskalakan sebelum menerapkan t-SNE?

18

Beberapa fitur data saya memiliki nilai besar, sedangkan fitur lainnya memiliki nilai jauh lebih kecil.

Apakah perlu memusatkan + skala data sebelum menerapkan t-SNE untuk mencegah bias terhadap nilai yang lebih besar?

Saya menggunakan implementasi sklearn.manifold.TSNE dari Python dengan metrik jarak euclidean default.

stmax
sumber

Jawaban:

18

Pemusatan seharusnya tidak menjadi masalah karena algoritme hanya beroperasi pada jarak antar titik, namun pengukuran ulang diperlukan jika Anda ingin dimensi yang berbeda diperlakukan dengan kepentingan yang sama, karena 2-norma akan lebih banyak dipengaruhi oleh dimensi dengan varian besar.

jon_simon
sumber