Saya memiliki 200 titik data yang memiliki nilai yang sama pada semua fitur.
Setelah pengurangan dimensi t-SNE mereka tidak terlihat begitu sama lagi, seperti ini:
Mengapa mereka tidak berada pada titik yang sama dalam visualisasi dan bahkan tampaknya didistribusikan dalam dua kelompok yang berbeda?
visualization
dimensionality-reduction
tsne
ScientiaEtVeritas
sumber
sumber
Jawaban:
Anda benar bahwa nilai-nilai yang sama di T-SNE dapat didistribusikan di berbagai titik, alasan ini terjadi jelas jika Anda melihat pada algoritma yang dijalankan oleh T-SNE.
import numpy as np from sklearn.manifold import TSNE m = TSNE(n_components=2, random_state=0) m.fit_transform(np.array([[0,1],[0,1]]))
Anda juga akan mengamati bahwa mengubah yang
random_state
sebenarnya memodifikasi koordinat output dari model. Tidak ada korelasi nyata antara koordinat aktual dan outputnya. Sejak langkah pertama TSNE menghitung kemungkinan bersyarat.Jadi, kebenarannya adalah, alih-alih melihat kedua kelompok itu, lihatlah jarak di antara mereka, karena itu menyampaikan lebih banyak informasi daripada mengoordinasikan diri mereka sendiri.
Semoga ini menjawab pertanyaan Anda :)
sumber