Mengapa t-SNE tidak digunakan sebagai teknik reduksi dimensi untuk pengelompokan atau klasifikasi?

34

Dalam penugasan terbaru, kami disuruh menggunakan PCA pada digit MNIST untuk mengurangi dimensi dari 64 (8 x 8 gambar) menjadi 2. Kami kemudian harus mengelompokkan digit menggunakan Gaussian Mixture Model. PCA hanya menggunakan 2 komponen utama tidak menghasilkan cluster yang berbeda dan akibatnya model tidak dapat menghasilkan pengelompokan yang bermanfaat.

Namun, dengan menggunakan t-SNE dengan 2 komponen, kelompok-kelompok tersebut jauh lebih baik dipisahkan. Model Campuran Gaussian menghasilkan lebih banyak kluster yang berbeda ketika diterapkan pada komponen t-SNE.

Perbedaan PCA dengan 2 komponen dan t-SNE dengan 2 komponen dapat dilihat pada pasangan gambar berikut di mana transformasi telah diterapkan pada dataset MNIST.

PCA di MNIST

t-SNE di MNIST

Saya telah membaca bahwa t-SNE hanya digunakan untuk visualisasi data dimensi tinggi, seperti dalam jawaban ini , namun mengingat kluster berbeda yang dihasilkannya, mengapa itu tidak digunakan sebagai teknik pengurangan dimensi yang kemudian digunakan untuk model klasifikasi atau sebagai metode pengelompokan mandiri?

willk
sumber
2
Apakah yang Anda maksud klasifikasi atau pengelompokan? Judul mengatakan pengelompokan tetapi tulisan mengatakan klasifikasi.
usεr11852 mengatakan Reinstate Monic
Maaf soal itu. Saya ingin tahu mengapa itu tidak digunakan sebagai teknik pengelompokan atau sebagai teknik pengurangan dimensi untuk klasifikasi. Saya telah mengedit untuk mencerminkan ini.
willk
Secara kebetulan, sebuah makalah yang dirilis baru-baru ini menggunakan t-SNE dan algoritma pengelompokan tanpa pengawasan untuk melabeli proses pembakaran.
tpg2114
2
Jawaban yang Anda tautkan menunjukkan betapa menyesatkannya tSNE. Anda melihat cluster di plot yang tidak ada di data. Itu berbahaya jika Anda tidak memiliki label. Dan jangan menarik terlalu banyak kesimpulan dari data MNIST. Itu adalah kumpulan data yang berperilaku sangat baik ...
Anony-Mousse
1
Saya menemukan artikel ini sangat membantu dalam menjelaskan t-SNE dan kelemahannya. Ini memiliki banyak visualisasi interaktif yang membantu menekankan poin utama.
willk

Jawaban:

33

tt

tt

tt11Kita mungkin juga telah menggunakan klasifikasi untuk memulai (yang membawa kita kembali ke penggunaan autoencoder).

usεr11852 kata Reinstate Monic
sumber
1
Q sepertinya lebih banyak bertanya tentang pengelompokan daripada tentang klasifikasi. Setidaknya pengelompokan ada dalam judul.
Amuba mengatakan Reinstate Monica
@amoeba: Saya memikirkan hal yang sama dan menulis tentang potensi penggunaan melalui pengelompokan berbasis non-jarak jauh (mis. FMM, DBSCAN), tetapi kemudian saya membaca pertanyaan: " mengapa itu tidak digunakan sebagai teknik pengurangan dimensionalitas yang kemudian digunakan untuk klasifikasi model? "
usεr11852 kata Reinstate Monic
Ya, tetapi judul Q berbeda. Saya pikir OP mungkin bingung tentang perbedaannya sehingga mungkin masuk akal untuk mengatasi keduanya di A Anda!
Amuba mengatakan Reinstate Monica
4
OKE ... OKE ... eukariota pengemudian budak ...: P
usεr11852 mengatakan Reinstate Monic
1
(+1) Saya akan sangat tertarik mendengar pendapat Anda tentang stating clustering / t-SNE ini stats.stackexchange.com/questions/263539 yang baru saja saya posting. CC juga ke @caseWestern - ini mungkin menarik bagi Anda juga.
Amoeba berkata Reinstate Monica
3

t-SNE tidak menjaga jarak, tetapi pada dasarnya memperkirakan distribusi probabilitas. Secara teori, algoritma t-SNE memetakan input ke ruang peta 2 atau 3 dimensi. Ruang input diasumsikan sebagai distribusi Gaussian dan ruang peta sebagai distribusi-t. Fungsi kerugian yang digunakan adalah KL Divergence antara dua distribusi yang diminimalkan menggunakan gradient descent.

Menurut Laurens van der Maaten yang merupakan rekan penulis t-SNE

t-SNE tidak mempertahankan jarak tetapi probabilitas, jadi mengukur beberapa kesalahan antara jarak Euclidean di D-tinggi dan D-rendah tidak berguna.

Referensi:

https://lvdmaaten.github.io/tsne/

https://www.oreilly.com/learning/an-illustrated-introduction-to-the-t-sne-algorithm

prashanth
sumber
2

Sebagai pernyataan umum: diberikan cukup kuat (/ cocok) classifier, atau cluster-er, satu tidak akan berlaku setiap pengurangan dimensi.

Pengurangan dimensi kehilangan informasi.

Karena seperti cluster-er atau classifier (esp classifiers, clusterers kurang), secara internal menggabungkan beberapa bentuk proyeksi ke ruang yang berarti sudah. Dan pengurangan Dimensi juga merupakan proyeksi ke ruang yang bermakna (penuh harapan).

Tetapi pengurangan dimensi harus dilakukan dengan cara yang tidak diinformasikan - tidak tahu tugas apa yang Anda kurangi. Ini terutama berlaku untuk klasifikasi, di mana Anda memiliki informasi yang diawasi langsung. Tetapi ini juga berlaku untuk pengelompokan, di mana ruang yang ingin diproyeksikan untuk pengelompokan didefinisikan lebih baik (untuk algoritme ini) daripada hanya "memiliki dimensi yang lebih kecil). Jawaban @ usεr11852 berbicara tentang ini. Seperti yang saya katakan pengurangan dimensionalitas tidak tahu apa tugas yang Anda kurangi - Anda informasikan dalam pilihan Anda tentang algoritma pengurangan dimensi yang Anda gunakan.

Jadi sering daripada menambahkan langkah pengurangan dimensi sebagai preprocessing sebelum pengelompokan / klasifikasi, lebih baik menggunakan classifier / cluster-er yang berbeda yang menggunakan proyeksi yang berguna.

Satu hal pengurangan dimensi yang memang terjadi untuk itu dalam hal ini adalah sifatnya yang tidak terawasi dalam menciptakan proyeksi ke ruang (semoga) bermakna. Yang berguna jika Anda memiliki sedikit data label. Tetapi sering ada metode lain yang terkait erat dengan pengklasifikasi Anda (misalnya untuk jaringan saraf, menggunakan autoencoder misalnya pendalaman jaringan kepercayaan mendalam) yang akan bekerja lebih baik, karena mereka dirancang dengan tugas akhir dalam pikiran. Bukan tugas yang lebih umum dari pengurangan dimensi.

Lyndon White
sumber