Kapan t-SNE menyesatkan?

Mengutip dari salah satu penulis:

t-Distributed Stochastic Neighbor Embedding (t-SNE) adalah teknik ( pemenang hadiah ) untuk pengurangan dimensi yang sangat cocok untuk visualisasi dataset dimensi tinggi.

Jadi kedengarannya hebat, tapi itu yang penulis bicarakan.

Kutipan lain dari penulis (re: kompetisi yang disebutkan sebelumnya):

Apa yang telah Anda ambil dari kompetisi ini?
Selalu visualisasikan data Anda terlebih dahulu, sebelum Anda mulai melatih prediktor pada data! Seringkali, visualisasi seperti yang saya buat memberikan wawasan tentang distribusi data yang dapat membantu Anda dalam menentukan jenis model prediksi yang akan dicoba.

Informasi harus ¹ hilang - itu adalah teknik reduksi dimensi. Namun, karena ini adalah teknik yang baik untuk digunakan ketika memvisualisasikan, informasi yang hilang kurang berharga daripada informasi yang disorot (/ dibuat terlihat / dapat dipahami melalui reduksi menjadi 2 atau 3 dimensi).

Jadi pertanyaan saya adalah:

Kapan tSNE alat yang salah untuk pekerjaan itu?
Jenis data apa yang menyebabkannya tidak berfungsi,
Pertanyaan macam apa yang kelihatannya bisa dijawab, tetapi sebenarnya tidak bisa?
Dalam kutipan kedua di atas, disarankan untuk selalu memvisualisasikan set data Anda, haruskah visualisasi ini selalu dilakukan dengan tSNE?

Saya berharap bahwa pertanyaan ini mungkin paling baik dijawab dalam percakapan, yaitu menjawab: Kapan tSNE alat yang tepat untuk pekerjaan itu?

Saya telah diperingatkan untuk tidak mengandalkan tSNE untuk memberi tahu saya betapa mudahnya data akan dapat diklasifikasikan (dipisahkan menjadi kelas - model diskriminatif) Contoh yang menyesatkan adalah, bahwa, untuk dua gambar di bawah ini, model generatif ² lebih buruk untuk data yang divisualisasikan di pertama / kiri (akurasi 53,6%) dari yang setara untuk yang kedua / kanan (akurasi 67,2%).

pertama kedua

¹ _{Saya bisa saja salah tentang hal ini. Saya dapat duduk dan mencoba bukti / contoh balasan nanti}

^Saya _{perhatikan bahwa model generatif tidak sama dengan model diskriminatif, tetapi ini adalah contoh yang saya berikan.}

data-visualization dimensionality-reduction tsne Lyndon White
sumber

Mengenai pernyataan Anda bahwa "informasi harus hilang": Pemetaan bijective antara set dan ada jika dan hanya jika kardinalitas mereka setuju,. Dan kami memiliki, misalnya, dan (lihat di sini ). Artinya, pada prinsipnya kita dapat menjejalkan sebanyak mungkin informasi dalam seperti di .

A

$A$

B

$B$

| A | = | B |

$|A| = |B|$

| N | = | N^{n} | = ℵ_{0}

$|\mathbb{N}| = |\mathbb{N}^n| = \aleph_0$

| R | = | R | = | R^{n} | = ℵ_{1}

$|\mathbb{R}| = |\mathbb{R}| = |\mathbb{R}^n| = \aleph_1$

R^{2}

$\mathbb{R}^2$

R

$\mathbb{R}$

Lucas

@Lucas: Ah, tentu saja. (bagaimana saya tidak menyadarinya)

Lyndon White

Model generatif apa yang Anda coba?

WeiChing Lin

@ Wei-ChingLin Saya tidak yakin model generatif macam apa yang digunakan. Mungkin semacam Deep Belief Network, Deep Boltzmann Manchine, atau Autoencoder. Tidak benar-benar relevan dengan inti pertanyaan

Lyndon White

Relevan: distill.pub/2016/misread-tsne

Lyndon White

Jawaban:

T-Sne adalah teknik reduksi yang mempertahankan struktur skala kecil (yaitu apa yang sangat dekat dengan apa) dari ruang, yang membuatnya sangat baik dalam memvisualisasikan pemisahan data. Ini berarti bahwa T-Sne sangat berguna untuk visualisasi awal yang diarahkan untuk memahami tingkat keterpisahan data. Teknik-teknik lain (PCA misalnya) membuat data dalam representasi dimensi yang lebih rendah diproyeksikan di atas satu sama lain ketika dimensi menghilang, yang membuatnya sangat sulit untuk membuat pernyataan yang jelas tentang pemisahan di ruang dimensi yang lebih tinggi.

Jadi misalnya, jika Anda mendapatkan grafik T-Sne dengan banyak data yang tumpang tindih, kemungkinan besar klasifikasi Anda akan berkinerja buruk, apa pun yang Anda lakukan. Sebaliknya, jika Anda melihat data yang dipisahkan dengan jelas dalam grafik T-Sne, maka data dimensi tinggi yang mendasarinya memiliki variabilitas yang cukup untuk membangun penggolong yang baik.

John Yetter
sumber

Itu adalah penjelasan yang sangat bagus tentang apa itu T-SNE, terima kasih. Tapi saya tidak melihat jawaban untuk pertanyaan saya yang sebenarnya (Lihat titik titik di pos pembuka.)

Lyndon White

Ini sama sekali tidak menjawab pertanyaan.

Amuba kata Reinstate Monica

Di luar kotak, tSNE memiliki beberapa hiperparameter, yang utama adalah kebingungan. Ingat bahwa secara heuristik, kebingungan mendefinisikan gagasan kesamaan untuk tSNE dan kebingungan universal digunakan untuk semua titik data. Anda dapat mencoba membuat dataset berlabel di mana setiap cluster memiliki kebingungan yang sangat berbeda. Ini dapat dicapai dengan melakukan campuran gaussians, dengan berbagai varian yang berbeda. Saya menduga ini juga akan menyebabkan masalah dalam implementasi Barnes-Hut dari tSNE, yang bergantung pada kuartil data dan hanya menggunakan tetangga terdekat. tSNE juga memiliki periode relaksasi awal, yang berupaya melewati satu sama lain. Selama periode ini, tidak ada penalti atau penolakan. Jadi misalnya, jika data Anda terlihat seperti gumpalan mie (masing-masing mie mewakili kelompok tertentu), Anda harus Saya akan mengalami kesulitan mengkalibrasi awal melewati, dan saya ragu tSNE akan bekerja dengan baik. Dalam beberapa hal saya pikir ini mengisyaratkan bahwa tSNE tidak akan bekerja dengan baik jika data Anda dijalin bersama dan pada awalnya berada di ruang dimensi rendah, katakan 5.

Secara umum tSNE baik karena bagian "t", yang menyelesaikan masalah yang luar biasa dalam SNE tentang bagaimana menempatkan titik-titik di ruang dimensi yang lebih rendah, dibandingkan dengan dimensi yang lebih tinggi. Ternyata rata-rata, jarak titik data dalam dimensi yang lebih tinggi berperilaku sangat berbeda dari dimensi yang lebih rendah. Secara khusus, tSNE sangat menganjurkan agar tidak menggunakan Gaussians untuk mengukur jarak dalam dimensi yang lebih rendah, sebagai gantinya memilih distribusi satu dimensi (yaitu Distribusi Cauchy) yang memiliki ekor lebih tinggi dan memungkinkan penyebaran lebih banyak dalam representasi dimensi bawah. Jadi bisa dibayangkan "t" di tSNE juga bisa menjadi hyperparameter, di mana Anda dapat memilih distribusi yang berbeda (walaupun dengan biaya komputasi yang tinggi). $t$

Anda harus menganggap tSNE sebagai metode pengelompokan tanpa pengawasan, dan karena itu tidak ada alasan untuk berpikir bahwa itu adalah satu-satunya alat untuk pekerjaan itu. Saya pikir secara keseluruhan itu bisa menjadi alat yang fantastis jika dikalibrasi dengan benar. Namun itu sangat lambat pada dataset besar dan Anda mungkin lebih baik menggunakan beberapa bentuk dioptimalkan berarti misalnya, atau bahkan PCA, tergantung pada seberapa jarang data tersebut. $k$

Alex R.
sumber