Apakah dimensi t-sne bermakna?

18

Apakah ada arti untuk dimensi embedding t-sne? Seperti halnya PCA, kami memiliki perasaan ini untuk memaksimalkan varians linear, tetapi untuk t-sne apakah ada intuisi selain hanya ruang yang kami tetapkan untuk pemetaan dan minimalisasi jarak-KL?

Nitro
sumber
1
Tidak yakin apakah ini benar-benar sesuai dengan yang Anda minta, tapi saya yakin dimensi t-sne hanya bergantung pada keterpisahan data. Dimensi dapat berubah mengingat dataset yang sama karena ini adalah transformasi non-linear. Jadi dimensi hanya bisa benar-benar ditafsirkan dalam konteks contoh yang diberikan. Beritahu saya jika saya salah, ini pertanyaan yang menarik.
Hobbes
Mungkin boring3 yang membosankan?
Nitro

Jawaban:

17

Dimensi ruang dimensi rendah tidak memiliki arti. Perhatikan bahwa fungsi kehilangan t-SNE semata-mata didasarkan pada jarak antara titik ( dan ) dan distribusi probabilitas pada jarak tersebut ( dan ):ysayayjhalsayajqsayaj

δCδysaya=4j(halsayaj-qsayaj)(ysaya-yj)(1+||ysaya-yj||2)-1

Dengan demikian tidak ada proyeksi dari seluruh ruang dimensi tinggi ke ruang dimensi rendah, t-SNE hanya menemukan pemetaan dari serangkaian titik dimensi tinggi tertentu ke rangkaian titik dimensi rendah tertentu. Karena tidak ada fungsi dari satu ruang ke ruang lain juga tidak ada makna yang melekat dari sumbu.

Hal-hal yang dapat Anda bayangkan untuk menggambarkan hal ini:

  • Memutar atau menerjemahkan ruang dimensi tinggi atau dimensi rendah tidak memengaruhi jarak antara titik. Oleh karena itu, t-SNE tidak peduli tentang rotasi atau terjemahan di kedua spasi. Dengan demikian tidak ada interpretasi absolut dari sumbu.
  • Distribusi t-Student memiliki ekor yang gemuk. Hal ini menyebabkan representasi dimensi rendah menjadi tidak berubah terhadap perubahan titik yang jauh di ruang dimensi tinggi. Ini juga menyebabkan bahwa titik-titik yang jauh di ruang dimensi tinggi dapat menjadi cukup jauh, jauh atau benar-benar jauh di ruang dimensi rendah. Dalam pengertian ini ia merentangkan bagian-bagian tertentu dari sumbu dimensi rendah (ke arah yang sewenang-wenang).

Karena itu, t-SNE terutama merupakan teknik visualisasi dan efektivitas pengurangan dimensinya untuk tujuan lain tidak jelas (mungkin tidak cocok untuk pengelompokan, ekstraksi fitur, atau pemilihan fitur).

Juga: kertas .

Pieter
sumber