Memilih hyperparameters menggunakan T-SNE untuk klasifikasi

13

Dalam masalah khusus yang saya kerjakan dengan (kompetisi) saya memiliki pengaturan follwoing: 21 fitur (angka pada [0,1]) dan output biner. Saya memiliki sekitar 100 K baris. Pengaturan tampaknya sangat bising.

Saya dan peserta lain menerapkan pembuatan fitur untuk sementara waktu dan penyematan stokastik tetangga t-didistribusikan ternyata lebih kuat dalam pengaturan ini.

Saya menemukan postingan ini "Cara Menggunakan t-SNE Secara Efektif" tapi tetap saja saya tidak bisa menyimpulkan tentang cara memilih hyperparameter terbaik dalam pengaturan klasifikasi.

Apakah ada aturan praktis (jumlah fitur, dimensi penyematan -> pilihan kebingungan)?

Saya hanya menerapkan pengaturan ad-hoc saat ini karena terlalu lama untuk mengulangi berbagai pengaturan. Terima kasih atas komentarnya.

Ric
sumber
Ini pertanyaan yang bagus! Semoga seseorang akan menemukan jawaban saya cukup bersemangat sehingga Anda mendapatkan jawaban lain (dan saya juga belajar sesuatu yang baru).
usεr11852 mengatakan Reinstate Monic

Jawaban:

17

t

t-SNE sedang mencoba untuk meminimalkan jumlah dari perbedaan Kullback-Leibler antara distribusi jarak antara data dalam domain asli dan distribusi jarak antara data dalam domain dimensi yang direduksi (sebenarnya distribusi target adalah distribusi dari probabilitas bahwa suatu titik akan memilih titik lain sebagai tetangganya tetapi ini berbanding lurus dengan jarak antara dua titik). Dapat dikatakan bahwa nilai KL-divergence yang lebih kecil menunjukkan hasil yang lebih baik. Gagasan ini tidak bekerja dengan sangat baik dalam praktiknya tetapi secara teoritis akan membantu untuk mengecualikan beberapa rentang nilai kebingungan serta beberapa menjalankan algoritma yang jelas suboptimal. Saya menjelaskan mengapa heuristik ini jauh dari obat mujarab dan bagaimana hal itu bisa sedikit berguna: Parameter kebingungan meningkat secara monoton dengan varians dari Gaussian yang digunakan untuk menghitung jarak / probabilitas. Oleh karena itu, ketika Anda meningkatkan parameter kebingungan secara keseluruhan, Anda akan mendapatkan jarak yang lebih kecil dalam nilai absolut dan nilai KL-divergence berikutnya. Namun demikian jika Anda memiliki 20 putaran dengan kebingungan yang sama dan Anda tidak dapat (tidak ingin) melihatnya, Anda selalu dapat memilih yang dengan variabel terkecil dengan harapan mempertahankan jarak yang asli dengan lebih akurat. Hal yang sama berlaku untuk Namun demikian jika Anda memiliki 20 putaran dengan kebingungan yang sama dan Anda tidak dapat (tidak ingin) melihatnya, Anda selalu dapat memilih yang dengan variabel terkecil dengan harapan mempertahankan jarak yang asli dengan lebih akurat. Hal yang sama berlaku untuk Namun demikian jika Anda memiliki 20 putaran dengan kebingungan yang sama dan Anda tidak dapat (tidak ingin) melihatnya, Anda selalu dapat memilih yang dengan variabel terkecil dengan harapan mempertahankan jarak yang asli dengan lebih akurat. Hal yang sama berlaku untukθθ

kktt-SNE pertama kali digunakan, jika representasi yang dihasilkan tidak informatif untuk properti yang kami selidiki, maka tidak ada gunanya meskipun kesalahan rekonstruksi, daya tarik visual, dll. Rendah.

Izinkan saya menunjukkan bahwa apa yang saya jelaskan adalah heuristik . Seperti yang disebutkan di awal posting saya, memeriksa hasilnya secara manual adalah cara yang sangat diperlukan untuk menilai kualitas reduksi / clustering dimensi yang dihasilkan.

usεr11852 kata Reinstate Monic
sumber
Terima kasih untuk ini. Gagasan indeks seberapa jauh pengelompokan sesuai dengan klasifikasi terdengar menarik.
Ric
4

Kami biasanya mengatur kebingungan ke 5% dari ukuran dataset. Jadi untuk dataset dengan 100K baris saya akan mulai dengan kebingungan 5000, atau setidaknya 1000, jika Anda tidak memiliki komputer kinerja tinggi yang tersedia. Kumpulan data kami berasal dari analisis flow cytometry, mereka biasanya memiliki 50k hingga 500k titik data masing-masing dengan 10 hingga 20 nilai numerik.

james li
sumber
4

Mungkin menarik bagi Anda untuk melihat "Pilihan Otomatis dari t-SNE Perplexity" oleh Cao dan Wang :

t-Distributed Stochastic Neighbor Embedding (t-SNE) adalah salah satu metode pengurangan dimensi yang paling banyak digunakan untuk visualisasi data, tetapi memiliki hiperparameter kebingungan yang memerlukan pemilihan manual. Dalam praktiknya, penyetelan kebingungan t-SNE yang tepat mengharuskan pengguna untuk memahami cara kerja dalam metode ini serta memiliki pengalaman langsung. Kami mengusulkan tujuan pemilihan model untuk kebingungan t-SNE yang membutuhkan perhitungan ekstra yang dapat diabaikan di luar dari t-SNE itu sendiri. Kami secara empiris memvalidasi bahwa pengaturan kebingungan yang ditemukan oleh pendekatan kami konsisten dengan preferensi yang diperoleh dari pakar manusia di sejumlah set data. Kesamaan pendekatan kami dengan kriteria informasi Bayesian (BIC) dan panjang deskripsi minimum (MDL) juga dianalisis.

pisistrato
sumber
2
Apa kesimpulannya ..?
Tim
1
S(Perhallex.)=2KL(P||Q)+catatan(n)Perlex.n(Tetapi memberi +1 pada komentar Tim, abstrak sebuah makalah jauh dari jawaban yang lengkap; silakan coba untuk membangun jawaban yang cukup jelas / terkandung.)
usεr11852 mengatakan Reinstate Monic