Dalam masalah khusus yang saya kerjakan dengan (kompetisi) saya memiliki pengaturan follwoing: 21 fitur (angka pada [0,1]) dan output biner. Saya memiliki sekitar 100 K baris. Pengaturan tampaknya sangat bising.
Saya dan peserta lain menerapkan pembuatan fitur untuk sementara waktu dan penyematan stokastik tetangga t-didistribusikan ternyata lebih kuat dalam pengaturan ini.
Saya menemukan postingan ini "Cara Menggunakan t-SNE Secara Efektif" tapi tetap saja saya tidak bisa menyimpulkan tentang cara memilih hyperparameter terbaik dalam pengaturan klasifikasi.
Apakah ada aturan praktis (jumlah fitur, dimensi penyematan -> pilihan kebingungan)?
Saya hanya menerapkan pengaturan ad-hoc saat ini karena terlalu lama untuk mengulangi berbagai pengaturan. Terima kasih atas komentarnya.
Jawaban:
Izinkan saya menunjukkan bahwa apa yang saya jelaskan adalah heuristik . Seperti yang disebutkan di awal posting saya, memeriksa hasilnya secara manual adalah cara yang sangat diperlukan untuk menilai kualitas reduksi / clustering dimensi yang dihasilkan.
sumber
Kami biasanya mengatur kebingungan ke 5% dari ukuran dataset. Jadi untuk dataset dengan 100K baris saya akan mulai dengan kebingungan 5000, atau setidaknya 1000, jika Anda tidak memiliki komputer kinerja tinggi yang tersedia. Kumpulan data kami berasal dari analisis flow cytometry, mereka biasanya memiliki 50k hingga 500k titik data masing-masing dengan 10 hingga 20 nilai numerik.
sumber
Mungkin menarik bagi Anda untuk melihat "Pilihan Otomatis dari t-SNE Perplexity" oleh Cao dan Wang :
sumber