Saya memiliki dataset dengan baris ~ 1M dan ~ fitur 500K jarang. Saya ingin mengurangi dimensi ke suatu tempat dalam urutan fitur padat 1K-5K.
sklearn.decomposition.PCA
tidak berfungsi pada data yang jarang, dan saya sudah mencoba menggunakan sklearn.decomposition.TruncatedSVD
tetapi mendapatkan kesalahan memori dengan cukup cepat. Apa pilihan saya untuk pengurangan dimensi efisien pada skala ini?
sumber
Kalau-kalau ada orang yang menemukan posting ini menganggap UMAP tidak cukup efisien, berikut beberapa teknik lain yang saya temukan yang bahkan lebih efisien (tetapi tidak berkualitas tinggi):
sklearn.random_projection
sklearn.feature_extraction.FeatureHasher
sumber