Pengurangan dimensi yang bisa diukur

9

Mempertimbangkan jumlah fitur yang konstan, Barnes-Hut t-SNE memiliki kompleksitas , proyeksi acak dan PCA memiliki kompleksitas menjadikannya "terjangkau" untuk set data yang sangat besar.HAI(ncatatann)HAI(n)

Di sisi lain, metode yang mengandalkan penskalaan multidimensi memiliki kompleksitas .HAI(n2)

Apakah ada teknik pengurangan dimensi lain (selain dari yang sepele, seperti melihat kolom pertama , tentu saja) yang kompleksitasnya lebih rendah dari ?kHAI(ncatatann)

RUser4512
sumber

Jawaban:

5

Pilihan yang menarik akan mengeksplorasi pengurangan dimensi berbasis saraf. Jenis jaringan yang paling umum digunakan untuk pengurangan dimensi, autoencoder, dapat dilatih dengan biaya , di mana saya merepresentasikan iterasi pelatihan (merupakan parameter yang tidak tergantung pada data pelatihan). Oleh karena itu, kompleksitas pelatihan disederhanakan menjadi O ( n ) .HAI(sayan)sayaHAI(n)

Anda bisa mulai dengan melihat karya seminar 2006 oleh Hinton dan Salakhutdinov [1]. Sejak itu, banyak hal telah berkembang. Sekarang sebagian besar perhatian diperoleh oleh Variational Autoencoder [2], tetapi ide dasar (jaringan yang merekonstruksi input pada lapisan outputnya dengan lapisan bottleneck di-antara) tetap sama. Perhatikan bahwa, tidak seperti PCA dan RP, autoencoder melakukan pengurangan dimensi nonlinier. Selain itu, tidak seperti t-SNE, autoencoder dapat mengubah sampel yang tidak terlihat tanpa perlu melatih ulang seluruh model.

Di sisi praktis, saya merekomendasikan untuk melihat posting ini , yang memberikan rincian tentang bagaimana menerapkan berbagai jenis autoencoder dengan pustaka wonderfull Keras.

[1] Hinton, GE, & Salakhutdinov, RR (2006). Mengurangi dimensi data dengan jaringan saraf. sains, 313 (5786), 504-507.

[2] Kingma, DP, & Welling, M. (2013). Auto-encoding bay variational. arXiv preprint arXiv: 1312.6114.

Daniel López
sumber
1
secara teknis Anda tidak perlu melatih ulang model untuk sampel baru dengan t-SNE menggunakan pendekatan khusus ini: lvdmaaten.github.io/publications/papers/AISTATS_2009.pdf
bibliolytic
Tentu. Penulis juga menyarankan pelatihan multivariat regressor untuk memprediksi lokasi peta dari input data sampel sebagai pendekatan potensial. Dalam makalah yang Anda sebutkan penulis melatih jaringan saraf untuk secara langsung meminimalkan kerugian t-SNE. Namun, dalam kedua kasus Anda harus mendefinisikan model atau fungsi eksplisit untuk memetakan titik data ke ruang yang dihasilkan, sehingga harus cukup kuat (cukup lapisan / neuron) untuk mempelajari penanaman, tetapi tidak terlalu banyak untuk menghindari pemasangan yang berlebihan. ... Ini semacam pengorbanan beberapa kegunaan standar t-SNE.
Daniel López
Tidak ada perbedaan pendapat di sana, saya hanya berpikir itu agak tidak akurat untuk membedakan autoencoder dan t-SNE seperti yang Anda lakukan dalam jawaban Anda, mengingat t-SNE dapat digunakan sebagai kerugian untuk pengurangan dimensi
bibliolitik
HAI(n)
HAI(m2)m