Apa saja aplikasi atau keuntungan dari regresi reduksi dimensi (PRB) atau teknik reduksi dimensionalitas terawasi (SDR) dibandingkan teknik regresi tradisional (tanpa pengurangan dimensionalitas)? Kelas teknik ini menemukan representasi dimensi rendah dari set fitur untuk masalah regresi. Contoh-contoh dari teknik-teknik tersebut termasuk Regresi Pembalikan Irisan, Petunjuk Hessian Kepala, Estimasi Varians Rata Teriris, Regresi Pembalikan Irisan Kernel, Regresi Komponen Utama, dll.
Dalam hal RMSE yang divalidasi silang, jika suatu algoritma berkinerja lebih baik pada tugas regresi tanpa pengurangan dimensionalitas, lalu apa sebenarnya penggunaan reduksi dimensionalitas untuk regresi? Saya tidak mengerti maksud dari teknik ini.
Apakah teknik ini kebetulan digunakan untuk mengurangi kompleksitas ruang dan waktu untuk regresi? Jika itu adalah keuntungan utama, beberapa sumber daya pada pengurangan kompleksitas untuk dataset dimensi tinggi ketika teknik ini digunakan akan sangat membantu. Saya memperdebatkan ini dengan fakta bahwa menjalankan teknik DRR atau SDR itu sendiri membutuhkan waktu dan ruang. Apakah SDR / DRR + Regresi ini pada dataset redup rendah lebih cepat daripada hanya regresi pada dataset redup tinggi?
Apakah pengaturan ini dipelajari hanya dari minat abstrak, dan tidak memiliki aplikasi praktis yang baik?
Sebagai pemikiran sampingan: kadang-kadang ada asumsi bahwa distribusi gabungan dari fitur dan respons terletak pada bermacam-macam. Masuk akal untuk mempelajari manifold dari sampel yang diamati dalam konteks ini untuk menyelesaikan masalah regresi.
sumber
Jawaban:
Menurut hipotesis manifold, data diasumsikan terletak pada manifold dimensi rendah, implikasinya adalah residual adalah noise, jadi jika Anda melakukan pengurangan dimensionalitas Anda dengan benar, Anda harus meningkatkan kinerja dengan memodelkan sinyal daripada noise. Ini bukan hanya masalah ruang dan kompleksitas.
sumber
Tujuan pengurangan dimensi dalam regresi adalah regularisasi.
Sebagian besar teknik yang Anda daftarkan tidak terlalu terkenal; Saya belum pernah mendengar tentang mereka selain dari komponen utama regresi (PCR). Jadi saya akan menjawab tentang PCR tetapi mengharapkan hal yang sama berlaku untuk teknik lain juga.
Dua kata kunci di sini adalah overfitting dan regularisasi . Untuk perawatan dan diskusi yang panjang saya merujuk Anda ke Elemen Pembelajaran Statistik , tetapi sangat singkat, apa yang terjadi jika Anda memiliki banyak prediktor ( ) dan tidak cukup sampel ( ) adalah bahwa regresi standar akan sesuai dengan data dan Anda akan membangun model yang tampaknya memiliki kinerja yang baik pada set pelatihan tetapi sebenarnya memiliki kinerja yang sangat buruk pada set tes apa pun.np n
Dalam contoh ekstrem, ketika jumlah prediktor melebihi jumlah sampel (orang menyebutnya sebagai masalah ), Anda dapat benar- benar cocok dengan semua variabel respons , mencapai kinerja yang tampaknya . Ini jelas omong kosong.y 100 %p>n y 100%
Untuk mengatasi overfitting kita harus menggunakan regularisasi , dan ada banyak strategi regularisasi yang berbeda. Dalam beberapa pendekatan seseorang mencoba secara drastis mengurangi jumlah prediktor, mengurangi masalah ke situasi , dan kemudian menggunakan regresi standar. Inilah yang dilakukan oleh komponen utama regresi. Silakan lihat Elemen , bagian 3.4--3.6. PCR biasanya suboptimal dan dalam banyak kasus beberapa metode regularisasi lainnya akan berkinerja lebih baik, tetapi mudah dipahami dan ditafsirkan.p≪n
Perhatikan bahwa PCR juga tidak arbitrer (mis. Menjaga dimensi secara acak cenderung berkinerja lebih buruk). Alasan untuk ini adalah bahwa PCR terkait erat dengan regresi ridge, yang merupakan pengatur susut standar yang diketahui bekerja dengan baik dalam berbagai macam kasus. Lihat jawaban saya di sini untuk perbandingan: Hubungan antara regresi ridge dan regresi PCA .p
Untuk melihat peningkatan kinerja dibandingkan dengan regresi standar, Anda memerlukan dataset dengan banyak prediktor dan tidak begitu banyak sampel, dan Anda pasti perlu menggunakan validasi silang atau set tes independen. Jika Anda tidak melihat peningkatan kinerja, maka mungkin dataset Anda tidak memiliki dimensi yang cukup.
Utas terkait dengan jawaban yang baik:
Regresi dalam pengaturan (memprediksi efisiensi obat dari ekspresi gen dengan 30k prediktor dan ~ 30 sampel)p≫N
Regresi dalam pengaturan : bagaimana memilih metode regularisasi (Lasso, PLS, PCR, ridge)?p>n
sumber