Apa keuntungan dari mengurangi dimensi prediksi untuk keperluan regresi?

11

Apa saja aplikasi atau keuntungan dari regresi reduksi dimensi (PRB) atau teknik reduksi dimensionalitas terawasi (SDR) dibandingkan teknik regresi tradisional (tanpa pengurangan dimensionalitas)? Kelas teknik ini menemukan representasi dimensi rendah dari set fitur untuk masalah regresi. Contoh-contoh dari teknik-teknik tersebut termasuk Regresi Pembalikan Irisan, Petunjuk Hessian Kepala, Estimasi Varians Rata Teriris, Regresi Pembalikan Irisan Kernel, Regresi Komponen Utama, dll.

  1. Dalam hal RMSE yang divalidasi silang, jika suatu algoritma berkinerja lebih baik pada tugas regresi tanpa pengurangan dimensionalitas, lalu apa sebenarnya penggunaan reduksi dimensionalitas untuk regresi? Saya tidak mengerti maksud dari teknik ini.

  2. Apakah teknik ini kebetulan digunakan untuk mengurangi kompleksitas ruang dan waktu untuk regresi? Jika itu adalah keuntungan utama, beberapa sumber daya pada pengurangan kompleksitas untuk dataset dimensi tinggi ketika teknik ini digunakan akan sangat membantu. Saya memperdebatkan ini dengan fakta bahwa menjalankan teknik DRR atau SDR itu sendiri membutuhkan waktu dan ruang. Apakah SDR / DRR + Regresi ini pada dataset redup rendah lebih cepat daripada hanya regresi pada dataset redup tinggi?

  3. Apakah pengaturan ini dipelajari hanya dari minat abstrak, dan tidak memiliki aplikasi praktis yang baik?

Sebagai pemikiran sampingan: kadang-kadang ada asumsi bahwa distribusi gabungan dari fitur dan respons terletak pada bermacam-macam. Masuk akal untuk mempelajari manifold dari sampel yang diamati dalam konteks ini untuk menyelesaikan masalah regresi.XY

mobil jenazah
sumber
1
Anda berbicara tentang berjenis belajar sehingga blogpost berikut dapat membantu: normaldeviate.wordpress.com/2012/09/08/hunting-for-manifolds
kjetil b halvorsen

Jawaban:

5

Menurut hipotesis manifold, data diasumsikan terletak pada manifold dimensi rendah, implikasinya adalah residual adalah noise, jadi jika Anda melakukan pengurangan dimensionalitas Anda dengan benar, Anda harus meningkatkan kinerja dengan memodelkan sinyal daripada noise. Ini bukan hanya masalah ruang dan kompleksitas.

Emre
sumber
tapi saya tidak melihat teknik seperti SIR melakukan lebih baik setelah pengurangan dimensi berdasarkan kuat. Koreksi saya jika saya salah atau jika Anda mengetahui teknik SDR / DDR yang dapat menemukan sinyal ini lebih baik-dalam pengaturan regresi, beri tahu saya teknik apa (nama) itu.
mobil jenazah
Tentu saja itu tergantung pada algoritma regresi, dan dimensi intrinsik data. Saya tidak dapat berbicara untuk SIR secara khusus, tetapi di sini adalah makalah yang membandingkan berbagai algoritma regresi pada dataset MNIST, yang berdimensi rendah. Mungkin Anda bisa membagikan beberapa data yang merepotkan sehingga orang-orang dapat melakukannya.
Emre
Apa itu "hipotesis berlipat ganda"?
Amuba mengatakan Reinstate Monica
Saya bertanya-tanya apakah hal ini mirip dengan jaringan saraf dan penskalaan multidimensi nonlinear karena "terdengar seperti" itu seharusnya bagus di mana-mana tetapi dalam praktiknya bekerja dengan baik dalam rangkaian kasus yang lebih terbatas
shadowtalker
6

Tujuan pengurangan dimensi dalam regresi adalah regularisasi.

Sebagian besar teknik yang Anda daftarkan tidak terlalu terkenal; Saya belum pernah mendengar tentang mereka selain dari komponen utama regresi (PCR). Jadi saya akan menjawab tentang PCR tetapi mengharapkan hal yang sama berlaku untuk teknik lain juga.

Dua kata kunci di sini adalah overfitting dan regularisasi . Untuk perawatan dan diskusi yang panjang saya merujuk Anda ke Elemen Pembelajaran Statistik , tetapi sangat singkat, apa yang terjadi jika Anda memiliki banyak prediktor ( ) dan tidak cukup sampel ( ) adalah bahwa regresi standar akan sesuai dengan data dan Anda akan membangun model yang tampaknya memiliki kinerja yang baik pada set pelatihan tetapi sebenarnya memiliki kinerja yang sangat buruk pada set tes apa pun.npn

Dalam contoh ekstrem, ketika jumlah prediktor melebihi jumlah sampel (orang menyebutnya sebagai masalah ), Anda dapat benar- benar cocok dengan semua variabel respons , mencapai kinerja yang tampaknya . Ini jelas omong kosong.y 100 %p>ny100%

Untuk mengatasi overfitting kita harus menggunakan regularisasi , dan ada banyak strategi regularisasi yang berbeda. Dalam beberapa pendekatan seseorang mencoba secara drastis mengurangi jumlah prediktor, mengurangi masalah ke situasi , dan kemudian menggunakan regresi standar. Inilah yang dilakukan oleh komponen utama regresi. Silakan lihat Elemen , bagian 3.4--3.6. PCR biasanya suboptimal dan dalam banyak kasus beberapa metode regularisasi lainnya akan berkinerja lebih baik, tetapi mudah dipahami dan ditafsirkan.pn

Perhatikan bahwa PCR juga tidak arbitrer (mis. Menjaga dimensi secara acak cenderung berkinerja lebih buruk). Alasan untuk ini adalah bahwa PCR terkait erat dengan regresi ridge, yang merupakan pengatur susut standar yang diketahui bekerja dengan baik dalam berbagai macam kasus. Lihat jawaban saya di sini untuk perbandingan: Hubungan antara regresi ridge dan regresi PCA .p

Untuk melihat peningkatan kinerja dibandingkan dengan regresi standar, Anda memerlukan dataset dengan banyak prediktor dan tidak begitu banyak sampel, dan Anda pasti perlu menggunakan validasi silang atau set tes independen. Jika Anda tidak melihat peningkatan kinerja, maka mungkin dataset Anda tidak memiliki dimensi yang cukup.

Utas terkait dengan jawaban yang baik:

amuba kata Reinstate Monica
sumber
1
Mengingat publikasi itu, aman untuk berasumsi dia tahu ini.
Emre
Terima kasih, @Emre, saya tidak tahu siapa OP itu. Saya mungkin telah salah paham pertanyaannya, tetapi setelah membacanya kembali sekarang saya tidak melihat bagaimana saya bisa menafsirkannya secara berbeda. Jika seseorang bertanya apa manfaat praktis PCR, maka jawabannya adalah regularisasi; PCR sebenarnya terkait erat dengan regresi ridge, yang merupakan salah satu metode regularisasi paling standar.
Amoeba berkata Reinstate Monica
Tetapi bahkan di Elemen saya mendapat kesan bahwa LASSO mengalahkan PCR sebagian besar waktu, dan bahwa keuntungan utama PCR adalah ketikap>n
shadowtalker
@ssdecontrol: Saya setuju. Saya pikir konsensus adalah bahwa PCR cukup banyak yang tidak kompetitif dan hampir selalu ada pendekatan yang lebih baik. Ini juga yang saya tulis dalam jawaban saya (bukan?), Tetapi pertanyaannya adalah secara spesifik tentang pengurangan dimensi dari para prediktor dan tentang apa tujuannya. Jawaban saya adalah tujuannya adalah regularisasi.
Amoeba berkata Reinstate Monica
Dimengerti Tapi saya pikir kita bisa sepakat bahwa pertanyaan itu dimuat secara khusus untuk menantang kegunaannya mengingat bahwa itu sebenarnya bukan cara terbaik untuk mengatur meskipun daya tariknya intuitif
shadowtalker