Apakah ada yang punya pengalaman dengan pendekatan untuk memilih jumlah komponen utama yang jarang dimasukkan dalam model regresi?
pca
sparse
regression-strategies
Frank Harrell
sumber
sumber
Jawaban:
Meskipun saya tidak memiliki wawasan langsung tentang pertanyaan Anda, saya menemukan beberapa makalah penelitian , yang mungkin menarik bagi Anda. Itu, tentu saja, jika saya mengerti benar bahwa Anda berbicara tentang PCA yang jarang , regresi komponen utama dan topik terkait. Dalam hal ini, berikut adalah makalahnya:
sumber
http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=5876870&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D5876870
Saya dapat memposting salinan jika Anda bukan anggota ieee.
Ini dari makalah yang saya tulis di tingkat sarjana. Saya memiliki masalah di mana saya perlu memutuskan berapa dimensi (Latent Semantic Indexing mirip dengan PCA) untuk digunakan dalam model regresi logistik saya. Apa yang saya lakukan adalah memilih metrik (yaitu tingkat kesalahan ketika menggunakan probabilitas penandaan .5) dan melihat distribusi untuk tingkat kesalahan ini untuk model yang berbeda dilatih pada jumlah dimensi yang berbeda. Saya kemudian memilih model dengan tingkat kesalahan terendah. Anda bisa menggunakan metrik lain seperti area di bawah kurva ROC.
Anda juga bisa menggunakan sesuatu seperti regresi bertahap untuk memilih jumlah dimensi untuk Anda. Jenis regresi apa yang Anda bentuk secara spesifik?
Apa yang kamu maksud dengan btw jarang?
sumber