Memilih jumlah komponen utama yang jarang dimasukkan dalam regresi

9

Apakah ada yang punya pengalaman dengan pendekatan untuk memilih jumlah komponen utama yang jarang dimasukkan dalam model regresi?

Frank Harrell
sumber
Saya tidak memiliki pengalaman dengan itu secara khusus, tetapi saya akan menganggap bahwa validasi silang akan menjadi salah satu pendekatan yang baik (seperti biasa).
amoeba

Jawaban:

4

Meskipun saya tidak memiliki wawasan langsung tentang pertanyaan Anda, saya menemukan beberapa makalah penelitian , yang mungkin menarik bagi Anda. Itu, tentu saja, jika saya mengerti benar bahwa Anda berbicara tentang PCA yang jarang , regresi komponen utama dan topik terkait. Dalam hal ini, berikut adalah makalahnya:

Aleksandr Blekh
sumber
1
Saya tidak tahu tentang semua referensi ini. Mereka sangat baik - terima kasih.
Frank Harrell
@ FrankHarrell: Sama-sama! Senang bisa membantu.
Aleksandr Blekh
1

Hasil validasi silang juga digunakan untuk menentukan jumlah dimensi optimal untuk ruang LSI. Terlalu sedikit dimensi yang tidak memanfaatkan kekuatan prediksi data; sementara terlalu banyak dimensi menyebabkan pemasangan yang berlebihan. Gambar. 4 menunjukkan distribusi kesalahan rata-rata untuk model dengan jumlah dimensi LSI yang berbeda. Model dengan ruang LSI empat dimensi menghasilkan jumlah kesalahan rata-rata paling sedikit dan jumlah kesalahan rata-rata paling sedikit, sehingga model akhir dibangun menggunakan ruang LSI empat dimensi.

http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=5876870&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D5876870

Saya dapat memposting salinan jika Anda bukan anggota ieee.

Ini dari makalah yang saya tulis di tingkat sarjana. Saya memiliki masalah di mana saya perlu memutuskan berapa dimensi (Latent Semantic Indexing mirip dengan PCA) untuk digunakan dalam model regresi logistik saya. Apa yang saya lakukan adalah memilih metrik (yaitu tingkat kesalahan ketika menggunakan probabilitas penandaan .5) dan melihat distribusi untuk tingkat kesalahan ini untuk model yang berbeda dilatih pada jumlah dimensi yang berbeda. Saya kemudian memilih model dengan tingkat kesalahan terendah. Anda bisa menggunakan metrik lain seperti area di bawah kurva ROC.

Anda juga bisa menggunakan sesuatu seperti regresi bertahap untuk memilih jumlah dimensi untuk Anda. Jenis regresi apa yang Anda bentuk secara spesifik?

Apa yang kamu maksud dengan btw jarang?

Andrew Cassidy
sumber
PC Jarang adalah contohnya PCA yang dipatenkan L1 (laso). Dalam PCA biasa kita biasanya dapat memasukkan istilah dalam urutan variasi yang dijelaskan. Dengan PCA yang jarang terjadi, hal-hal sedikit lebih tidak menentu sehingga seleksi mungkin lebih sulit.
Frank Harrell
Pertanyaannya adalah secara khusus tentang komponen utama yang jarang , dan jawaban ini (betapapun baiknya) tidak mengatasinya sama sekali , jadi -1.
amoeba
Y
@FrankHarrell yang berpotensi terjadi tetapi kurang rentan terjadi jika Anda menggunakan AIC dan bukan R-squared
Andrew Cassidy
@amoeba Saya bingung ... tidak, saya tidak membahas bagian "jarang" dari komentar utama, tetapi Anda membuat saran yang sama persis untuk menggunakan validasi silang dalam komentar?
Andrew Cassidy