Dalam dataset dari dua populasi yang tidak tumpang tindih (pasien & sehat, total ) saya ingin mencari (dari variabel independen) prediktor signifikan untuk variabel dependen berkelanjutan. Ada korelasi antara prediktor. Saya tertarik untuk mencari tahu apakah salah satu prediktor terkait dengan variabel dependen "dalam kenyataan" (daripada memprediksi variabel dependen setepat mungkin). Ketika saya kewalahan dengan berbagai pendekatan yang mungkin, saya ingin bertanya pendekatan mana yang paling direkomendasikan.300
Dari pemahaman saya, inklusi bertahap atau pengecualian prediktor tidak dianjurkan
Misalnya menjalankan regresi linier secara terpisah untuk setiap prediktor dan mengoreksi nilai-p untuk beberapa perbandingan menggunakan FDR (mungkin sangat konservatif?)
Regresi komponen-utama: sulit ditafsirkan karena saya tidak akan dapat memberi tahu tentang kekuatan prediktif dari para prediktor individu tetapi hanya tentang komponen-komponennya.
ada saran lain?
Jawaban:
Saya akan merekomendasikan mencoba glm dengan regularisasi laso . Ini menambahkan penalti ke model untuk jumlah variabel, dan saat Anda meningkatkan penalti, jumlah variabel dalam model akan berkurang.
Anda harus menggunakan validasi silang untuk memilih nilai parameter penalti. Jika Anda memiliki R, saya sarankan menggunakan paket glmnet . Gunakan
alpha=1
untuk regresi laso, danalpha=0
untuk regresi ridge. Menetapkan nilai antara 0 dan 1 akan menggunakan kombinasi denda laso dan ridge, juga dikenal sebagai jaring elastis.sumber
Untuk memperluas jawaban Zach (+1), jika Anda menggunakan metode LASSO dalam regresi linier, Anda mencoba meminimalkan jumlah fungsi kuadratik dan fungsi nilai absolut, yaitu:
Bagian pertama adalah kuadrat dalam (emas di bawah), dan yang kedua adalah kurva berbentuk persegi (hijau di bawah). Garis hitam adalah garis persimpangan.β
Minimum terletak pada kurva persimpangan, diplot di sini dengan kurva kontur kurva kuadratik dan berbentuk persegi:
Anda dapat melihat minimum ada pada salah satu sumbu, maka itu telah menghilangkan variabel itu dari regresi.
Anda dapat melihat posting blog saya tentang menggunakan hukuman untuk regresi dan pemilihan variabel (atau dikenal sebagai regularisasi Lasso).L 1
sumber
Apa keyakinan Anda sebelumnya tentang berapa banyak prediktor yang penting? Apakah mungkin sebagian besar dari mereka memiliki efek nol, atau semuanya mempengaruhi hasil, beberapa variabel hanya kurang dari yang lain?
Dan bagaimana status kesehatan terkait dengan tugas prediktif?
Jika Anda percaya bahwa hanya beberapa variabel yang penting, Anda dapat mencoba spike dan slab sebelumnya (dalam paket spikeSlabGAM R, misalnya), atau L1. Jika Anda berpikir semua prediktor memengaruhi hasil, Anda mungkin kurang beruntung.
Dan secara umum, semua peringatan terkait dengan inferensial kausal dari data pengamatan berlaku.
sumber
Apa pun yang Anda lakukan, ada baiknya mendapatkan interval kepercayaan bootstrap pada peringkat pentingnya prediktor untuk menunjukkan bahwa Anda benar-benar dapat melakukan ini dengan dataset Anda. Saya ragu bahwa salah satu metode andal dapat menemukan prediktor "benar".
sumber
Saya ingat Lasso regresi tidak berkinerja baik ketika , tapi saya tidak yakin. Saya pikir dalam hal ini Net Elastis lebih sesuai untuk pemilihan variabel.n≤p
sumber