Pengantar:
Saya memiliki dataset dengan "p besar, n kecil masalah" klasik. Jumlah sampel yang tersedia n = 150 sedangkan jumlah prediktor yang mungkin p = 400. Hasilnya adalah variabel kontinu.
Saya ingin menemukan deskriptor yang paling "penting", yaitu, yang merupakan kandidat terbaik untuk menjelaskan hasil dan membantu membangun teori.
Setelah penelitian tentang topik ini saya menemukan LASSO dan Elastic Net umumnya digunakan untuk kasus p besar, n kecil. Beberapa prediktor saya sangat berkorelasi dan saya ingin mempertahankan pengelompokan mereka dalam penilaian yang penting, oleh karena itu, saya memilih Elastic Net . Saya kira saya bisa menggunakan nilai absolut dari koefisien regresi sebagai ukuran kepentingan (tolong perbaiki saya jika saya salah; dataset saya distandarisasi).
Masalah:
Karena jumlah sampel saya kecil, bagaimana saya bisa mencapai model yang stabil?
Pendekatan saya saat ini adalah menemukan parameter tuning terbaik (lambda dan alpha) dalam pencarian grid pada 90% dari dataset dengan 10 kali lipat cross-validasi rata-rata skor MSE. Kemudian saya melatih model dengan parameter tuning terbaik pada seluruh 90% dataset. Saya dapat mengevaluasi model saya menggunakan R kuadrat pada ketidaksepakatan 10% dari dataset (yang hanya berjumlah 15 sampel).
Menjalankan berulang kali prosedur ini, saya menemukan perbedaan besar dalam penilaian kuadrat R. Selain itu, jumlah prediktor non-zeroed bervariasi serta koefisien mereka.
Bagaimana saya bisa mendapatkan penilaian yang lebih stabil dari kepentingan prediktor dan penilaian yang lebih stabil dari kinerja model akhir?
Dapatkah saya berulang kali menjalankan prosedur saya untuk membuat sejumlah model, dan kemudian koefisien regresi rata-rata? Atau haruskah saya menggunakan jumlah kemunculan alat prediksi dalam model sebagai skor kepentingannya?
Saat ini, saya mendapatkan sekitar 40-50 prediktor non-zeroed. Haruskah saya menghukum sejumlah prediktor lebih keras untuk stabilitas yang lebih baik?
Jawaban:
" Algoritma Jarang Tidak Stabil: Teorema Tanpa Makan Siang "
Saya kira judulnya banyak, seperti yang Anda tunjukkan.
Lihat laso acak , dan ceramah oleh Peter Buhlmann .
Memperbarui:
Saya menemukan makalah ini lebih mudah diikuti daripada makalah oleh Meinshausen dan Buhlmann yang disebut "Seleksi Stabilitas".
Dalam " Random Lasso ", penulis mempertimbangkan dua kelemahan penting dari laso untuk besar , kecil masalah, yaitu,nhal n
Gagasan utama untuk laso acak, yang mampu menangani kedua kelemahan laso adalah sebagai berikut
Sampel bootstrap diambil untuk mensimulasikan beberapa set data. Koefisien akhir diperoleh dengan rata-rata atas hasil masing-masing sampel bootstrap.
Alangkah baiknya jika seseorang bisa menguraikan dan menjelaskan algoritma ini lebih lanjut dalam jawaban.
sumber
Seberapa stabil parameter penyetelan?
Apakah Anda melihat perbedaan besar antara good-of-fit (mis. MSE dari validasi lintas parameter optimal) dan kinerja tes independen 10%?
Itu akan menjadi gejala overfitting:
Ada beberapa kemungkinan untuk membangun model agregat tersebut:
Istilah pencarian akan menjadi "model agregat", "agregat bootstrap", "bagging".
Pemikiran samping: beberapa tipe data mengharapkan dan menafsirkan collinearity yang dapat menyebabkan selectio variabel "melompat" antara solusi yang kurang lebih sama.
sumber
Tidak ada jalan keluar. Seperti yang dikatakan beberapa orang, model pada dasarnya tidak stabil (jika tidak, statistik tidak akan diperlukan).
Tetapi ketidakstabilan itu sendiri membawa informasi. Jadi alih-alih mencoba menyingkirkannya, saya mencoba menganalisisnya.
Saya menjalankan simulasi validasi silang berkali-kali dan kemudian mendapatkan koefisien untuk parameter yang dipilih terbaik di setiap proses dan menyatukannya.
Kemudian saya mengekstrak koefisien regresi untuk setiap pasangan parameter dan ini memberi saya distribusi nilai untuk setiap parameter. Dengan cara ini saya dapat menggunakan nilai rata-rata / median untuk menggambarkan kekuatan prediktor dan standar deviasi / IQR untuk menggambarkan variabilitasnya, yaitu stabilitasnya.
Prediktor yang sangat stabil berarti Anda dapat mengharapkan pengaruhnya serupa dengan data baru; prediktor yang tidak stabil bahkan dalam data Anda, mungkin akan sangat tidak stabil bahkan dengan data baru.
sumber