Model stabilitas ketika berhadapan dengan besar , kecil masalah

22

Pengantar:

Saya memiliki dataset dengan "p besar, n kecil masalah" klasik. Jumlah sampel yang tersedia n = 150 sedangkan jumlah prediktor yang mungkin p = 400. Hasilnya adalah variabel kontinu.

Saya ingin menemukan deskriptor yang paling "penting", yaitu, yang merupakan kandidat terbaik untuk menjelaskan hasil dan membantu membangun teori.

Setelah penelitian tentang topik ini saya menemukan LASSO dan Elastic Net umumnya digunakan untuk kasus p besar, n kecil. Beberapa prediktor saya sangat berkorelasi dan saya ingin mempertahankan pengelompokan mereka dalam penilaian yang penting, oleh karena itu, saya memilih Elastic Net . Saya kira saya bisa menggunakan nilai absolut dari koefisien regresi sebagai ukuran kepentingan (tolong perbaiki saya jika saya salah; dataset saya distandarisasi).

Masalah:

Karena jumlah sampel saya kecil, bagaimana saya bisa mencapai model yang stabil?

Pendekatan saya saat ini adalah menemukan parameter tuning terbaik (lambda dan alpha) dalam pencarian grid pada 90% dari dataset dengan 10 kali lipat cross-validasi rata-rata skor MSE. Kemudian saya melatih model dengan parameter tuning terbaik pada seluruh 90% dataset. Saya dapat mengevaluasi model saya menggunakan R kuadrat pada ketidaksepakatan 10% dari dataset (yang hanya berjumlah 15 sampel).

Menjalankan berulang kali prosedur ini, saya menemukan perbedaan besar dalam penilaian kuadrat R. Selain itu, jumlah prediktor non-zeroed bervariasi serta koefisien mereka.

Bagaimana saya bisa mendapatkan penilaian yang lebih stabil dari kepentingan prediktor dan penilaian yang lebih stabil dari kinerja model akhir?

Dapatkah saya berulang kali menjalankan prosedur saya untuk membuat sejumlah model, dan kemudian koefisien regresi rata-rata? Atau haruskah saya menggunakan jumlah kemunculan alat prediksi dalam model sebagai skor kepentingannya?

Saat ini, saya mendapatkan sekitar 40-50 prediktor non-zeroed. Haruskah saya menghukum sejumlah prediktor lebih keras untuk stabilitas yang lebih baik?

dimi
sumber
1
Mungkin regresi yang diatur tidak cukup? Sudahkah Anda mencoba pendekatan pembelajaran mesin?
pendekatan ML mana yang cocok untuk variabel dependen kontinu atau ordinal yang akan Anda sarankan?
dimi
2
Hutan acak, SVR ... Untuk pemilihan fitur, Anda dapat mencoba beberapa metode yang relevan (harus lebih stabil) seperti ACE atau Boruta.

Jawaban:

11

" Algoritma Jarang Tidak Stabil: Teorema Tanpa Makan Siang "

Saya kira judulnya banyak, seperti yang Anda tunjukkan.

[...] algoritme jarang dapat memiliki solusi optimal yang tidak unik, dan oleh karena itu tidak tepat

Lihat laso acak , dan ceramah oleh Peter Buhlmann .

Memperbarui:

Saya menemukan makalah ini lebih mudah diikuti daripada makalah oleh Meinshausen dan Buhlmann yang disebut "Seleksi Stabilitas".

Dalam " Random Lasso ", penulis mempertimbangkan dua kelemahan penting dari laso untuk besar , kecil masalah, yaitu,nhaln

  1. Dalam kasus di mana ada beberapa variabel berkorelasi, laso hanya mengambil satu atau beberapa, sehingga menyebabkan ketidakstabilan yang Anda bicarakan
  2. Lasso tidak dapat memilih variabel lebih dari ukuran sampel yang merupakan masalah bagi banyak modeln

Gagasan utama untuk laso acak, yang mampu menangani kedua kelemahan laso adalah sebagai berikut

Jika beberapa set data independen dihasilkan dari distribusi yang sama, maka kami akan berharap laso untuk memilih subset nonidentical dari variabel-variabel penting yang sangat berkorelasi dari set data yang berbeda, dan pengumpulan akhir kami mungkin sebagian besar, atau mungkin bahkan semua, dari mereka yang sangat berkorelasi penting variabel dengan mengambil penyatuan variabel yang dipilih dari set data yang berbeda. Proses semacam itu dapat menghasilkan lebih dari variabel, mengatasi batasan lain dari laso.n

Sampel bootstrap diambil untuk mensimulasikan beberapa set data. Koefisien akhir diperoleh dengan rata-rata atas hasil masing-masing sampel bootstrap.

Alangkah baiknya jika seseorang bisa menguraikan dan menjelaskan algoritma ini lebih lanjut dalam jawaban.

Pardis
sumber
1
Tautan bagus (+1).
jbowman
Terima kasih atas sambutannya. Saya juga telah mempertimbangkan laso secara acak, tetapi apakah itu cocok untuk kasus collinearity ?
dimi
2
Apa yang terjadi di bawah perkiraan collinearity antara variabel penjelas? Dalam algoritma pencarian maju konvensional dalam analisis regresi, kita sering dihadapkan pada situasi di mana dua variabel x1 dan x2 memiliki kekuatan penjelas yang sama. Jika x1 ada dalam model, maka tidak perlu menyertakan x2; sebaliknya, jika x2 ada dalam model, tidak perlu menyertakan x1. Jika saya memahami prosedur Anda dengan benar, Anda akan cenderung memasukkan x1 separuh waktu dan x2 separuh waktu, yang mengarah ke probabilitas stabilitas masing-masing sekitar 50%. Jika demikian, Anda mungkin salah menyimpulkan bahwa tidak ada variabel yang diperlukan.
dimi
Saya membayangkan, saya juga bisa menggunakan jaring elastis acak dalam kasus ini.
dimi
Saya telah menambahkan tautan lain yang menurut saya menjawab pertanyaan Anda dengan lebih baik.
Pardis
6

Pendekatan saya saat ini adalah menemukan parameter tuning terbaik (lambda dan alpha) dalam pencarian grid pada 90% dari dataset dengan 10 kali lipat cross-validasi rata-rata skor MSE. Kemudian saya melatih model dengan parameter tuning terbaik pada seluruh 90% dataset. Saya dapat mengevaluasi model saya menggunakan R kuadrat pada ketidakhadiran 10% dari dataset (yang hanya berjumlah 15 sampel).

Seberapa stabil parameter penyetelan?

Apakah Anda melihat perbedaan besar antara good-of-fit (mis. MSE dari validasi lintas parameter optimal) dan kinerja tes independen 10%?

Itu akan menjadi gejala overfitting:

M.SE=f(grsayadhalSebuahrSebuahmeters)M.SE=f(grsayadhalSebuahrSebuahmeters)

Dapatkah saya berulang kali menjalankan prosedur saya untuk membuat sejumlah model, dan kemudian koefisien regresi rata-rata? Atau haruskah saya menggunakan jumlah kemunculan alat prediksi dalam model sebagai skor kepentingannya?

Ada beberapa kemungkinan untuk membangun model agregat tersebut:

  • model linier dapat dirata-ratakan dengan rata-rata koefisien
  • mm

Istilah pencarian akan menjadi "model agregat", "agregat bootstrap", "bagging".

Pemikiran samping: beberapa tipe data mengharapkan dan menafsirkan collinearity yang dapat menyebabkan selectio variabel "melompat" antara solusi yang kurang lebih sama.

Cbeleites mendukung Monica
sumber
3

Tidak ada jalan keluar. Seperti yang dikatakan beberapa orang, model pada dasarnya tidak stabil (jika tidak, statistik tidak akan diperlukan).

Tetapi ketidakstabilan itu sendiri membawa informasi. Jadi alih-alih mencoba menyingkirkannya, saya mencoba menganalisisnya.

Saya menjalankan simulasi validasi silang berkali-kali dan kemudian mendapatkan koefisien untuk parameter yang dipilih terbaik di setiap proses dan menyatukannya.

λα

Kemudian saya mengekstrak koefisien regresi untuk setiap pasangan parameter dan ini memberi saya distribusi nilai untuk setiap parameter. Dengan cara ini saya dapat menggunakan nilai rata-rata / median untuk menggambarkan kekuatan prediktor dan standar deviasi / IQR untuk menggambarkan variabilitasnya, yaitu stabilitasnya.

Prediktor yang sangat stabil berarti Anda dapat mengharapkan pengaruhnya serupa dengan data baru; prediktor yang tidak stabil bahkan dalam data Anda, mungkin akan sangat tidak stabil bahkan dengan data baru.

Bakaburg
sumber