Saya dapatkan dari posting lain bahwa seseorang tidak dapat menghubungkan 'pentingnya' atau 'signifikansi' dengan variabel prediktor yang memasuki model laso karena menghitung nilai-p variabel tersebut atau standar deviasi masih dalam proses.
Di bawah alasan itu, apakah benar untuk menyatakan bahwa seseorang TIDAK BISA mengatakan bahwa variabel yang dikeluarkan dari model laso adalah 'tidak relevan' atau 'tidak signifikan'?
Jika demikian, apa yang sebenarnya bisa saya klaim tentang variabel yang dikecualikan atau dimasukkan dalam model laso? Dalam kasus khusus saya, saya memilih parameter tuning lambda dengan mengulangi 10 kali lipat validasi silang 100 kali untuk mengurangi randonmess dan untuk rata-rata kurva kesalahan.
UPDATE1: Saya mengikuti saran di bawah ini dan menjalankan ulang laso menggunakan sampel bootstrap. Saya mencobanya dengan 100 sampel (jumlah itulah yang dapat dikelola oleh daya komputer saya dalam semalam) dan beberapa pola muncul. 2 dari 41 variabel saya memasuki model lebih dari 95% kali, 3 variabel lebih dari 90% dan 5 variabel lebih dari 85%. Kelima variabel tersebut adalah di antara 9 yang masuk model ketika saya menjalankannya dengan sampel asli dan yang dengan nilai koefisien tertinggi. Jika saya menjalankan laso dengan mengatakan 1000 sampel bootstrap dan pola-pola itu dipertahankan, apa cara terbaik untuk menyajikan hasil saya?
Apakah 1000 sampel bootstrap terdengar cukup? (Ukuran sampel saya adalah 116)
Haruskah saya mendaftar semua variabel dan seberapa sering mereka memasuki model, dan kemudian berdebat bahwa variabel yang masuk lebih sering lebih cenderung signifikan?
Apakah itu sejauh yang saya bisa lakukan dengan klaim saya? Karena ini adalah pekerjaan yang sedang berjalan (lihat di atas) saya tidak dapat menggunakan nilai cut-off, kan?
UPDATE2: Mengikuti saran di bawah ini, saya telah menghitung yang berikut: rata-rata, 78% variabel dalam model asli memasuki model yang dihasilkan untuk 100 sampel bootstrap. Di sisi lain, hanya 41% untuk sebaliknya. Hal ini sebagian besar berkaitan dengan fakta bahwa model yang dihasilkan untuk sampel bootstrap cenderung menyertakan lebih banyak variabel (rata-rata 17) daripada model asli (9).
UPDATE3: Jika Anda dapat membantu saya dalam menafsirkan hasil yang saya dapatkan dari bootstrap dan simulasi Monte Carlo, silakan lihat posting lain ini .