Bagaimana menafsirkan variabel yang dikecualikan dari atau termasuk dalam model laso?

9

Saya dapatkan dari posting lain bahwa seseorang tidak dapat menghubungkan 'pentingnya' atau 'signifikansi' dengan variabel prediktor yang memasuki model laso karena menghitung nilai-p variabel tersebut atau standar deviasi masih dalam proses.

Di bawah alasan itu, apakah benar untuk menyatakan bahwa seseorang TIDAK BISA mengatakan bahwa variabel yang dikeluarkan dari model laso adalah 'tidak relevan' atau 'tidak signifikan'?

Jika demikian, apa yang sebenarnya bisa saya klaim tentang variabel yang dikecualikan atau dimasukkan dalam model laso? Dalam kasus khusus saya, saya memilih parameter tuning lambda dengan mengulangi 10 kali lipat validasi silang 100 kali untuk mengurangi randonmess dan untuk rata-rata kurva kesalahan.

UPDATE1: Saya mengikuti saran di bawah ini dan menjalankan ulang laso menggunakan sampel bootstrap. Saya mencobanya dengan 100 sampel (jumlah itulah yang dapat dikelola oleh daya komputer saya dalam semalam) dan beberapa pola muncul. 2 dari 41 variabel saya memasuki model lebih dari 95% kali, 3 variabel lebih dari 90% dan 5 variabel lebih dari 85%. Kelima variabel tersebut adalah di antara 9 yang masuk model ketika saya menjalankannya dengan sampel asli dan yang dengan nilai koefisien tertinggi. Jika saya menjalankan laso dengan mengatakan 1000 sampel bootstrap dan pola-pola itu dipertahankan, apa cara terbaik untuk menyajikan hasil saya?

  • Apakah 1000 sampel bootstrap terdengar cukup? (Ukuran sampel saya adalah 116)

  • Haruskah saya mendaftar semua variabel dan seberapa sering mereka memasuki model, dan kemudian berdebat bahwa variabel yang masuk lebih sering lebih cenderung signifikan?

  • Apakah itu sejauh yang saya bisa lakukan dengan klaim saya? Karena ini adalah pekerjaan yang sedang berjalan (lihat di atas) saya tidak dapat menggunakan nilai cut-off, kan?

UPDATE2: Mengikuti saran di bawah ini, saya telah menghitung yang berikut: rata-rata, 78% variabel dalam model asli memasuki model yang dihasilkan untuk 100 sampel bootstrap. Di sisi lain, hanya 41% untuk sebaliknya. Hal ini sebagian besar berkaitan dengan fakta bahwa model yang dihasilkan untuk sampel bootstrap cenderung menyertakan lebih banyak variabel (rata-rata 17) daripada model asli (9).

UPDATE3: Jika Anda dapat membantu saya dalam menafsirkan hasil yang saya dapatkan dari bootstrap dan simulasi Monte Carlo, silakan lihat posting lain ini .

Bingung
sumber

Jawaban:

10

Kesimpulan Anda benar. Pikirkan dua aspek:

  1. Kekuatan statistik untuk mendeteksi efek. Kecuali kekuatannya sangat tinggi, seseorang dapat kehilangan efek nyata yang besar.
  2. Keandalan: memiliki probabilitas tinggi untuk menemukan fitur yang benar (benar).

Setidaknya ada 4 pertimbangan utama:

  1. Apakah metode ini dapat direproduksi oleh Anda menggunakan dataset yang sama?
  2. Apakah metode ini dapat direproduksi oleh orang lain menggunakan dataset yang sama?
  3. Apakah hasilnya dapat direproduksi menggunakan dataset lain?
  4. Apakah hasilnya dapat diandalkan?

Ketika seseorang ingin melakukan lebih dari prediksi tetapi untuk benar-benar menarik kesimpulan tentang fitur mana yang penting dalam memprediksi hasil, 3. dan 4. sangat penting.

Anda telah membahas 3. (dan untuk tujuan ini, 100 bootstraps sudah mencukupi), tetapi selain fraksi inklusi fitur individual, kita perlu mengetahui 'jarak' absolut rata-rata antara set fitur bootstrap dan set fitur asli yang dipilih. Sebagai contoh, berapa jumlah rata-rata fitur yang terdeteksi dari seluruh sampel yang ditemukan dalam sampel bootstrap? Berapa jumlah rata-rata fitur yang dipilih dari sampel bootstrap yang ditemukan dalam analisis asli? Berapa proporsi waktu bootstrap yang ditemukan cocok dengan set fitur asli? Berapa proporsi tempat bootstrap berada dalam satu fitur untuk menyetujui persis dengan yang asli? Dua fitur?

Tidaklah tepat untuk mengatakan bahwa cutoff apa pun harus digunakan dalam membuat kesimpulan secara keseluruhan.

Mengenai bagian 4., tidak satu pun dari ini membahas keandalan proses, yaitu, seberapa dekat set fitur dengan set fitur 'benar'. Untuk mengatasinya, Anda dapat melakukan studi simulasi ulang Monte-Carlo di mana Anda mengambil sampel laso hasil asli sebagai 'kebenaran' dan mensimulasikan vektor respons baru beberapa ratus kali menggunakan beberapa struktur kesalahan yang diasumsikan. Untuk setiap simulasi ulang Anda menjalankan laso pada matriks prediktor seluruh asli dan vektor respons baru, dan menentukan seberapa dekat set fitur laso yang dipilih adalah dengan kebenaran yang Anda simulasikan. Kondisi simulasi ulang pada seluruh rangkaian calon prediktor dan menggunakan estimasi koefisien dari model yang pada awalnya dipasang (dan dalam kasus laso, rangkaian prediktor terpilih) sebagai 'kebenaran' yang mudah untuk disimulasikan.

YXXβ

β

YXβY

lp <- predict(...) # assuming suitable predict method available, or fitted()
probs <- plogis(lp)
y <- ifelse(runif(n) <= probs, 1, 0)
Frank Harrell
sumber
3
N
1
Saya tidak mengacu pada bootstrap. Saya merujuk pada apakah Anda dapat belajar sesuatu dari puluhan variabel kandidat ketika Anda hanya memiliki 32 acara.
Frank Harrell
3
Y
1
Lakukan percobaan simulasi ulang yang saya sarankan untuk memeriksa keandalan metode yang sebenarnya dalam pengaturan yang tepat.
Frank Harrell
2
Saya perlu mengakhiri diskusi ini - jawaban dasar untuk pertanyaan Anda adalah pemrograman dasar R ditambah lihat simulasi sederhana di biostat.mc.vanderbilt.edu/rms .
Frank Harrell