Tabel Reproduksi 18.1 dari “Elemen Pembelajaran Statistik”

Tabel 18.1 dalam Elemen Pembelajaran Statistik merangkum kinerja beberapa pengklasifikasi pada set data 14 kelas. Saya membandingkan algoritma baru dengan laso dan jaring elastis untuk masalah klasifikasi multikelas.

Menggunakan glmnetversi 1.5.3 (R 2.13.0) saya tidak dapat mereproduksi titik 7. (yang multinomial -penalized) pada tabel, di mana jumlah gen yang digunakan dilaporkan menjadi 269 dan kesalahan uji adalah 13 keluar 54. Data yang digunakan adalah set data microarray 14-kanker ini . Apa pun yang saya coba, saya mendapatkan model dengan kinerja terbaik di lingkungan 170-180 gen dengan kesalahan uji 16 dari 54. $L_1$

Perhatikan bahwa pada awal Bagian 18.3, di halaman 654, beberapa pemrosesan data diuraikan.

Saya telah menghubungi penulis - sejauh ini tanpa tanggapan - dan saya bertanya apakah ada yang bisa mengkonfirmasi bahwa ada masalah dalam mereproduksi tabel atau memberikan solusi tentang cara mereproduksi tabel.

classification lasso glmnet NRH
sumber

glmnet telah mengalami sedikit perubahan baru-baru ini dan memiliki beberapa masalah dengan angka di masa lalu. Apakah mungkin karena ini? Berapa lama sejak Anda menghubungi penulis? Saya melihat versi saat ini adalah 1.7 dan baru diunggah ke CRAN sekitar seminggu yang lalu.

kardinal

@ cardinal, sekitar empat minggu sejak saya melakukan percobaan terakhir dengan glmnet, tetapi kami juga memiliki implementasi yang berbeda yang menghasilkan hasil yang serupa tidak konsisten dengan tabel di ESL. Tabelnya jelas lebih tua, jadi dugaan saya adalah bahwa tabelnya tidak benar, tetapi akan lebih baik jika mengetahui dengan pasti.

NRH

Saya dengan singkat membaca sekilas bagian-bagian itu dan satu pertanyaan yang muncul di benak saya adalah bagaimana validasi silang dilakukan untuk memilih parameter penyusutan di (18.19) di halaman 661 (pencetakan ketiga). Ada ide? Mungkin saya melewatkannya atau dijelaskan di tempat lain? Itu sepertinya tempat di mana upaya Anda untuk membuat ulang analisis mereka bisa peka terhadap perbedaan dalam pendekatan.

kardinal

@ cardinal, terima kasih pertama karena telah tertarik pada ini. Benar bahwa CV dapat membuat perbedaan, tetapi penulis sebenarnya memiliki himpunan bagian (indeks) yang digunakan untuk CV di halaman web bersama dengan data. Lagi pula, CV hanya digunakan untuk memilih parameter penalti optimal lambda, maka seluruh rangkaian data pelatihan digunakan agar sesuai dengan model, yang kemudian dinilai pada data uji. Oleh karena itu, bahkan jika langkah CV memilih lambda yang berbeda, lambda itu berada di jalur solusi untuk data pelatihan, dan kami tidak dapat menemukannya ...

NRH

Tabel Reproduksi 18.1 dari “Elemen Pembelajaran Statistik”

Jawaban: