Saya menggunakan paket R yang dihukum untuk mendapatkan estimasi koefisien yang menyusut untuk dataset di mana saya memiliki banyak prediktor dan sedikit pengetahuan tentang yang mana yang penting. Setelah saya memilih parameter tuning L1 dan L2 dan saya puas dengan koefisien saya, apakah ada cara yang baik secara statistik untuk merangkum model yang sesuai dengan sesuatu seperti R-squared?
Selanjutnya, saya tertarik untuk menguji signifikansi keseluruhan model (yaitu apakah R² = 0, atau melakukan semua = 0).
Saya sudah membaca jawaban pada pertanyaan serupa yang diajukan di sini , tetapi tidak cukup menjawab pertanyaan saya. Ada tutorial yang sangat baik tentang paket R yang saya gunakan di sini , dan penulis Jelle Goeman memiliki catatan berikut di akhir tutorial mengenai interval kepercayaan dari model regresi yang dihukum:
Merupakan pertanyaan yang sangat wajar untuk meminta kesalahan standar koefisien regresi atau jumlah perkiraan lainnya. Pada prinsipnya kesalahan standar seperti itu dapat dengan mudah dihitung, misalnya menggunakan bootstrap.
Meski begitu, paket ini sengaja tidak menyediakannya. Alasan untuk ini adalah bahwa kesalahan standar tidak terlalu berarti untuk estimasi yang sangat bias seperti yang timbul dari metode estimasi yang dihukum. Estimasi hukuman adalah prosedur yang mengurangi varians estimator dengan memperkenalkan bias substansial. Bias dari masing-masing estimator karena itu merupakan komponen utama dari kesalahan kuadrat rata-rata, sedangkan variansnya hanya berkontribusi sedikit.
Sayangnya, dalam sebagian besar aplikasi regresi yang dihukum tidak mungkin untuk mendapatkan estimasi bias yang cukup tepat. Setiap perhitungan berbasis bootstrap hanya dapat memberikan penilaian terhadap varian estimasi. Perkiraan bias yang dapat dipercaya hanya tersedia jika estimasi bias yang dapat diandalkan tersedia, yang biasanya tidak terjadi dalam situasi di mana estimasi hukuman digunakan.
Oleh karena itu, melaporkan kesalahan standar dari perkiraan hukuman hanya menceritakan sebagian dari cerita. Ini dapat memberikan kesan yang keliru tentang ketepatan tinggi, benar-benar mengabaikan ketidakakuratan yang disebabkan oleh bias. Tentu saja merupakan kesalahan untuk membuat pernyataan kepercayaan yang hanya didasarkan pada penilaian varian estimasi, seperti yang dilakukan interval kepercayaan berbasis bootstrap.
sumber
Jawaban:
Reaksi pertama saya terhadap komentar Jelle yang diberikan adalah "bias-schmias". Anda harus berhati-hati tentang apa yang Anda maksud dengan "sejumlah besar prediktor". Ini bisa "besar" sehubungan dengan:
Reaksi saya didasarkan pada "besar" sehubungan dengan poin 1. Ini karena dalam kasus ini biasanya bernilai trade-off dalam bias untuk pengurangan varian yang Anda dapatkan. Bias hanya penting "dalam jangka panjang". Jadi, jika Anda memiliki sampel kecil, lalu siapa yang peduli tentang "jangka panjang"?
Idealnya "kesalahan prediksi" ini harus didasarkan pada konteks situasi pemodelan Anda. Anda pada dasarnya ingin menjawab pertanyaan "Seberapa baik model saya mereproduksi data?". Konteks situasi Anda harus bisa memberi tahu Anda apa artinya "sebaik apa" di dunia nyata. Anda kemudian perlu menerjemahkan ini ke dalam semacam persamaan matematika.
sumber
Paket R hdm dan paket Stata lassopack mendukung tes signifikansi gabungan untuk laso. Teori ini memungkinkan jumlah prediktor menjadi besar relatif terhadap jumlah pengamatan. Teori di balik tes dan cara menerapkannya dijelaskan secara singkat dalam dokumentasi hdm . Singkatnya, ini didasarkan pada kerangka kerja untuk hukuman yang digerakkan oleh teori (dikembangkan oleh Belloni, Chernozhukov dan Hansen, et al.). Makalah ini adalah titik awal yang baik jika Anda ingin tahu lebih banyak tentang teori yang mendasarinya. Satu-satunya downside adalah bahwa tes hanya berfungsi untuk laso dan (laso kuadrat-akar). Tidak untuk metode regresi lainnya yang dihukum.
Belloni, A., Chen, D., Chernozhukov, V. dan Hansen, C. (2012), Model Jarang dan Metode untuk Instrumen Optimal Dengan Aplikasi pada Domain Unggulan. Econometrica, 80: 2369-2429.
sumber