Memperkirakan signifikansi R-squared dan statistik dari model regresi yang dihukum

20

Saya menggunakan paket R yang dihukum untuk mendapatkan estimasi koefisien yang menyusut untuk dataset di mana saya memiliki banyak prediktor dan sedikit pengetahuan tentang yang mana yang penting. Setelah saya memilih parameter tuning L1 dan L2 dan saya puas dengan koefisien saya, apakah ada cara yang baik secara statistik untuk merangkum model yang sesuai dengan sesuatu seperti R-squared?

Selanjutnya, saya tertarik untuk menguji signifikansi keseluruhan model (yaitu apakah R² = 0, atau melakukan semua = 0).

Saya sudah membaca jawaban pada pertanyaan serupa yang diajukan di sini , tetapi tidak cukup menjawab pertanyaan saya. Ada tutorial yang sangat baik tentang paket R yang saya gunakan di sini , dan penulis Jelle Goeman memiliki catatan berikut di akhir tutorial mengenai interval kepercayaan dari model regresi yang dihukum:

Merupakan pertanyaan yang sangat wajar untuk meminta kesalahan standar koefisien regresi atau jumlah perkiraan lainnya. Pada prinsipnya kesalahan standar seperti itu dapat dengan mudah dihitung, misalnya menggunakan bootstrap.

Meski begitu, paket ini sengaja tidak menyediakannya. Alasan untuk ini adalah bahwa kesalahan standar tidak terlalu berarti untuk estimasi yang sangat bias seperti yang timbul dari metode estimasi yang dihukum. Estimasi hukuman adalah prosedur yang mengurangi varians estimator dengan memperkenalkan bias substansial. Bias dari masing-masing estimator karena itu merupakan komponen utama dari kesalahan kuadrat rata-rata, sedangkan variansnya hanya berkontribusi sedikit.

Sayangnya, dalam sebagian besar aplikasi regresi yang dihukum tidak mungkin untuk mendapatkan estimasi bias yang cukup tepat. Setiap perhitungan berbasis bootstrap hanya dapat memberikan penilaian terhadap varian estimasi. Perkiraan bias yang dapat dipercaya hanya tersedia jika estimasi bias yang dapat diandalkan tersedia, yang biasanya tidak terjadi dalam situasi di mana estimasi hukuman digunakan.

Oleh karena itu, melaporkan kesalahan standar dari perkiraan hukuman hanya menceritakan sebagian dari cerita. Ini dapat memberikan kesan yang keliru tentang ketepatan tinggi, benar-benar mengabaikan ketidakakuratan yang disebabkan oleh bias. Tentu saja merupakan kesalahan untuk membuat pernyataan kepercayaan yang hanya didasarkan pada penilaian varian estimasi, seperti yang dilakukan interval kepercayaan berbasis bootstrap.

Stephen Turner
sumber
1
Tentu saja salah satu cara saya dapat dengan cepat mendapatkan estimasi R-squared adalah dengan memasang model linier yang memprediksi nilai-nilai pas dari data asli dan mengambil R-squared dari itu. Tapi ini sepertinya itu akan menjadi estimasi besar-besaran dan bias dari R-squared.
Stephen Turner
Saya menambahkan ini sebagai komentar karena saya mengajukan pertanyaan "serupa" di pos terdekat (jadi saya tidak tahu apakah saya memenuhi syarat untuk memberikan jawaban ), tetapi untuk pertanyaan Anda secara khusus sepertinya Anda dapat menghitung R-kuadrat tanpa memerlukan apapun asumsi distribusi (mereka diperlukan untuk tes hipotesis dengan cara biasa). Tidak bisakah Anda menggunakan set penahan untuk menghitung r-kuadrat atau menggunakan validasi k-lipat jika Anda tidak memiliki cukup data (di setiap lipatan menjalankan proses hukuman penuh Anda dan rata-rata r-kuadrat dari masing-masing lipatan tidak digunakan dalam pemasangan)?
B_Miner
1
@B_Miner, ganda lintas validasi cenderung memberikan perkiraan cukup bias dari R 2 , karena umumnya tidak memperkirakan jumlah sebenarnya dari bunga. Banyak (kebanyakan?) Prosedur serupa memiliki masalah yang sama. kR2
kardinal
1
@Stephen, apakah benar - benar jumlah yang Anda minati? Karena bias yang disebabkan oleh hukuman, hanya melihat varian yang dijelaskan mungkin tidak diinginkan kecuali Anda sudah memiliki perkiraan bias yang sangat baik. Seluruh ide menggunakan R 2 sebagai dasar untuk kesimpulan ini didasarkan pada unbiasedness dari perkiraan. Bahkan buku teks besar tentang regresi tampaknya "melupakan" ini. (Lihat, misalnya, perlakuan Seber dan Lee yang agak salah terhadap R 2 dalam kasus regresi berganda.)R2 R2R2
kardinal
1
R2

Jawaban:

4

Reaksi pertama saya terhadap komentar Jelle yang diberikan adalah "bias-schmias". Anda harus berhati-hati tentang apa yang Anda maksud dengan "sejumlah besar prediktor". Ini bisa "besar" sehubungan dengan:

  1. Jumlah titik data ("p besar kecil n")
  2. Jumlah waktu yang Anda miliki untuk menyelidiki variabel
  3. Biaya komputasi untuk membalik matriks raksasa

Reaksi saya didasarkan pada "besar" sehubungan dengan poin 1. Ini karena dalam kasus ini biasanya bernilai trade-off dalam bias untuk pengurangan varian yang Anda dapatkan. Bias hanya penting "dalam jangka panjang". Jadi, jika Anda memiliki sampel kecil, lalu siapa yang peduli tentang "jangka panjang"?

R2R2

Idealnya "kesalahan prediksi" ini harus didasarkan pada konteks situasi pemodelan Anda. Anda pada dasarnya ingin menjawab pertanyaan "Seberapa baik model saya mereproduksi data?". Konteks situasi Anda harus bisa memberi tahu Anda apa artinya "sebaik apa" di dunia nyata. Anda kemudian perlu menerjemahkan ini ke dalam semacam persamaan matematika.

PRESS=saya=1N(Ysaya-Y^saya,-saya)2
Y^saya,-sayaYsayaYsayaNTM.G=TM.Ng=N×M.T
PRESS=g=1Gsaya=1Ng(Ysayag-Y^sayag,-g)2
βL.SEBUAHSSHAIβUNCHAINSTRSEBUAHsayaNED
probabilityislogic
sumber
3
khal>n>1
1

Paket R hdm dan paket Stata lassopack mendukung tes signifikansi gabungan untuk laso. Teori ini memungkinkan jumlah prediktor menjadi besar relatif terhadap jumlah pengamatan. Teori di balik tes dan cara menerapkannya dijelaskan secara singkat dalam dokumentasi hdm . Singkatnya, ini didasarkan pada kerangka kerja untuk hukuman yang digerakkan oleh teori (dikembangkan oleh Belloni, Chernozhukov dan Hansen, et al.). Makalah ini adalah titik awal yang baik jika Anda ingin tahu lebih banyak tentang teori yang mendasarinya. Satu-satunya downside adalah bahwa tes hanya berfungsi untuk laso dan (laso kuadrat-akar). Tidak untuk metode regresi lainnya yang dihukum.

Belloni, A., Chen, D., Chernozhukov, V. dan Hansen, C. (2012), Model Jarang dan Metode untuk Instrumen Optimal Dengan Aplikasi pada Domain Unggulan. Econometrica, 80: 2369-2429.

aahr1
sumber
silakan tambahkan referensi lengkap dari makalah ini (sebuah tautan bisa mati)
Antoine