Apakah ada studi empiris yang membenarkan penggunaan satu aturan kesalahan standar yang mendukung kekikiran? Jelas itu tergantung pada proses data-data, tetapi apa pun yang menganalisis kumpulan data besar akan menjadi bacaan yang sangat menarik.
"Satu aturan kesalahan standar" diterapkan ketika memilih model melalui cross-validation (atau lebih umum melalui prosedur berbasis pengacakan).
Asumsikan kita menganggap model diindeks oleh parameter kompleksitas , sehingga "lebih kompleks" daripada tepat ketika . Asumsikan lebih lanjut bahwa kami menilai kualitas model dengan beberapa proses pengacakan, misalnya, validasi silang. Misalkan menunjukkan kualitas "rata-rata" dari , misalnya, kesalahan prediksi out-of-bag di banyak proses lintas-validasi. Kami ingin meminimalkan jumlah ini.
Namun, karena ukuran kualitas kami berasal dari beberapa prosedur pengacakan, ia datang dengan variabilitas. Misalkan menunjukkan kesalahan standar kualitas di seluruh pengacakan berjalan, misalnya, standar deviasi kesalahan prediksi out-of-bag atas berjalan lintas-validasi.
Kemudian kita memilih model , mana adalah yang terkecil sehingga
di mana mengindeks model terbaik (rata-rata), .
Yaitu, kami memilih model yang paling sederhana (yang terkecil ) yang tidak lebih dari satu kesalahan standar yang lebih buruk daripada model terbaik dalam prosedur pengacakan.
Saya telah menemukan "satu aturan kesalahan standar" yang disebutkan di tempat-tempat berikut, tetapi tidak pernah dengan justifikasi eksplisit:
- Halaman 80 dalam Klasifikasi dan Pohon Regresi oleh Breiman, Friedman, Stone & Olshen (1984)
- Halaman 415 dalam Memperkirakan Jumlah Kelompok dalam Set Data melalui Statistik Gap oleh Tibshirani, Walther & Hastie ( JRSS B , 2001) (merujuk Breiman et al.)
- Halaman 61 dan 244 dalam Elemen Pembelajaran Statistik oleh Hastie, Tibshirani & Friedman (2009)
- Halaman 13 dalam Pembelajaran Statistik dengan Sparsity oleh Hastie, Tibshirani & Wainwright (2015)
sumber
Jawaban:
Berikut ini bukan studi empiris , itulah sebabnya saya awalnya ingin mempostingnya sebagai komentar, bukan jawaban - tetapi ternyata terlalu panjang untuk dikomentari.
Cawley & Talbot ( J dari Machine Learning Research , 2010) menarik perhatian pada perbedaan antara overfitting selama fase pemilihan model dan overfitting selama fase pemasangan model.
Jenis overfitting yang kedua adalah yang kebanyakan orang kenal: dengan diberikan model tertentu, kami tidak ingin mengenakannya secara berlebihan, yaitu, untuk memasangnya terlalu dekat dengan kekhasan khusus dari kumpulan data tunggal yang biasanya kami miliki. ( Di sinilah penyusutan / regularisasi dapat membantu, dengan memperdagangkan sedikit peningkatan bias terhadap penurunan variasi yang besar. )
Namun, Cawley & Talbot berpendapat bahwa kita dapat mengenakan pakaian dengan baik selama tahap pemilihan model. Bagaimanapun, kami masih hanya memiliki satu set data tunggal, dan kami memutuskan antara model yang berbeda dari kompleksitas yang berbeda-beda. Mengevaluasi setiap model kandidat untuk memilih satu biasanya melibatkan pemasangan model itu, yang dapat dilakukan dengan menggunakan regularisasi atau tidak. Tetapi evaluasi ini dengan sendirinya lagi adalah variabel acak, karena itu tergantung pada set data spesifik yang kita miliki. Jadi pilihan kita dari model "optimal" dapat dengan sendirinya menunjukkan bias, dan akan menunjukkan varians, karena tergantung pada set data spesifik dari semua set data yang bisa diambil dari populasi.
Oleh karena itu Cawley & Talbot berpendapat bahwa hanya memilih model yang berkinerja terbaik dalam evaluasi ini mungkin merupakan aturan seleksi dengan bias kecil - tetapi mungkin menunjukkan varian yang besar. Yaitu, mengingat dataset pelatihan yang berbeda dari proses penghasil data yang sama (DGP), aturan ini dapat memilih model yang sangat berbeda, yang kemudian akan dipasang dan digunakan untuk memprediksi dalam dataset baru yang kembali mengikuti DGP yang sama. Dalam hal ini, membatasi varians dari prosedur pemilihan model tetapi menimbulkan bias kecil terhadap model yang lebih sederhana dapat menghasilkan kesalahan sampel yang lebih kecil.
Cawley & Talbot tidak menghubungkan ini secara eksplisit dengan satu aturan kesalahan standar, dan bagian mereka tentang "pemilihan model pengaturan" sangat singkat. Namun, satu aturan kesalahan standar akan melakukan persis regularisasi ini, dan mengambil hubungan antara varians dalam pemilihan model dan varians kesalahan validasi silang out-of-bag ke dalam akun.
Sebagai contoh, di bawah ini adalah Gambar 2.3 dari Pembelajaran Statistik dengan Sparsity oleh Hastie, Tibshirani & Wainwright (2015) . Varians pemilihan model diberikan oleh cembungnya garis hitam minimal. Di sini, minimum tidak terlalu jelas, dan garis agak cembung, jadi pemilihan model mungkin agak tidak pasti dengan varian tinggi. Dan varians dari estimasi kesalahan OOB CV tentu saja diberikan oleh beberapa garis biru terang yang mengindikasikan kesalahan standar.
sumber
Untuk pembenaran empiris, lihat halaman 12 pada catatan kursus penambangan data Tibshirani ini , yang menunjukkan kesalahan CV sebagai fungsi lambda untuk masalah pemodelan tertentu. Sarannya adalah bahwa, di bawah nilai tertentu, semua lambda memberi tentang kesalahan CV yang sama. Ini masuk akal karena, tidak seperti regresi ridge, LASSO biasanya tidak hanya digunakan, atau bahkan terutama, untuk meningkatkan akurasi prediksi. Nilai jual utamanya adalah membuat model menjadi lebih sederhana dan lebih dapat ditafsirkan dengan menghilangkan prediktor yang paling tidak relevan / berharga.
sumber
Ini harus dilaporkan dalam Statistik untuk data dimensi tinggi oleh Bühlmann dan van de Geer.
sumber