Justifikasi empiris untuk aturan satu kesalahan standar saat menggunakan cross-validation

39

Apakah ada studi empiris yang membenarkan penggunaan satu aturan kesalahan standar yang mendukung kekikiran? Jelas itu tergantung pada proses data-data, tetapi apa pun yang menganalisis kumpulan data besar akan menjadi bacaan yang sangat menarik.


"Satu aturan kesalahan standar" diterapkan ketika memilih model melalui cross-validation (atau lebih umum melalui prosedur berbasis pengacakan).

Asumsikan kita menganggap model diindeks oleh parameter kompleksitas , sehingga "lebih kompleks" daripada tepat ketika . Asumsikan lebih lanjut bahwa kami menilai kualitas model dengan beberapa proses pengacakan, misalnya, validasi silang. Misalkan menunjukkan kualitas "rata-rata" dari , misalnya, kesalahan prediksi out-of-bag di banyak proses lintas-validasi. Kami ingin meminimalkan jumlah ini.MττRMτMττ>τMq(M)M

Namun, karena ukuran kualitas kami berasal dari beberapa prosedur pengacakan, ia datang dengan variabilitas. Misalkan menunjukkan kesalahan standar kualitas di seluruh pengacakan berjalan, misalnya, standar deviasi kesalahan prediksi out-of-bag atas berjalan lintas-validasi.s(M)MM

Kemudian kita memilih model , mana adalah yang terkecil sehinggaMτττ

q(Mτ)q(Mτ)+s(Mτ),

di mana mengindeks model terbaik (rata-rata), .τq(Mτ)=minτq(Mτ)

Yaitu, kami memilih model yang paling sederhana (yang terkecil τ ) yang tidak lebih dari satu kesalahan standar yang lebih buruk daripada model terbaik M.τ dalam prosedur pengacakan.

Saya telah menemukan "satu aturan kesalahan standar" yang disebutkan di tempat-tempat berikut, tetapi tidak pernah dengan justifikasi eksplisit:

DavidShor
sumber
7
Meskipun saya tahu apa yang Anda maksud dengan "Aturan Standar Satu Kesalahan", saya sangat curiga bahwa banyak orang tidak akan, tetapi akan tertarik dengan pertanyaan ini jika mereka melakukannya. Mungkin Anda bisa mengedit untuk menambahkan beberapa kalimat penjelasan? (Hanya saran ...)
jbowman
2
@jbowman: Saya baru saja mengedit pertanyaan untuk menjelaskan satu aturan kesalahan standar, menabraknya karena saya juga cukup tertarik dengan ini ... dan jawaban di bawah ini tidak benar-benar menjawab pertanyaan saya. Siapa pun, silakan bebas untuk meningkatkan.
S. Kolassa - Reinstate Monica
Terkait: stats.stackexchange.com/questions/138569
amoeba mengatakan Reinstate Monica
2
Itu akan menjadi topik yang bagus untuk sebuah makalah. Sepertinya heuristik teknik yang masuk akal, tetapi tidak semua SEH bekerja dalam praktiknya, jadi studi tentang sejumlah besar dataset akan menarik. Saya bertanya-tanya apakah ada beberapa masalah pengujian hipotesis yang terlibat yang mungkin berarti itu tidak dikalibrasi dengan sangat baik, tetapi saya akan berpikir itu akan lebih baik daripada tidak melakukan apa-apa pada dataset di mana jenis over-tuning ini cenderung menjadi masalah. Pertanyaannya adalah apakah itu membuat kinerja jauh lebih buruk pada dataset di mana itu bukan masalah?
Dikran Marsupial

Jawaban:

12

Berikut ini bukan studi empiris , itulah sebabnya saya awalnya ingin mempostingnya sebagai komentar, bukan jawaban - tetapi ternyata terlalu panjang untuk dikomentari.

Cawley & Talbot ( J dari Machine Learning Research , 2010) menarik perhatian pada perbedaan antara overfitting selama fase pemilihan model dan overfitting selama fase pemasangan model.

Jenis overfitting yang kedua adalah yang kebanyakan orang kenal: dengan diberikan model tertentu, kami tidak ingin mengenakannya secara berlebihan, yaitu, untuk memasangnya terlalu dekat dengan kekhasan khusus dari kumpulan data tunggal yang biasanya kami miliki. ( Di sinilah penyusutan / regularisasi dapat membantu, dengan memperdagangkan sedikit peningkatan bias terhadap penurunan variasi yang besar. )

Namun, Cawley & Talbot berpendapat bahwa kita dapat mengenakan pakaian dengan baik selama tahap pemilihan model. Bagaimanapun, kami masih hanya memiliki satu set data tunggal, dan kami memutuskan antara model yang berbeda dari kompleksitas yang berbeda-beda. Mengevaluasi setiap model kandidat untuk memilih satu biasanya melibatkan pemasangan model itu, yang dapat dilakukan dengan menggunakan regularisasi atau tidak. Tetapi evaluasi ini dengan sendirinya lagi adalah variabel acak, karena itu tergantung pada set data spesifik yang kita miliki. Jadi pilihan kita dari model "optimal" dapat dengan sendirinya menunjukkan bias, dan akan menunjukkan varians, karena tergantung pada set data spesifik dari semua set data yang bisa diambil dari populasi.

Oleh karena itu Cawley & Talbot berpendapat bahwa hanya memilih model yang berkinerja terbaik dalam evaluasi ini mungkin merupakan aturan seleksi dengan bias kecil - tetapi mungkin menunjukkan varian yang besar. Yaitu, mengingat dataset pelatihan yang berbeda dari proses penghasil data yang sama (DGP), aturan ini dapat memilih model yang sangat berbeda, yang kemudian akan dipasang dan digunakan untuk memprediksi dalam dataset baru yang kembali mengikuti DGP yang sama. Dalam hal ini, membatasi varians dari prosedur pemilihan model tetapi menimbulkan bias kecil terhadap model yang lebih sederhana dapat menghasilkan kesalahan sampel yang lebih kecil.

Cawley & Talbot tidak menghubungkan ini secara eksplisit dengan satu aturan kesalahan standar, dan bagian mereka tentang "pemilihan model pengaturan" sangat singkat. Namun, satu aturan kesalahan standar akan melakukan persis regularisasi ini, dan mengambil hubungan antara varians dalam pemilihan model dan varians kesalahan validasi silang out-of-bag ke dalam akun.

Sebagai contoh, di bawah ini adalah Gambar 2.3 dari Pembelajaran Statistik dengan Sparsity oleh Hastie, Tibshirani & Wainwright (2015) . Varians pemilihan model diberikan oleh cembungnya garis hitam minimal. Di sini, minimum tidak terlalu jelas, dan garis agak cembung, jadi pemilihan model mungkin agak tidak pasti dengan varian tinggi. Dan varians dari estimasi kesalahan OOB CV tentu saja diberikan oleh beberapa garis biru terang yang mengindikasikan kesalahan standar.

satu aturan kesalahan standar

S. Kolassa - Reinstate Monica
sumber
1
Haha, coba pencarian ini (atau beri tanda hubung di kueri Anda).
Amoeba berkata Reinstate Monica
2
Jika Anda hanya memiliki satu parameter regularisasi, maka over-fitting semacam itu cenderung tidak terlalu bermasalah (karena masalah optimisasi hanya memiliki satu derajat kebebasan), tetapi jika Anda memiliki banyak parameter regularisasi (mis. Penentuan relevansi otomatis untuk jaring saraf) maka dengan cepat bisa menjadi sangat besar. Metode one sd adalah heuristik yang bagus untuk menghindari over-optimalisasi parameter regularisasi, tetapi akan lebih baik untuk mencoba dan memiliki sesuatu dengan sedikit lebih banyak pembenaran (1/2)
Dikran Marsupial
1
Dua pendekatan yang kami (Ny. Marsupial dan saya) telah selidiki adalah untuk mengatur parameter-hiper dengan parameter hiper-hiper yang terintegrasi secara analitis ( jmlr.csail.mit.edu/papers/volume8/cawley07a/cawley07a.pdf ) atau untuk mengonversi beberapa parameter-hiper menjadi parameter dan memasangnya langsung ke data juga, dengan mengorbankan penambahan parameter regularisasi tambahan (tetapi itu masih mengurangi derajat kebebasan untuk pemilihan model, sehingga masih membantu) ( theoval.cmp.uea.ac.uk/publications/pdf/nn2014a.pdf ) (2/2)
Dikran Marsupial
1
λ
1
Satu utas tentang mengoptimalkan-lambda-vs-marginalisasi-over-lambda yang disebutkan oleh @DikranMarsupial adalah stats.stackexchange.com/questions/24799 . Diskusi itu tentang regresi ridge, dan marginalisasi mungkin (?) Lebih rumit untuk laso / jaring elastis / etc, sedangkan keindahan CV adalah bahwa hal itu sangat mudah untuk diterapkan.
Amoeba berkata Reinstate Monica
12

Untuk pembenaran empiris, lihat halaman 12 pada catatan kursus penambangan data Tibshirani ini , yang menunjukkan kesalahan CV sebagai fungsi lambda untuk masalah pemodelan tertentu. Sarannya adalah bahwa, di bawah nilai tertentu, semua lambda memberi tentang kesalahan CV yang sama. Ini masuk akal karena, tidak seperti regresi ridge, LASSO biasanya tidak hanya digunakan, atau bahkan terutama, untuk meningkatkan akurasi prediksi. Nilai jual utamanya adalah membuat model menjadi lebih sederhana dan lebih dapat ditafsirkan dengan menghilangkan prediktor yang paling tidak relevan / berharga.

λL1

Paul
sumber
1
Saya tidak mendapatkan logika dari jawaban ini. Misalnya: "tidak seperti regresi ridge, LASSO bukan mekanisme untuk meningkatkan akurasi prediksi" - mengapa? Mengapa L1 sangat berbeda dari L2? Dalam kalimat berikutnya Anda menggambarkan apa yang terjadi dengan L1 untuk lambda rendah, tapi saya pikir hal yang sama terjadi dengan L2 untuk lambda rendah.
Amoeba berkata Reinstate Monica
1
Perhatikan bahwa ini adalah penjelasan heuristik dan bergantung pada beberapa asumsi yang tidak dinyatakan, seperti semua prediktor informatif. Jika Anda memiliki satu ton prediktor kebisingan dan beberapa yang informatif, mungkin memang ada nilai lambda yang secara jelas dan nyata mengoptimalkan metrik CV: yang sesuai dengan memilih subset prediktor informatif. Saat lambda berkurang di bawah nilai itu Anda hanya membiarkan kebisingan masuk dan melukai model.
Paul
1
Saya pikir argumen ini berfungsi sama baiknya untuk ridge dan laso, jika Anda menggunakan definisi luas kekikiran di mana lebih banyak regularisasi -> model yang lebih sederhana. Namun, lebih mudah untuk memotivasi untuk L1 daripada untuk L2 karena berbagai jenis masalah dan set data yang digunakan. Orang yang menggunakan L1 lebih tertarik untuk memiliki model yang sederhana, dan mereka lebih cenderung menemukan jenis kurva kesalahan CV yang diperlihatkan oleh Tibshirani.
Paul
1
Dari teks ESL klasik , hal. 224: "Seringkali aturan" kesalahan satu standar "digunakan dengan validasi silang, di mana kami memilih model yang paling pelit yang kesalahannya tidak lebih dari satu kesalahan standar di atas kesalahan model terbaik." Contoh yang diberikan adalah regresi subset dan kurva berbentuk lutut vs jumlah prediktor ditampilkan. Kurva rata di atas # prediksi yang benar, yang sekali lagi konsisten dengan penjelasan yang saya berikan di atas. Tidak ada pembenaran yang ketat atau matematis yang disebutkan.
Paul
1
Jadi saya pikir masalah utama di sini adalah bahwa minimum ditentukan dengan buruk, tetapi model yang paling teratur dalam satu sigma minimum didefinisikan dengan baik.
Paul
1

λλS^(λ)λ

λP(S0S^(λ))1S0

Ini harus dilaporkan dalam Statistik untuk data dimensi tinggi oleh Bühlmann dan van de Geer.

λ

Donbeo
sumber
1
Bisakah Anda sedikit lebih detail di sini? Ini sepertinya menarik.
DavidShor
1
λ
Saya pikir faktanya adalah bahwa memilih lebih banyak variabel daripada yang diperlukan akan mengurangi kinerja prediksi kurang dari memilih variabel yang tidak cukup. Untuk alasan ini CV cenderung memilih lebih banyak variabel.
Donbeo
Ini adalah buku yang saya maksud
Donbeo