Pemilihan model asli (?) Dengan k-fold CV

9

Ketika menggunakan k-fold CV untuk memilih di antara model regresi, saya biasanya menghitung kesalahan CV secara terpisah untuk masing-masing model, bersama dengan kesalahan standar SE, dan saya memilih model paling sederhana dalam 1 SE dari model dengan kesalahan CV terendah (1 aturan kesalahan standar, lihat misalnya di sini ). Namun, saya baru-baru ini diberitahu bahwa dengan cara ini saya melebih-lebihkan variabilitas, dan bahwa dalam kasus tertentu memilih antara dua model A dan B, saya harus benar-benar melanjutkan dengan cara yang berbeda:

  • untuk setiap kali lipat panjang N K , menghitung perbedaan pointwise antara dua model predictions.Then menghitung mean perbedaan persegi untuk lipat M S D K = KNK
    M.SDK=saya=1NK(y^SEBUAHsaya-y^Bsaya)2NK
  • rata-rata di lipatan seperti biasa, dan gunakan kesalahan perbedaan CV ini (bersama-sama dengan kesalahan standar) sebagai penduga untuk kesalahan generalisasi.M.SDK

Pertanyaan:

  1. Apakah ini masuk akal bagi Anda? Saya tahu ada alasan teoritis di balik penggunaan kesalahan CV sebagai penaksir kesalahan generalisasi (saya tidak tahu yang merupakan alasan ini, tapi saya tahu mereka ada!). Saya tidak tahu apakah ada alasan teoritis di balik penggunaan kesalahan CV "perbedaan" ini.
  2. Saya tidak tahu apakah ini dapat digeneralisasi dengan perbandingan lebih dari dua model. Menghitung perbedaan untuk semua pasangan model tampaknya berisiko (beberapa perbandingan?): Apa yang akan Anda lakukan jika Anda memiliki lebih dari dua model?

EDIT: rumus saya benar-benar salah, metrik yang benar dijelaskan di sini dan itu jauh lebih rumit. Yah, saya senang saya bertanya di sini sebelum menerapkan formula! Saya berterima kasih kepada @Bay karena telah membantu saya memahami dengan jawabannya yang mencerahkan. Ukuran yang benar dijelaskan cukup eksperimental, jadi saya akan tetap berpegang pada kuda-kerja tepercaya saya, kesalahan CV!

DeltaIV
sumber

Jawaban:

2

M.SDK

Sebagai contoh, saya bisa menghasilkan sepasang prediksi yang bodoh:

y^SEBUAH(x,θ)=1+x,1θ

y^B(x,θ): =1+x,1θ2

θM.SDK

M.SDKM.SDK


Menanggapi komentar OP

Formula yang disajikan dalam komentar Anda memerlukan sedikit konteks:

  1. Ini adalah ukuran akurasi Bayesian, di mana elpd adalah log yang diharapkan kepadatan prediktif searah - cukup seteguk, tetapi pada dasarnya, itu adalah jumlah nilai yang diharapkan dari logaritma densitas prediksi posterior dievaluasi pada setiap titik data di bawah beberapa prediksi sebelumnya kepadatan yang diperkirakan menggunakan validasi silang.
  2. Ukuran di atas (elpd) dihitung menggunakan validasi silang keluar satu, di mana kepadatan prediktif diambil pada titik yang dihilangkan.
  3. Apa rumus mereka (19) lakukan adalah menghitung kesalahan standar dari perbedaan dalam akurasi prediksi (diukur menggunakan elpd) antara dua model. Idenya adalah bahwa perbedaan dalam elpd adalah asimptotik secara normal, sehingga kesalahan standar memiliki rata-rata inferensial (dan dapat digunakan untuk menguji apakah perbedaan yang mendasarinya adalah nol), atau apakah Model A memiliki kesalahan prediksi yang lebih kecil daripada Model B.

Jadi, ada banyak bagian yang bergerak untuk ukuran ini: Anda harus menjalankan algoritma pengambilan sampel MCMC untuk mendapatkan poin dari kerapatan parameter posterior. Anda kemudian perlu mengintegrasikannya untuk mendapatkan kepadatan prediksi. Maka Anda perlu mengambil nilai yang diharapkan dari masing-masing (lebih banyak undian). Ini cukup proses, tetapi pada akhirnya itu seharusnya memberikan kesalahan standar yang bermanfaat.

Catatan: Dalam paragraf penuh ketiga di bawah persamaan (19), penulis menyatakan bahwa diperlukan lebih banyak penelitian untuk menentukan apakah pendekatan ini berkinerja baik untuk perbandingan model ... jadi, belum diuji dengan baik (sangat eksperimental). Dengan demikian, Anda pada dasarnya percaya pada kegunaan dari metode ini sampai studi tindak lanjut memverifikasi itu dapat diandalkan mengidentifikasi model yang lebih baik (dalam hal elpd ).


sumber
se(elhald^L.HAIHAISEBUAH-elhald^L.HAIHAIB)
@DeltaIV Ok ... Saya akan memeriksa bagian yang direferensikan dan mencoba membongkar formula itu untuk Anda.
1
@DeltaIV ok, saya sudah punya perubahan untuk meninjau. Saya telah memperluas posting saya. Ini tampaknya menjadi metode yang sangat eksperimental (dan tidak diverifikasi) untuk membandingkan dua model prediksi. Saya akan berhati-hati menggunakannya kecuali Anda dapat memverifikasi kinerjanya dengan studi Monte Carlo Anda sendiri (yaitu, bisakah ia memilih model yang lebih prediktif ketika Anda tahu jawaban yang tepat?).