Interval prediksi berdasarkan validasi silang (CV)

Dalam buku teks dan ceramah youtube saya belajar banyak tentang model berulang seperti meningkatkan, tapi saya tidak pernah melihat apa pun tentang mendapatkan interval prediksi.

Validasi silang digunakan untuk yang berikut:

Pemilihan model : Coba model yang berbeda dan pilih yang paling cocok. Dalam hal meningkatkan, gunakan CV untuk memilih parameter tuning.
Penilaian model : Perkirakan kinerja model yang dipilih

Beberapa parameter penting dari penilaian model, salah satunya adalah kesalahan prediksi yang diharapkan. Validasi silang memberikan perkiraan yang baik dari kesalahan prediksi, juga dijelaskan dalam buku "The Elements of Statistics Learning".

Tetapi bagaimana kita menggunakan kesalahan prediksi yang diharapkan untuk membangun interval prediksi?

Dan jika Anda memprediksi harga sebuah rumah misalnya, interval prediksi akan lebih tinggi untuk rumah 500.000 € dibandingkan dengan rumah 200.000 €. Bagaimana kami memperkirakan interval prediksi ini menggunakan validasi silang?

cross-validation boosting prediction-interval Kasper
sumber

Ini adalah langkah ke arah yang baik: blog.datadive.net/prediction-intervals-for-random-forests

Kasper

Saya pikir apa yang Anda cari adalah prediksi yang sesuai. Lihat kertas oleh Shafer dan Vovk jmlr.csail.mit.edu/papers/volume9/shafer08a/shafer08a.pdf .

Alexey Zaytsev

Bisakah Anda jelaskan mengapa Anda yakin interval prediksi akan "lebih tinggi" untuk rumah 500k dibandingkan dengan rumah 200k? Apakah itu fungsi dari jumlah sampel? Bisakah Anda menganggap sampel diambil dari total distribusi?

justanotherbrain

Setelah membaca lagi pertanyaan ini, saya dapat memberi Anda batasan berikut:

Asumsikan sampel diambil iid, distribusi adalah tetap, dan kerugian tersebut dibatasi oleh , kemudian dengan probabilitas setidaknya , $B$ $1 - \delta$

E [E (h)] \leq \hat{E} (h) + B \sqrt{\frac{catatan \frac{1}{δ}}{2 m}}

$\mathbb{E}[\mathcal{E}(h)] \leq \hat{\mathcal{E}}(h) + B\sqrt{\frac{\log \frac{1}{\delta}}{2m}}$

di mana adalah ukuran sampel, dan adalah kepercayaannya. Ikatan itu berlaku sepele oleh ketidaksetaraan McDiarmid. $m$ $1-\delta$

$m$ $\mathbb{E}[\mathcal{E}(h)]$ $\hat{\mathcal{E}}(h)$

Tolong jangan hanya melaporkan kesalahan validasi silang atau kesalahan pengujian, itu tidak ada artinya secara umum karena mereka hanya perkiraan titik.

Posting lama untuk dicatat:

Saya tidak yakin bahwa saya benar-benar memahami pertanyaan Anda, tetapi saya akan menusuknya.

Pertama, saya tidak yakin bagaimana Anda akan menentukan interval prediksi untuk pemilihan model, karena, seperti yang saya mengerti, interval prediksi membuat beberapa asumsi distribusi. Sebagai gantinya, Anda dapat memperoleh ketidaksetaraan konsentrasi, yang pada dasarnya mengikat variabel acak dengan variansnya untuk beberapa probabilitas. Ketidaksetaraan konsentrasi digunakan melalui pembelajaran mesin, termasuk teori lanjutan untuk meningkatkan. Dalam hal ini Anda ingin mengikat kesalahan generalisasi (kesalahan Anda secara umum, poin yang belum Anda lihat) oleh kesalahan empiris Anda (kesalahan Anda pada set tes) ditambah beberapa istilah kompleksitas dan istilah yang berkaitan dengan varians.

Sekarang saya perlu menghilangkan kesalahpahaman tentang validasi silang yang sangat umum. Validasi silang hanya akan memberi Anda perkiraan yang tidak bias tentang kesalahan yang diharapkan dari suatu model UNTUK UKURAN SAMPEL YANG TETAP. Buktinya hanya untuk protokol leave one out. Ini sebenarnya cukup lemah, karena tidak memberi Anda informasi tentang varians. Di sisi lain, validasi silang akan mengembalikan model yang dekat dengan solusi minimalisasi risiko struktural, yang merupakan solusi terbaik secara teoritis. Anda dapat menemukan buktinya dalam lampiran di sini: http://www.cns.nyu.edu/~rabadi/resources/scat-150519.pdf

Jadi bagaimana cara mendapatkan batasan generalisasi? (Ingat batas generalisasi pada dasarnya adalah interval prediksi tentang kesalahan generalisasi untuk model tertentu). Nah, batasan ini spesifik untuk algoritma. Sayangnya hanya ada satu buku teks yang menempatkan batas untuk semua algoritma yang umum digunakan dalam pembelajaran mesin (termasuk meningkatkan). Buku ini adalah Foundations of Machine Learning (2012) oleh Mohri, Rostamizadeh, dan Talwalkar. Untuk slide kuliah yang membahas materi, Anda dapat menemukannya di halaman web Mohri: http://www.cs.nyu.edu/~mohri/ml14/

Sementara Elemen Pembelajaran Statistik adalah buku yang penting dan agak membantu, itu tidak terlalu ketat dan menghilangkan banyak detail teknis yang sangat penting mengenai algoritma dan sepenuhnya menghilangkan segala bentuk batasan generalisasi. Yayasan Machine Learning adalah buku paling komprehensif untuk pembelajaran mesin (yang masuk akal melihat seperti yang ditulis oleh beberapa yang terbaik di lapangan). Namun, buku teksnya sudah canggih, jadi berhati-hatilah dengan detail teknis.

Batas generalisasi untuk meningkatkan dapat ditemukan (dengan bukti) di sini: http://www.cs.nyu.edu/~mohri/mls/lecture_6.pdf

Saya harap itu adalah petunjuk yang cukup untuk menjawab pertanyaan Anda. Saya ragu memberikan jawaban yang lengkap karena akan membutuhkan sekitar 50 halaman untuk membahas semua rincian yang diperlukan, apalagi diskusi pendahuluan ...

Semoga berhasil!

otak kanan
sumber

Jadi jika saya mengerti dengan baik, ini memberikan batas atas untuk kesalahan generalisasi untuk setiap kuantil, atas seluruh distribusi (berdasarkan beberapa asumsi). Namun saya tidak mengerti kalimat Anda "Tolong jangan laporkan kesalahan validasi silang atau kesalahan tes". Apakah maksud Anda kedua ukuran ini tidak berguna atau hanya berguna untuk mencari interval prediksi?

LouisBBBB

@LouisBBBB Kesalahan CV dan kesalahan pengujian adalah seperti melaporkan mean sampel. Biasanya praktik yang buruk untuk melaporkan rata-rata sampel tanpa semacam interval kepercayaan karena setiap kali saya menjalankan percobaan saya akan mendapatkan hasil yang berbeda. Saya mengatakan tidak berarti, tapi mungkin "tidak berguna" lebih baik ... Orang bisa berpendapat bahwa ada beberapa makna dalam estimasi titik (yaitu, definisi). Tetapi estimasi titik, secara umum, "tidak berguna" dalam arti bahwa mereka tidak mencirikan distribusi kesalahan dalam "cara yang bermanfaat." "Berguna" dalam konteks pengambilan keputusan.

justanotherbrain

Saya pikir saya mengerti apa yang Anda katakan. Jadi, Anda lebih suka menganalisis distribusi kesalahan daripada rata-rata. Dan jika saya kembali ke pertanyaan, Kasper menginginkan perkiraan interval prediksi "per poin". Jawaban Anda adalah batas atas global untuk panjang interval prediksi (atau sesuatu yang dekat), benarkah itu? Jadi, apakah Anda tahu cara untuk mendapatkan batas atas lokal?

LouisBBBB

Ah - terima kasih sudah menjelaskan. Saya pikir saya salah mengerti pertanyaan @ Kasper dan memiliki banyak pertanyaan lanjutan. Terima kasih telah menunjukkan ini, saya akan melakukan penggalian.

justanotherbrain

Interval prediksi berdasarkan validasi silang (CV)

Jawaban: