Dalam buku teks dan ceramah youtube saya belajar banyak tentang model berulang seperti meningkatkan, tapi saya tidak pernah melihat apa pun tentang mendapatkan interval prediksi.
Validasi silang digunakan untuk yang berikut:
- Pemilihan model : Coba model yang berbeda dan pilih yang paling cocok. Dalam hal meningkatkan, gunakan CV untuk memilih parameter tuning.
- Penilaian model : Perkirakan kinerja model yang dipilih
Beberapa parameter penting dari penilaian model, salah satunya adalah kesalahan prediksi yang diharapkan. Validasi silang memberikan perkiraan yang baik dari kesalahan prediksi, juga dijelaskan dalam buku "The Elements of Statistics Learning".
Tetapi bagaimana kita menggunakan kesalahan prediksi yang diharapkan untuk membangun interval prediksi?
Dan jika Anda memprediksi harga sebuah rumah misalnya, interval prediksi akan lebih tinggi untuk rumah 500.000 € dibandingkan dengan rumah 200.000 €. Bagaimana kami memperkirakan interval prediksi ini menggunakan validasi silang?
Jawaban:
Setelah membaca lagi pertanyaan ini, saya dapat memberi Anda batasan berikut:
Asumsikan sampel diambil iid, distribusi adalah tetap, dan kerugian tersebut dibatasi oleh , kemudian dengan probabilitas setidaknya 1 - δ , E [ E ( h ) ] ≤ E ( h ) + B √B 1 - δ
di mana adalah ukuran sampel, dan 1 - δ adalah kepercayaannya. Ikatan itu berlaku sepele oleh ketidaksetaraan McDiarmid.m 1 - δ
Tolong jangan hanya melaporkan kesalahan validasi silang atau kesalahan pengujian, itu tidak ada artinya secara umum karena mereka hanya perkiraan titik.
Posting lama untuk dicatat:
Saya tidak yakin bahwa saya benar-benar memahami pertanyaan Anda, tetapi saya akan menusuknya.
Pertama, saya tidak yakin bagaimana Anda akan menentukan interval prediksi untuk pemilihan model, karena, seperti yang saya mengerti, interval prediksi membuat beberapa asumsi distribusi. Sebagai gantinya, Anda dapat memperoleh ketidaksetaraan konsentrasi, yang pada dasarnya mengikat variabel acak dengan variansnya untuk beberapa probabilitas. Ketidaksetaraan konsentrasi digunakan melalui pembelajaran mesin, termasuk teori lanjutan untuk meningkatkan. Dalam hal ini Anda ingin mengikat kesalahan generalisasi (kesalahan Anda secara umum, poin yang belum Anda lihat) oleh kesalahan empiris Anda (kesalahan Anda pada set tes) ditambah beberapa istilah kompleksitas dan istilah yang berkaitan dengan varians.
Sekarang saya perlu menghilangkan kesalahpahaman tentang validasi silang yang sangat umum. Validasi silang hanya akan memberi Anda perkiraan yang tidak bias tentang kesalahan yang diharapkan dari suatu model UNTUK UKURAN SAMPEL YANG TETAP. Buktinya hanya untuk protokol leave one out. Ini sebenarnya cukup lemah, karena tidak memberi Anda informasi tentang varians. Di sisi lain, validasi silang akan mengembalikan model yang dekat dengan solusi minimalisasi risiko struktural, yang merupakan solusi terbaik secara teoritis. Anda dapat menemukan buktinya dalam lampiran di sini: http://www.cns.nyu.edu/~rabadi/resources/scat-150519.pdf
Jadi bagaimana cara mendapatkan batasan generalisasi? (Ingat batas generalisasi pada dasarnya adalah interval prediksi tentang kesalahan generalisasi untuk model tertentu). Nah, batasan ini spesifik untuk algoritma. Sayangnya hanya ada satu buku teks yang menempatkan batas untuk semua algoritma yang umum digunakan dalam pembelajaran mesin (termasuk meningkatkan). Buku ini adalah Foundations of Machine Learning (2012) oleh Mohri, Rostamizadeh, dan Talwalkar. Untuk slide kuliah yang membahas materi, Anda dapat menemukannya di halaman web Mohri: http://www.cs.nyu.edu/~mohri/ml14/
Sementara Elemen Pembelajaran Statistik adalah buku yang penting dan agak membantu, itu tidak terlalu ketat dan menghilangkan banyak detail teknis yang sangat penting mengenai algoritma dan sepenuhnya menghilangkan segala bentuk batasan generalisasi. Yayasan Machine Learning adalah buku paling komprehensif untuk pembelajaran mesin (yang masuk akal melihat seperti yang ditulis oleh beberapa yang terbaik di lapangan). Namun, buku teksnya sudah canggih, jadi berhati-hatilah dengan detail teknis.
Batas generalisasi untuk meningkatkan dapat ditemukan (dengan bukti) di sini: http://www.cs.nyu.edu/~mohri/mls/lecture_6.pdf
Saya harap itu adalah petunjuk yang cukup untuk menjawab pertanyaan Anda. Saya ragu memberikan jawaban yang lengkap karena akan membutuhkan sekitar 50 halaman untuk membahas semua rincian yang diperlukan, apalagi diskusi pendahuluan ...
Semoga berhasil!
sumber