Saya pikir Anda mungkin salah paham kesalahan pengujian bersyarat. Ini mungkin karena Hastie, Friedman, dan Tibshirani (HFT) tidak konsisten dalam terminologi mereka, kadang-kadang menyebut gagasan yang sama ini "kesalahan pengujian", "kesalahan generalisasi", "kesalahan prediksi pada set tes independen", "kesalahan kondisional yang sebenarnya" , atau "kesalahan tes aktual".
Terlepas dari nama, itu rata-rata error bahwa model Anda dipasang pada training set tertentu akan dikenakan bila diterapkan contoh yang diambil dari distribusi (X, Y) pasang. Jika Anda kehilangan uang setiap kali model yang dipasang membuat kesalahan (atau sebanding dengan kesalahan jika Anda berbicara tentang regresi), itu adalah jumlah rata-rata uang yang Anda kehilangan setiap kali Anda menggunakan classifier. Boleh dibilang, itu hal yang paling alami untuk diperhatikan untuk model yang telah Anda pasang pada set pelatihan tertentu.τ
Setelah itu meresap, pertanyaan sebenarnya adalah mengapa orang harus peduli dengan kesalahan tes yang diharapkan! (HFT juga menyebutnya "kesalahan prediksi yang diharapkan".) Bagaimanapun, ini adalah rata-rata dari semua jenis pelatihan yang biasanya tidak akan Anda gunakan. (Tampaknya, bagaimanapun, bahwa HFT bermaksud rata-rata lebih dari set pelatihan ukuran tertentu dalam mendefinisikan kesalahan tes yang diharapkan, tetapi mereka tidak pernah mengatakan ini secara eksplisit.)
Alasannya adalah bahwa kesalahan tes yang diharapkan adalah karakteristik yang lebih mendasar dari suatu algoritma pembelajaran, karena itu rata-rata lebih dari keanehan apakah Anda beruntung atau tidak dengan set pelatihan khusus Anda.
Seperti yang Anda sebutkan, HFT menunjukkan perkiraan CV kesalahan tes yang diharapkan lebih baik daripada perkiraan kesalahan tes bersyarat. Ini beruntung jika Anda membandingkan algoritma pembelajaran mesin, tetapi disayangkan jika Anda ingin tahu seberapa baik model tertentu yang Anda cocok dengan set pelatihan tertentu akan bekerja.
Saya berpikir tentang bagian yang sama dan saya juga bertanya-tanya kapan saya akan tertarik pada kesalahan pengujian bersyarat. Terlebih lagi, sejauh yang saya mengerti mereka harus sama asymptotically: untuk pelatihan yang sangat besar dan set tes pelatihan / split test set yang tepat tidak lagi menghasilkan perkiraan kesalahan tes bersyarat yang berbeda. Seperti yang Anda lihat di Hastie et al. buku contoh mereka pada perbedaan yang diharapkan bersyarat selalu didasarkan pada jumlah pengamatan yang relatif kecil, yang jika saya memahami ini dengan benar adalah alasan mengapa kesalahan pengujian bersyarat dan yang diharapkan terlihat berbeda dalam grafik.
Buku ini menyebutkan bahwa rata-rata kesalahan tes yang diharapkan lebih dari keacakan dalam set pelatihan, sedangkan kesalahan tes (bersyarat) tidak. Sekarang kapan saya ingin mengambil ketidakpastian yang terkait dengan bagian pelatihan / set tes tertentu yang saya perhitungkan? Jawaban saya adalah bahwa saya biasanya tidak pernah tertarik untuk mengakomodasi ketidakpastian semacam ini karena ini bukan yang saya minati ketika saya melakukan penilaian model: Dalam menilai kualitas prediksi model, saya ingin tahu bagaimana caranya. akan ongkos masuk katakanlah besok cuaca. Cuaca besok terkait dengan data keseluruhan saya cukup banyak karena data pengujian saya terkait dengan data pelatihan saya - jadi saya menghitung satu kesalahan tes bersyarat untuk menilai model saya. Namun, cuaca besok terkait dengan keseluruhan data saya tidak seperti satu set tes spesifik terkait dengan set pelatihan spesifik yang sesuai, tetapi bagaimana set tes rata-rata terkait dengan set pelatihan rata-rata. Jadi saya mendapatkan partisi training / set-test berikutnya dan mendapatkan kesalahan tes bersyarat lainnya. Saya melakukan ini berkali-kali (seperti misalnya dalam K-fold cross-validation) - variasi kesalahan tes bersyarat individu rata-rata keluar - dan saya pergi dengan kesalahan tes yang diharapkan; yang, sekali lagi, yang bisa kupikirkan ingin mendapatkannya. dalam K-fold cross-validation) - variasi kesalahan pengujian bersyarat individu rata-rata habis - dan saya pergi dengan kesalahan pengujian yang diharapkan; yang, sekali lagi, yang bisa kupikirkan ingin mendapatkannya. dalam K-fold cross-validation) - variasi kesalahan pengujian bersyarat individu rata-rata habis - dan saya pergi dengan kesalahan pengujian yang diharapkan; yang, sekali lagi, yang bisa kupikirkan ingin mendapatkannya.
Dengan kata lain, dalam grafik kesalahan tes / tes yang diharapkan dalam Hastie et al., Kami mendapatkan gagasan tentang efisiensi penduga model: jika kesalahan uji bersyarat tersebar luas di sekitar kesalahan pengujian yang diharapkan, ini merupakan indikasi penduga. menjadi tidak efisien, sementara variasi yang lebih sedikit dalam kesalahan pengujian bersyarat akan menunjukkan penduga yang lebih efisien, mengingat jumlah pengamatan.
Bottomline: Saya mungkin salah di sini, dan saya akan senang untuk dikoreksi mengenai hal ini, tetapi seperti yang saya lihat saat ini konsep kesalahan pengujian bersyarat adalah upaya yang meragukan dalam menilai validitas model eksternal melalui hanya mengizinkan satu pelatihan / tembakan uji-partisi. Untuk sampel besar, bidikan tunggal ini harus sama dengan kesalahan uji konditoinal yang dirata-ratakan pada banyak bidikan latihan / partisi, yaitu kesalahan pengujian yang diharapkan. Untuk sampel kecil di mana perbedaan terjadi, ukuran aktual minat menurut saya adalah yang diharapkan, dan bukan kesalahan pengujian bersyarat.
sumber