Saya sedang melakukan validasi silang menggunakan metode leave-one-out. Saya memiliki respons biner dan saya menggunakan paket boot untuk R, dan fungsi cv.glm . Masalah saya adalah saya tidak sepenuhnya memahami bagian "biaya" dalam fungsi ini. Dari apa yang saya mengerti ini adalah fungsi yang memutuskan apakah nilai estimasi harus diklasifikasikan sebagai 1 atau 0, yaitu nilai ambang untuk klasifikasi. Apakah ini benar?
Dan, dalam bantuan dalam R mereka menggunakan fungsi ini untuk model binomial: cost <- function(r, pi = 0) mean(abs(r-pi) > 0.5)
. Bagaimana cara menafsirkan fungsi ini? jadi saya bisa memodifikasinya dengan benar untuk analisis saya.
Bantuan apa pun dihargai, tidak ingin menggunakan fungsi yang tidak saya mengerti.
sumber
Pertama, Anda telah menetapkan batas sebagai 0,5. R Anda adalah 0/1, tetapi pi adalah probabilitas. Jadi biaya individu adalah 1 jika kesalahan absolut lebih besar dari 0,5, jika tidak, maka fungsi ini menghitung tingkat kesalahan rata-rata. Tetapi ingat, cut-off telah ditetapkan sebelum Anda menentukan fungsi biaya Anda.
Sebenarnya, saya pikir lebih masuk akal jika pilihan cut-off ditentukan oleh fungsi biaya.
sumber
Jawaban oleh @SLi sudah menjelaskan dengan sangat baik fungsi fungsi biaya yang telah Anda tentukan. Namun, saya pikir saya akan menambahkan bahwa fungsi biaya digunakan untuk menghitung
delta
nilai daricv.glm
, yang merupakan pengukuran kesalahan validasi silang. Namun, secara kritisdelta
adalah rata-rata tertimbang dari kesalahan setiap lipatan yang diberikan oleh biaya. Kami melihat ini dengan memeriksa bit kode yang relevan:dan nilai yang dikembalikan oleh fungsi adalah:
sumber