Saya tahu ini mungkin telah dibahas di tempat lain, tetapi saya belum dapat menemukan jawaban yang jelas. Saya mencoba menggunakan rumus untuk menghitung out-of-sample dari model regresi linier, di mana adalah jumlah residu kuadrat dan adalah jumlah total kuadrat. Untuk set pelatihan, jelas ituR 2 S S R S S T
Bagaimana dengan set pengujian? Haruskah saya tetap menggunakan untuk sampel , atau menggunakan ?y ˉ y test
Saya menemukan bahwa jika saya menggunakan , hasil kadang-kadang bisa negatif. Ini konsisten dengan deskripsi fungsi sklearn , di mana mereka menggunakan (yang juga digunakan oleh fungsi linear_model untuk menguji sampel). Mereka menyatakan bahwa "model konstan yang selalu memprediksi nilai y yang diharapkan, mengabaikan fitur input, akan mendapatkan skor R ^ 2 0,0."R2 ˉ y testr2_score()
score()
Namun, di tempat lain orang telah menggunakan seperti di sini dan di sini (jawaban kedua oleh dmi3kno). Jadi saya bertanya-tanya mana yang lebih masuk akal? Setiap komentar akan sangat dihargai!