Bagaimana cara menghitung sampel R yang dikuadratkan?

Saya tahu ini mungkin telah dibahas di tempat lain, tetapi saya belum dapat menemukan jawaban yang jelas. Saya mencoba menggunakan rumus untuk menghitung out-of-sample dari model regresi linier, di mana adalah jumlah residu kuadrat dan adalah jumlah total kuadrat. Untuk set pelatihan, jelas itu $R^2 = 1 - SSR/SST$ $R^2$ $SSR$ $SST$

S S T = Σ (y - {\bar{y}}_{t r a i n})^{2}

$SST = \Sigma (y - \bar{y}_{train})^2$

Bagaimana dengan set pengujian? Haruskah saya tetap menggunakan untuk sampel , atau menggunakan ? $\bar{y}_{train}$ $y$ $\bar{y}_{test}$

Saya menemukan bahwa jika saya menggunakan , hasil kadang-kadang bisa negatif. Ini konsisten dengan deskripsi fungsi sklearn , di mana mereka menggunakan (yang juga digunakan oleh fungsi linear_model untuk menguji sampel). Mereka menyatakan bahwa "model konstan yang selalu memprediksi nilai y yang diharapkan, mengabaikan fitur input, akan mendapatkan skor R ^ 2 0,0." $\bar{y}_{test}$ $R^2$ r2_score() $\bar{y}_{test}$ score()

Namun, di tempat lain orang telah menggunakan seperti di sini dan di sini (jawaban kedua oleh dmi3kno). Jadi saya bertanya-tanya mana yang lebih masuk akal? Setiap komentar akan sangat dihargai! $\bar{y}_{train}$

regression machine-learning r-squared out-of-sample gila
sumber

Jawaban:

Anda benar.

Residu OSR didasarkan pada data pengujian, tetapi baseline harus tetap berupa data pelatihan. Dengan itu, SST Anda adalah ; perhatikan bahwa hal yang sama untuk $^2$ $SST=Σ(y−\bar y_{train})^2$ $R^2$

pengguna152317
sumber

Meskipun saya telah memperbaiki beberapa kesalahan yang jelas dan nyata dari suntingan sebelumnya, beberapa notasi dan beberapa makna yang dimaksudkan masih belum jelas.

Nick Cox

Terima kasih atas jawabannya! Apakah Anda punya referensi tentang ini? Sepertinya software stat umumnya menggunakan definisi alternatif, dengan y_test?

Matifou