Apa perbedaan antara "koefisien determinasi" dan "mean squared error"?

32

Untuk masalah regresi, saya telah melihat orang menggunakan "koefisien determinasi" (alias R kuadrat) untuk melakukan pemilihan model, misalnya, menemukan koefisien penalti yang tepat untuk regularisasi.

Namun, itu juga umum untuk menggunakan "mean squared error" atau "root mean squared error" sebagai ukuran akurasi regresi.

Jadi apa perbedaan utama antara keduanya? Bisakah mereka digunakan secara bergantian untuk tugas "regularisasi" dan "regresi"? Dan apa penggunaan utama masing-masing dalam praktik, seperti dalam pembelajaran mesin, tugas-tugas penambangan data?

dolaameng
sumber

Jawaban:

40

R2=1SSESST , di manaSSEadalah jumlah kesalahan kuadrat (residu atau penyimpangan dari garis regresi) danSSTadalah jumlah dari penyimpangan kuadrat darirata-ratadependenY.

MSE=SSEnm , di mananadalah ukuran sampel danmadalah jumlah parameter dalam model (termasuk intersep, jika ada).

R2 adalah ukuran standar tingkat prediksi, atau kecocokan, dalam sampel. adalah estimasi varian residu, atau tidak cocok, dalam populasi. Kedua ukuran tersebut jelas terkait, seperti yang terlihat dalam rumus paling umum untuk disesuaikan (perkiraan untuk populasi):MSE R2R2

Radj2=1(1R2)n1nm=1SSE/(nm)SST/(n1)=1MSEσy2 .

ttnphns
sumber
2
Saya pikir MSE adalah rata-rata dari kesalahan, yang berarti MSE = SSE / n, pada kesempatan apa kita menggunakan MSE = SSE / (nm)? Tolong jelaskan. Terima kasih
Sincole Brans
@SincoleBrans Silakan lihat en.wikipedia.org/wiki/Mean_squared_error , bagian "Regresi".
ttnphns
Saya sedikit bingung. Hasil dalam martin-thoma.com/regress menunjukkan bahwa suatu model bisa baik (dibandingkan dengan beberapa model lain) dengan R ^ 2, tetapi pada saat yang sama buruk dengan MSE. Bisakah Anda menjelaskannya?
Martin Thoma