Bagaimana menginterpretasikan root mean squared error (RMSE) vs standar deviasi?

21

Katakanlah saya memiliki model yang memberi saya nilai-nilai yang diproyeksikan. Saya menghitung RMSE dari nilai-nilai itu. Dan kemudian standar deviasi dari nilai aktual.

Apakah masuk akal untuk membandingkan kedua nilai (varians)? Apa yang saya pikirkan adalah, jika RMSE dan standar deviasi sama / sama maka kesalahan / varians model saya sama dengan apa yang sebenarnya terjadi. Tetapi jika bahkan tidak masuk akal untuk membandingkan nilai-nilai itu maka kesimpulan ini bisa salah. Jika pemikiran saya benar, maka apakah itu berarti modelnya sebagus mungkin karena tidak dapat mengaitkan apa yang menyebabkan varians? Saya pikir bagian terakhir mungkin salah atau paling tidak membutuhkan lebih banyak informasi untuk menjawab.

jkim19
sumber

Jawaban:

22

Mari kita mengatakan bahwa respon kami dan nilai-nilai kita prediksi adalah y 1 , ... , y n .y1,...,yny^1,...,y^n

Varians sampel (menggunakan daripada n - 1 untuk kesederhanaan) adalah 1nn-1sedangkan MSE adalah11nsaya=1n(ysaya-y¯)2. Dengan demikian varians sampel memberikan seberapa banyak tanggapan bervariasi di sekitar rata-rata sementara MSE memberikan seberapa banyak tanggapan bervariasi di sekitar prediksi kami. Jika kita menganggap rata-rata keseluruhan ˉ y sebagai prediktor paling sederhana yang pernah kita pertimbangkan, maka dengan membandingkan MSE dengan varians sampel dari respon, kita dapat melihat berapa banyak variasi yang telah kami jelaskan dengan model kami. Inilah yang dilakukan nilaiR2dalam regresi linier.1nsaya=1n(ysaya-y^saya)2y¯R2

Perhatikan gambar berikut: The varians sampel dari adalah variabilitas sekitar garis horizontal. Jika kita memproyeksikan semua data ke sumbu Y kita bisa melihat ini. MSE adalah mean jarak kuadrat untuk garis regresi, yaitu variabilitas sekitar garis regresi (yaitu y i ). Jadi variabilitas yang diukur oleh varians sampel adalah jarak kuadrat rata-rata ke garis horizontal, yang dapat kita lihat secara substansial lebih dari jarak kuadrat rata-rata ke garis regresi. ysayaYy^sayamasukkan deskripsi gambar di sini

jld
sumber
5

saya(ysaya-y^saya)2n-hal,

saya(ysaya-y¯)2n-1,
y¯ysaya

y^saya=y¯y¯

y^saya

saya(ysaya-y^saya)2n,

yang paling mudah untuk dihitung.

Xiao-Feng Li
sumber
Saya tidak memiliki hak istimewa untuk mengomentari jawaban @Chaconne, tetapi saya ragu apakah pernyataan terakhirnya memiliki kesalahan ketik, di mana ia mengatakan: "Jadi variabilitas yang diukur dengan varians sampel adalah jarak kuadrat rata-rata ke garis horizontal, yang kita dapat lihat secara substansial kurang dari jarak kuadrat rata - rata ke garis ". Tetapi dalam gambar dalam jawabannya, prediksi nilai y dengan garis cukup akurat, yang berarti MSE kecil, setidaknya jauh lebih baik daripada "prediksi" dengan nilai rata-rata.
Xiao-Feng Li
3

1nsaya=1n(ysaya-y¯)2

1nsaya=1n(ysaya-y^saya)2

Argumen ini berlaku untuk ukuran kesalahan lainnya, tidak hanya untuk RMSE, tetapi RMSE sangat menarik untuk perbandingan langsung ke SD karena rumus matematika mereka analog.

Tripartio
sumber
Ini adalah jawaban terbaik karena menjelaskan bagaimana perbandingan itu mungkin berguna daripada hanya menggambarkan perbedaan.
Hans