Pemahaman konseptual tentang root mean squared error dan mean bias penyimpangan

13

Saya ingin mendapatkan pemahaman konseptual tentang Root Mean Squared Error (RMSE) dan Mean Bias Deviation (MBD). Setelah menghitung langkah-langkah ini untuk perbandingan data saya sendiri, saya sering bingung menemukan bahwa RMSE tinggi (misalnya, 100 kg), sedangkan MBD rendah (misalnya, kurang dari 1%).

Lebih khusus lagi, saya mencari referensi (bukan online) yang mencantumkan dan membahas matematika langkah-langkah ini. Apa cara yang biasanya diterima untuk menghitung dua ukuran ini, dan bagaimana saya harus melaporkannya dalam makalah artikel jurnal?

Akan sangat membantu dalam konteks posting ini untuk memiliki dataset "mainan" yang dapat digunakan untuk menggambarkan perhitungan dari kedua ukuran ini.

Sebagai contoh, anggaplah saya menemukan massa (dalam kg) 200 widget yang diproduksi oleh jalur perakitan. Saya juga memiliki model matematika yang akan mencoba memprediksi massa widget ini. Model tidak harus empiris, dan dapat berbasis fisik. Saya menghitung RMSE dan MBD antara pengukuran aktual dan model, menemukan bahwa RMSE 100 kg dan MBD 1%. Apa artinya ini secara konseptual, dan bagaimana saya menafsirkan hasil ini?

Sekarang anggaplah saya menemukan dari hasil percobaan ini bahwa RMSE adalah 10 kg, dan MBD adalah 80%. Apa artinya ini, dan apa yang bisa saya katakan tentang percobaan ini?

Apa arti dari tindakan-tindakan ini, dan apa yang disiratkan oleh keduanya? Informasi tambahan apa yang diberikan MBD ketika dipertimbangkan dengan RMSE?

Nicholas Kinar
sumber
2
Apakah Anda sudah melihat-lihat situs kami, Nicholas? Pertimbangkan mulai di stats.stackexchange.com/a/17545 dan kemudian jelajahi beberapa tag yang telah saya tambahkan ke pertanyaan Anda.
whuber
@whuber: Terima kasih whuber !. Saya telah melihat-lihat situs, tetapi bagi saya saya masih merasa agak sulit untuk memahami apa yang sebenarnya dimaksud dalam konteks penelitian saya sendiri.
Nicholas Kinar

Jawaban:

21

Saya pikir konsep-konsep ini mudah dijelaskan. Jadi saya lebih suka menggambarkannya di sini. Saya yakin banyak buku statistik dasar membahas ini termasuk buku saya "The Essentials of Biostatistics for Physicians, Nurses and Clinians."

Pikirkan target dengan mata lembu jantan di tengah. Kesalahan kuadrat rata-rata mewakili jarak kuadrat rata-rata dari tembakan panah pada target dan pusat. Sekarang jika panah Anda tersebar merata di tengah maka penembak tidak memiliki bias bertujuan dan kesalahan kuadrat rata-rata sama dengan varians.

Tetapi secara umum panah dapat tersebar di sekitar titik jauh dari target. Rata-rata jarak kuadrat panah dari pusat panah adalah varians. Pusat ini bisa dipandang sebagai titik tujuan penembak. Jarak dari pusat penembak atau titik ini ke pusat target adalah nilai absolut dari bias.

Memikirkan segitiga siku-siku di mana kuadrat dari sisi miring adalah jumlah dari sqaures dari kedua sisi. Jadi jarak kuadrat dari panah ke target adalah kuadrat jarak dari panah ke titik tujuan dan kuadrat jarak antara pusat target dan aimpoint. Rata-rata semua jarak kuadrat ini memberikan kesalahan kuadrat rata-rata sebagai jumlah dari bias kuadrat dan varians.

Michael R. Chernick
sumber
Terima kasih; ini sangat dihargai. Saya masih merasa agak sulit untuk memahami apa perbedaan antara RMSE dan MBD. Seperti yang saya pahami, RMSE mengkuantifikasi seberapa dekat model dengan data eksperimental, tetapi apa peran MBD? Mungkin kesalahpahaman saya hanya terkait dengan terminologi.
Nicholas Kinar
1
Penyimpangan bias rata-rata seperti yang Anda sebut itu adalah istilah bias yang saya jelaskan. Ini mengukur seberapa jauh aimpoint jauh dari target. Bias berkontribusi membuat tembakan tidak akurat.
Michael R. Chernick
Sekali lagi terima kasih, Michael. Jadi RMSE tinggi dan MBD rendah menyiratkan bahwa itu adalah model yang baik?
Nicholas Kinar
Tidak ada RMSE yang tinggi dan MBD yang rendah hanya mengatakan bahwa modelnya buruk karena varians yang besar daripada bias yang besar. RMSE adalah angka yang menentukan seberapa baik model tersebut.
Michael R. Chernick
1
@ bbadyalina: mereka adalah informasi yang independen, dengan cara yang sama seperti atas / bawah dan kiri / kanan independen. Pertanyaan Anda seperti bertanya "jika suatu titik berpusat vertikal, dan jauh ke kiri, apakah itu di tengah?" , atau "Jika suatu titik naik tinggi, tetapi secara horizontal di tengah, apakah itu di tengah?"
nucky101
1

RMSE adalah cara mengukur seberapa baik model prediktif kita terhadap data aktual, semakin kecil RMSE, semakin baik cara perilaku model, yaitu jika kita menguji pada set data baru (bukan pada set pelatihan kita) tetapi sekali lagi memiliki RMSE 0,37 pada rentang 0 hingga 1, menyumbang banyak kesalahan dibandingkan memiliki RMSE 0,01 sebagai model yang lebih baik. BIAS adalah untuk perkiraan terlalu tinggi atau terlalu rendah.

Albert Anthony Dominguez Gavin
sumber
Bisakah Anda memberikan detail lebih lanjut dan contoh yang berhasil? OP sedang mencari penjelasan intuitif tentang arti RMSE, katakanlah, 100, terhadap masalah estimasi-nya.
Xi'an
Ini sepertinya tidak memberikan banyak intuisi. Bisakah Anda menjelaskan lebih lanjut?
Glen_b -Reinstate Monica
0

Sejauh yang saya mengerti, RMSE memberikan nilai kesalahan yang lebih akurat antara model dan yang diamati, namun BIAS, selain memberikan nilai kesalahan (kurang akurat dari RMSE), juga dapat menentukan apakah model tersebut Bias positif atau bias negatif, jika model ini meremehkan atau melebih-lebihkan nilai-nilai yang diamati.

e_serrano
sumber
Tidak. Anda dapat menganggap RMSE sebagai "presisi" dari suatu model - mis. Berapa banyak penyebaran yang ada dalam kesalahan prediksi itu (catatan: presisi adalah kebalikan dari varians - varians tinggi = presisi rendah). Dan Anda dapat menganggap Bias sebagai kesalahan sistematis dalam model - misalnya nilai rata-rata semua kesalahan. Pekerjaan "akurasi" adalah kombinasi yang tidak jelas dari keduanya, dan karenanya menyebabkan banyak kebingungan.
naught101