Saya ingin mendapatkan pemahaman konseptual tentang Root Mean Squared Error (RMSE) dan Mean Bias Deviation (MBD). Setelah menghitung langkah-langkah ini untuk perbandingan data saya sendiri, saya sering bingung menemukan bahwa RMSE tinggi (misalnya, 100 kg), sedangkan MBD rendah (misalnya, kurang dari 1%).
Lebih khusus lagi, saya mencari referensi (bukan online) yang mencantumkan dan membahas matematika langkah-langkah ini. Apa cara yang biasanya diterima untuk menghitung dua ukuran ini, dan bagaimana saya harus melaporkannya dalam makalah artikel jurnal?
Akan sangat membantu dalam konteks posting ini untuk memiliki dataset "mainan" yang dapat digunakan untuk menggambarkan perhitungan dari kedua ukuran ini.
Sebagai contoh, anggaplah saya menemukan massa (dalam kg) 200 widget yang diproduksi oleh jalur perakitan. Saya juga memiliki model matematika yang akan mencoba memprediksi massa widget ini. Model tidak harus empiris, dan dapat berbasis fisik. Saya menghitung RMSE dan MBD antara pengukuran aktual dan model, menemukan bahwa RMSE 100 kg dan MBD 1%. Apa artinya ini secara konseptual, dan bagaimana saya menafsirkan hasil ini?
Sekarang anggaplah saya menemukan dari hasil percobaan ini bahwa RMSE adalah 10 kg, dan MBD adalah 80%. Apa artinya ini, dan apa yang bisa saya katakan tentang percobaan ini?
Apa arti dari tindakan-tindakan ini, dan apa yang disiratkan oleh keduanya? Informasi tambahan apa yang diberikan MBD ketika dipertimbangkan dengan RMSE?
sumber
Jawaban:
Saya pikir konsep-konsep ini mudah dijelaskan. Jadi saya lebih suka menggambarkannya di sini. Saya yakin banyak buku statistik dasar membahas ini termasuk buku saya "The Essentials of Biostatistics for Physicians, Nurses and Clinians."
Pikirkan target dengan mata lembu jantan di tengah. Kesalahan kuadrat rata-rata mewakili jarak kuadrat rata-rata dari tembakan panah pada target dan pusat. Sekarang jika panah Anda tersebar merata di tengah maka penembak tidak memiliki bias bertujuan dan kesalahan kuadrat rata-rata sama dengan varians.
Tetapi secara umum panah dapat tersebar di sekitar titik jauh dari target. Rata-rata jarak kuadrat panah dari pusat panah adalah varians. Pusat ini bisa dipandang sebagai titik tujuan penembak. Jarak dari pusat penembak atau titik ini ke pusat target adalah nilai absolut dari bias.
Memikirkan segitiga siku-siku di mana kuadrat dari sisi miring adalah jumlah dari sqaures dari kedua sisi. Jadi jarak kuadrat dari panah ke target adalah kuadrat jarak dari panah ke titik tujuan dan kuadrat jarak antara pusat target dan aimpoint. Rata-rata semua jarak kuadrat ini memberikan kesalahan kuadrat rata-rata sebagai jumlah dari bias kuadrat dan varians.
sumber
RMSE adalah cara mengukur seberapa baik model prediktif kita terhadap data aktual, semakin kecil RMSE, semakin baik cara perilaku model, yaitu jika kita menguji pada set data baru (bukan pada set pelatihan kita) tetapi sekali lagi memiliki RMSE 0,37 pada rentang 0 hingga 1, menyumbang banyak kesalahan dibandingkan memiliki RMSE 0,01 sebagai model yang lebih baik. BIAS adalah untuk perkiraan terlalu tinggi atau terlalu rendah.
sumber
Sejauh yang saya mengerti, RMSE memberikan nilai kesalahan yang lebih akurat antara model dan yang diamati, namun BIAS, selain memberikan nilai kesalahan (kurang akurat dari RMSE), juga dapat menentukan apakah model tersebut Bias positif atau bias negatif, jika model ini meremehkan atau melebih-lebihkan nilai-nilai yang diamati.
sumber