Saya telah mengambil sampel titik data dari suatu populasi. Masing-masing poin ini memiliki nilai sebenarnya (diketahui dari kebenaran dasar) dan nilai estimasi. Saya kemudian menghitung kesalahan untuk setiap titik sampel dan kemudian menghitung RMSE sampel.
Bagaimana saya bisa menyimpulkan semacam interval kepercayaan di sekitar RMSE ini, berdasarkan pada ukuran sampel ?
Jika saya menggunakan mean, daripada RMSE, maka saya tidak akan memiliki masalah melakukan ini karena saya dapat menggunakan persamaan standar
tapi saya tidak tahu apakah ini valid untuk RMSE daripada rata-rata. Apakah ada cara agar saya bisa beradaptasi?
(Saya telah melihat pertanyaan ini , tetapi saya tidak memiliki masalah dengan apakah populasi saya berdistribusi normal, yang merupakan jawaban yang ada di sana)
sumber
Jawaban:
Dengan alasan yang sama seperti di sini , saya mungkin dapat memberikan jawaban untuk pertanyaan Anda dalam kondisi tertentu.
Biarkan menjadi nilai Anda yang sebenarnya untuk titik data dan nilai estimasi. Jika kita mengasumsikan bahwa perbedaan antara nilai estimasi dan nilai sebenarnya memiliki i t h x ixi ith x^i
berarti nol (yaitu didistribusikan di sekitar )xix^i xi
ikuti distribusi normal
dan semua memiliki standar deviasi yang samaσ
pendeknya:
maka Anda benar-benar menginginkan interval kepercayaan untuk .σ
Jika asumsi di atas tetap benar mengikuti dengan (bukan ) derajat kebebasan. Ini berarti χ 2 n nn n-1
Oleh karena itu, adalah interval kepercayaan Anda.
Berikut adalah program python yang mensimulasikan situasi Anda
Semoga itu bisa membantu.
Jika Anda tidak yakin apakah asumsi tersebut berlaku atau jika Anda ingin membandingkan apa yang saya tulis dengan metode yang berbeda, Anda selalu dapat mencoba bootstrap .
sumber
Alasan dalam jawaban oleh fabee tampaknya benar jika diterapkan pada STDE (standar deviasi kesalahan), bukan RMSE. Menggunakan nomenklatur yang serupa, adalah indeks yang mewakili setiap catatan data, adalah nilai sebenarnya dan adalah pengukuran atau prediksi.i = 1 ,... ,n xsaya x^saya
Kesalahan , BIAS, MSE (mean squared error) dan RMSE diberikan oleh:ϵsaya
Menyetujui definisi ini, BIAS sesuai dengan rata-rata sampel , tetapi MSE bukan varians sampel yang bias. Sebagai gantinya: atau, jika BIAS dan RMSE dihitung, Perhatikan bahwa varians sampel bias digunakan alih-alih tidak bias , untuk menjaga konsistensi dengan definisi sebelumnya yang diberikan untuk MSE dan RMSE.ϵ
Jadi, menurut pendapat saya interval kepercayaan yang dibuat oleh fabee merujuk pada standar deviasi sampel , STDE. Demikian pula, interval kepercayaan dapat ditetapkan untuk BIAS berdasarkan skor-z (atau skor-t jika ) dan.ϵ n < 30 STDE/n--√
sumber
Mengikuti Faaber 1999 , ketidakpastian RMSE diberikan sebagai mana adalah jumlah titik data.
sumber