Misalkan kita memiliki dua penduga dan untuk beberapa parameter . Untuk menentukan estimator mana yang "lebih baik" apakah kita melihat MSE (mean squared error)? Dengan kata lain kita melihat
sumber
Misalkan kita memiliki dua penduga dan untuk beberapa parameter . Untuk menentukan estimator mana yang "lebih baik" apakah kita melihat MSE (mean squared error)? Dengan kata lain kita melihat
Jika Anda telah dua estimator bersaing q 1 dan θ 2 , apakah atau tidak M S E ( θ 1 ) < M S E ( θ 2 ) memberitahu Anda bahwa θ 1 adalah estimator yang lebih baik tergantung sepenuhnya pada definisi Anda "terbaik". Misalnya, jika Anda membandingkan berisi estimator dan dengan "lebih baik" yang Anda maksud memiliki varians lebih rendah maka, ya, ini akan berarti bahwa θ 1 lebih baik. M S E
Ada situasi tertentu di mana memilih estimator untuk meminimalkan mungkin tidak menjadi hal yang sangat masuk akal untuk dilakukan. Dua skenario muncul dalam pikiran:
Jika ada outlier yang sangat besar dalam kumpulan data maka mereka dapat mempengaruhi MSE secara drastis dan dengan demikian estimator yang meminimalkan MSE dapat dipengaruhi oleh outlier seperti itu. Dalam situasi seperti itu, fakta bahwa estimator meminimalkan MSE tidak benar-benar memberi tahu Anda banyak karena, jika Anda menghapus outlier (s), Anda bisa mendapatkan perkiraan yang sangat berbeda. Dalam hal itu, MSE tidak "kuat" untuk outlier. Dalam konteks regresi, fakta inilah yang memotivasi Penaksir-M Huber (yang saya bahas dalam jawaban ini), yang meminimalkan fungsi kriteria yang berbeda (yaitu campuran antara kesalahan kuadrat dan kesalahan absolut) ketika ada kesalahan berekor panjang .
Jika Anda memperkirakan parameter dibatasi, membandingkan s mungkin tidak tepat karena menghukum lebih dan understimation berbeda dalam kasus itu. Sebagai contoh, misalkan Anda memperkirakan varians, σ 2 . Kemudian, jika Anda sadar meremehkan kuantitas Anda M S E dapat paling σ 4 , sementara terlalu tinggi dapat menghasilkan M S E yang jauh melebihi σ 4 , bahkan mungkin dengan jumlah yang tak terbatas.
Untuk membuat kelemahan ini lebih jelas, saya akan memberikan contoh konkret ketika, karena masalah ini, tidak mungkin ukuran yang tepat dari kualitas estimator.
Misalkan Anda memiliki sampel dari t distribusi dengan ν > 2 derajat kebebasan dan kami mencoba untuk memperkirakan varians, yang merupakan ν / ( ν - 2 ) . Pertimbangkan dua estimator bersaing: θ 1 : t h e u n b i a s e d s a m p l e v a r i dan θ 2 = 0 , r e g a r d l e s s o f t h e d a t a Jelas M S E ( θ 2 ) = ν 2
sumber
Karena fungsinyaf( x ) = x2 dapat dibedakan, itu membuat menemukan MSE minimum lebih mudah dari sudut pandang teoritis dan numerik. Sebagai contoh, dalam kuadrat terkecil biasa Anda dapat memecahkan kejelasan untuk kemiringan dan penyadapan yang dipasang. Dari sudut pandang numerik, Anda memiliki pemecah yang lebih efisien saat Anda memiliki turunan juga.
Kesalahan kuadrat rata-rata biasanya melebihi bobot outlier menurut saya. Inilah sebabnya mengapa sering lebih kuat untuk menggunakan kesalahan absolut rata-rata, yaitu penggunaanf( x ) = | x | sebagai fungsi kesalahan Anda. Namun, karena tidak dapat dibedakan, itu membuat solusi lebih sulit untuk dikerjakan.
MSE mungkin merupakan pilihan yang baik jika istilah kesalahan didistribusikan secara normal. Jika mereka memiliki ekor yang lebih gemuk, pilihan yang lebih kuat seperti nilai absolut lebih disukai.
sumber
Dalam Case & Berger Statistical Inference edisi ke-2 Halaman 332 menyatakan bahwa MSE memberikan penalti yang sama untuk perkiraan yang terlalu tinggi dan terlalu rendah, yang tidak masalah dalam kasus lokasi. Namun, dalam kasus skala, 0 adalah batas bawah alami, sehingga masalah estimasi tidak simetris. Penggunaan MSE dalam hal ini cenderung memaafkan terlalu rendah.
Anda mungkin ingin memeriksa penaksir mana yang memenuhi properti UMVUE, yang berarti menggunakan Cramer-Rao Batas bawah. Halaman 341.
sumber