Mean Squared Error dan Sisa Jumlah Squares

31

Melihat definisi Wikipedia tentang:

Sepertinya saya itu

MSE=1NRSS=1N(fsaya-ysaya)2

di mana N adalah jumlah sampel dan fsaya adalah estimasi kami untuk ysaya .

Namun, tidak ada artikel Wikipedia yang menyebutkan hubungan ini. Mengapa? Apakah saya melewatkan sesuatu?

Josh
sumber
6
Saya tahu ini tampaknya tidak membantu dan agak bermusuhan, tetapi mereka tidak menyebutkannya karena jelas. Juga, Anda ingin sedikit berhati-hati, di sini. Biasanya, ketika Anda menemukan MSE dalam pekerjaan empiris yang sebenarnya tidak dibagi dengan N tetapi R S S dibagi dengan N - K mana K adalah jumlah (termasuk mencegat) variabel-kanan-sisi dalam beberapa model regresi . RSSNRSSN-KK
Bill
10
@ Bill: Ya, itulah jenis hubungan yang biasanya mengarah ke artikel yang ditautkan di Wikipedia. Poin Anda mengenai tingkat kebebasan juga menunjukkan bahwa hal itu tidak begitu jelas dan pasti patut disebut.
bluenote10
2
@ Bill: Setuju, namun kejelasannya sangat subyektif. Statistik / pembelajaran mesin area abu-abu dikotori dengan notasi neraka dan karena itu bagus untuk menjadi eksplisit.
rnoodle

Jawaban:

30

Sebenarnya itu disebutkan di bagian Regresi kesalahan kuadrat Mean di Wikipedia:

Dalam analisis regresi, istilah rata-rata kesalahan kuadrat kadang-kadang digunakan untuk merujuk pada estimasi varians kesalahan yang tidak bias: jumlah residu kuadrat dibagi dengan jumlah derajat kebebasan.

Anda juga dapat menemukan beberapa informasi di sini: Kesalahan dan residu dalam statistik Dikatakan bahwa ekspresi kuadrat kesalahan mungkin memiliki arti yang berbeda dalam kasus yang berbeda, yang kadang-kadang rumit.

kapan
sumber
4

Namun perlu diperhatikan bahwa Sum of Squared Erros (SSE) dan Residue Sum of Squares (RSS) terkadang digunakan secara dapat dipertukarkan, sehingga membingungkan pembaca. Misalnya, periksa Url ini: https://365datascience.com/sum-squares/ untuk informasi lebih lanjut tentang regresi linier.

Sebenarnya dari sudut pandang statistik, Kesalahan dan Residu adalah konsep yang sama sekali berbeda. Kesalahan terutama merujuk pada perbedaan antara nilai sampel aktual yang diamati dan nilai prediksi Anda, dan sebagian besar digunakan dalam metrik statistik seperti Root Means Squared Errors (RMSE) dan Mean Absollute Errors (MAE). Sebaliknya, residu merujuk secara eksklusif pada perbedaan antara variabel dependen dan estimasi dari regresi linier.

Dr.CYY
sumber
0

Saya rasa ini tidak benar di sini jika kita menganggap MSE sebagai sqaure dari RMSE. Misalnya, Anda memiliki serangkaian data sampel pada prediksi dan pengamatan, sekarang Anda mencoba melakukan regresi linier: Pengamatan (O) = a + b X Prediksi (P). Dalam hal ini, MSE adalah jumlah perbedaan kuadrat antara O dan P dan dibagi dengan ukuran sampel N.

Tetapi jika Anda ingin mengukur kinerja regresi linier, Anda perlu menghitung Mean Squared Residue (MSR). Dalam kasus yang sama, pertama-tama akan menghitung Residual Sum of Squares (RSS) yang sesuai dengan jumlah perbedaan kuadrat antara nilai observasi aktual dan observasi yang diprediksi berasal dari regresi linier. Kemudian, diikuti oleh RSS dibagi dengan N-2 hingga dapatkan MSR.

Sederhananya, dalam contoh, MSE tidak dapat diperkirakan menggunakan RSS / N karena komponen RSS tidak lagi sama dengan komponen yang digunakan untuk menghitung MSE.

Dr.CYY
sumber
1
Saya tidak mengerti jawaban ini.
Michael R. Chernick
Lihatlah, berdasarkan contoh yang disebutkan dari prediksi sampel dan nilai data yang diamati, regresi linier ditetapkan: Pengamatan (O) = a + b X Prediksi (P) (a, b masing-masing mencegat dan kemiringan). Dalam hal ini, MSE = Σ (OP) ^ 2 / n, di mana Σ (OP) ^ 2 adalah Jumlah dari Squared Erros (SSE) dan n adalah ukuran sampel. Namun, Mean Squared Residues (MSR) = Σ (OO´) ^ 2 / n-2, di mana Σ (OO´) ^ 2 sama dengan Residu Jumlah Kuadrat (RSS) dan O` = a + b X P. MSR dan RSS terutama digunakan untuk menguji signifikansi keseluruhan dari regresi linier. Perhatikan juga, SSE = Systematic Erros (SE) + RSS, di mana SE = Σ (PO´) ^ 2
Dr.CYY