Mean squared error versus Least squared error, yang mana untuk membandingkan dataset?

8

Saya memiliki 3 dataset dari sistem yang sama. Tetapi untuk yang pertama, saya memiliki 21 pengukuran. Untuk yang kedua dan ketiga saya hanya memiliki 9 pengukuran. Sekarang saya membuat model menggunakan 3 dataset ini (jadi 3 model, 1 per dataset). Ketika saya ingin membandingkan kesalahan antara dua dataset ini. Apakah ada keuntungan yang jelas dengan menggunakan MSE sebagai pengganti LSE (least squared error). Di internet saya tidak menemukan jawaban yang jelas untuk ini. Apa keuntungan utama?

Thomas
sumber

Jawaban:

11

Saya pikir Anda bingung bagaimana membangun model dari data dan bagaimana mengukur akurasi model setelah itu dibangun.

Ketika Anda ingin membangun sebuah model (regresi linear dalam kasus Anda, saya kira?), Anda biasanya akan menggunakan metode kesalahan kuadrat terkecil yang meminimalkan "total" jarak euclidean antara garis dan titik data. Secara teoritis koefisien garis ini dapat ditemukan menggunakan kalkulus tetapi dalam praktiknya, suatu algoritma akan melakukan gradient descent yang lebih cepat.

Setelah Anda memiliki model, Anda ingin mengevaluasi kinerjanya. Jadi, dalam kasus regresi, mungkin baik untuk menghitung metrik yang mengevaluasi "seberapa jauh" model Anda dengan titik data aktual (atau uji set data jika Anda memilikinya) secara rata-rata. MSE adalah perkiraan yang baik yang mungkin ingin Anda gunakan!

Singkatnya, perlu diingat bahwa LSE adalah metode yang membangun model dan MSE adalah metrik yang mengevaluasi kinerja model Anda.

Anil Narassiguin
sumber
1
Saya membuat model inaktivasi biologis non-linear dengan 2 parameter dengan commando matlab: LSQNONLIN. Komando ini memberi saya kesalahan kuadrat terkecil. Saya memiliki 3 kesalahan kuadrat terkecil ini karena saya melakukannya selama 3 dataset. Sekarang saya ingin membandingkan keakuratan kedua set data. Mengapa saya tidak bisa membandingkan LSE ini dengan satu sama lain?
Thomas
1
@ Thomas Apakah kumpulan data memiliki jumlah pengamatan yang berbeda? Apakah Anda memegang satu set data akhir untuk menilai ketiga model?
Matthew Drury
1
Tetapi persamaan LSE dan MSE hampir sama, bukan?
QtRoS
Pertimbangkan dua set data, satu dengan 10 titik data dan satu dengan 10.000 titik data. Jika mereka memiliki MSE yang sama mereka tidak dapat memiliki LSE yang sama - Inilah sebabnya mengapa Mean dalam "Mean Squared Error" digunakan, kuadrat membuat semua angka positif dan rata-rata rata-rata nilai-nilai sehingga statistik tidak tergantung pada jumlah data poin. R-squared (R2) dihitung sebagai "R2 = 1.0 - (absolute_error_variance / depend_data_variance)" juga digunakan untuk alasan yang sama, yaitu, tidak tergantung pada jumlah titik data yang digunakan dalam pemodelan.
James Phillips
3

MSE (Mean Squared Error) adalah rata-rata kesalahan kuadrat yaitu perbedaan antara estimator dan estimasi. MMSE (Minumum Mean Square Error) adalah estimator yang meminimalkan MSE. Oleh karena itu LSE dan MMSE dapat dibandingkan karena keduanya adalah penduga. LSE dan MSE tidak dapat dibandingkan seperti yang ditunjukkan oleh Anil. Ada beberapa perbedaan penting antara MMSE dan LSE, secara teoritis.
MMSE optimal untuk semua realisasi proses sementara LSE optimal untuk data yang diberikan itu sendiri. Ini karena MMSE menggunakan rata-rata ensemble (ekspektasi) sementara LSE menggunakan rata-rata waktu.

Apa artinya secara praktis adalah: 1. Untuk MMSE Anda perlu mengetahui sifat statistik urutan kedua dari data (korelasi silang dan autokorelasi), sedangkan untuk LSE Anda hanya perlu data. Autokorelasi & korelasi silang mahal secara komputasi dan perhitungan yang akurat membutuhkan banyak titik data / eksperimen. 2. Koefisien MMSE optimal untuk proses sehingga optimal untuk semua set data proses sementara LSE hanya optimal untuk set data tertentu. Koefisien LSE tidak akan tetap optimal jika dataset berubah.

Harap perhatikan juga bahwa MMSE mendekati LSE jika prosesnya ergodik dan jumlah titik data mendekati tak terhingga.

Perscitius
sumber
0

Saya percaya jawaban pertama saat ini oleh Anil Narassiguin menyesatkan. Dikatakan di bawah: "LSE adalah metode yang membangun model dan MSE adalah metrik yang mengevaluasi kinerja model Anda."

Ini tidak benar. Pada dasarnya, keduanya adalah fungsi kerugian / biaya . Keduanya menghitung kesalahan prediksi saat ini saat iterasi sehingga bobot dapat dioptimalkan.

Namun, LSE digunakan untuk masalah klasifikasi sementara MSE digunakan untuk masalah regresi. Saya percaya ini adalah perbedaan utama antara keduanya, jadi Anda perlu mencari tahu masalah apa yang Anda miliki, regresi klasifikasi.

Bob de Graaf
sumber