Untuk masalah klasifikasi saya telah menggunakan Neural Networks dan mengukur kesalahan Tipe I dan II menggunakan matriks kebingungan dan ukurannya sesuai sumber daya ini ( mirror ), yang cukup mudah.
Ketika dihadapkan dengan masalah estimasi, bagaimana seseorang menilai kinerja model? Dengan asumsi bahwa tidak ada kelas dan output ditafsirkan dalam bentuk nyata. Melampaui metrik jarak rata-rata, yang tidak memberikan banyak wawasan.
Jawaban:
Tautan yang Anda poskan memiliki banyak teknik yang saya sarankan, tetapi juga memplot kurva belajar dapat membantu. Ini dapat membantu Anda melihat tidak hanya kinerja absolut, tetapi dapat membantu Anda memahami seberapa jauh dari kinerja optimal Anda.
Kurva Belajar: Jika Anda merencanakan kesalahan validasi silang (cv) dan tingkat kesalahan set pelatihan versus ukuran set pelatihan, Anda bisa belajar banyak. Jika kedua kurva saling mendekati dengan tingkat kesalahan rendah, maka Anda baik-baik saja.
Jika sepertinya kurva mulai mendekati satu sama lain dan keduanya mengarah / tetap rendah, maka Anda memerlukan lebih banyak data.
Jika kurva cv tetap tinggi, tetapi kurva set latihan tetap rendah, maka Anda memiliki situasi varians tinggi. Anda bisa mendapatkan lebih banyak data, atau menggunakan regularisasi untuk meningkatkan generalisasi.
Jika cv tetap tinggi dan kurva set latihan muncul untuk memenuhi itu, maka Anda memiliki bias tinggi. Dalam hal ini, Anda ingin menambahkan detail ke model Anda.
sumber
Ada beberapa cara untuk mendefinisikan kriteria kinerja model dalam estimasi. Sebagian besar orang menggunakan seberapa baik model sesuai dengan data. Jadi dalam kasus regresi akan "berapa banyak varian dijelaskan oleh model". Namun, Anda harus berhati-hati dengan regresi tersebut ketika Anda melakukan pemilihan variabel (misalnya dengan LASSO) Anda perlu mengontrol jumlah parameter yang termasuk dalam model. Seseorang dapat menggunakan versi lintas-validasi varians yang dijelaskan yang mungkin memberikan kinerja model estimasi yang tidak bias.
sumber
Mengacu pada dokumentasi scikit-learning (paket berbasis Python untuk pembelajaran mesin), r2_score dan menjelaskan_variance_score adalah pilihan yang populer. Tidak seperti ukuran jarak seperti mean_squared_error atau mean_absolute_error, metrik ini memberikan indikasi seberapa baik atau buruk prediksi tersebut (lebih dekat ke 1 => prediksi yang lebih baik). [Omong-omong, jika menggunakan pengukuran jarak, saya akan merekomendasikan RMSE (root mean square error) alih-alih hanya MSE (mean square error) sehingga besarnya dapat dibandingkan dengan prediksi]
Sebagai alternatif, Anda juga dapat menghitung koefisien korelasi antara nilai prediksi regressor dan nilai variabel target sebenarnya menggunakan koefisien korelasi Pearson (untuk model linier) atau lebih baik menggunakan koefisien korelasi peringkat Spearman (karena ini tidak mengasumsikan model linier dan kurang sensitif terhadap pencilan). ).
Kurva pembelajaran yang disarankan dalam jawaban John Yetter juga merupakan metode yang baik tetapi metrik yang disebutkan di atas mungkin lebih mudah untuk menilai kinerja.
sumber
Pertama-tama, saya pikir Anda harus menggunakan istilah "regresi" atau "prediksi" alih-alih "estimasi" - yang terakhir lebih mengacu pada inferensi statistik untuk parameter model (dengan asumsi beberapa bentuk parametrik), sedangkan Anda tampaknya lebih peduli dengan prediksi kekuatan untuk variabel dependen. Sekarang, dari pengalaman konsultasi saya, ukuran kinerja model yang paling sering digunakan - terlepas dari "metrik jarak" paling sederhana yang Anda sebutkan - adalah kesalahan rata-rata absolut / kuadrat danR2 koefisien untuk nilai yang diamati dan diprediksi. Tentu saja Anda dapat menggunakan beberapa fungsi kehilangan kustom, tergantung pada konteks studi / bisnis tertentu.
sumber