Apakah nilai R-squared cocok untuk membandingkan model?

17

Saya mencoba mengidentifikasi model terbaik untuk memprediksi harga mobil, menggunakan harga dan fitur yang tersedia di situs iklan baris mobil.

Untuk ini saya menggunakan beberapa model dari perpustakaan scikit-belajar dan model jaringan saraf dari pybrain dan neurolab. Pendekatan yang saya gunakan sejauh ini adalah menjalankan jumlah data tetap melalui beberapa model (algoritma pembelajaran mesin) dan membandingkan nilai yang dihitung dengan modul metrik scikit-learning.R2

  1. Apakah metode yang baik untuk membandingkan kinerja model yang berbeda?R2
  2. Walaupun saya mendapatkan hasil yang cukup dapat diterima untuk model seperti jaring jaring dan hutan acak saya mendapat nilai sangat buruk untuk model jaringan saraf, jadi apakah metode yang tepat untuk mengevaluasi jaringan saraf (atau metode non-linear)?R 2R2R2
Manik
sumber
2
Jawaban singkatnya adalah tidak . Mungkin membantu Anda untuk membaca jawaban saya di sini: Evaluasi model dan perbandingan untuk memilih model terbaik , yang cukup terkait dengan pertanyaan Anda. Solusi kandidat dijelaskan di sini . Untuk pemahaman yang lebih umum, Anda dapat mencoba membaca beberapa utas di situs yang dikategorikan di bawah tag pemilihan model .
gung - Reinstate Monica
@ung Terima kasih! bolehkah saya bertanya apa yang akan menjadi ukuran yang sesuai untuk regresi menggunakan jaringan saraf?
Manik

Jawaban:

18

Saya pikir bagian penting untuk dipertimbangkan dalam menjawab pertanyaan Anda adalah

Saya mencoba mengidentifikasi model terbaik untuk memprediksi harga mobil

karena pernyataan ini menyiratkan sesuatu tentang mengapa Anda ingin menggunakan model. Pilihan model dan evaluasi harus didasarkan pada apa yang ingin Anda capai dengan nilai-nilai yang sesuai.

Pertama, mari kita rekap apa dilakukannyaR2 : Ini menghitung ukuran skala berdasarkan fungsi kerugian kuadrat, yang saya yakin Anda sudah menyadari. Untuk melihat ini, menentukan sisa untuk i th-pengamatan Anda y i dan nilai dipasang sesuai y i . Menggunakan notasi nyaman S S R : = Σ N i = 1 e 2 i , S S T : = Σesaya=ysaya-y^sayaysayay^sayaSSR: =saya=1Nesaya2,R2hanya didefinisikan sebagaiR2=1-SSR/SST.SST: =saya=1N(ysaya-y¯)2R2R2=1-SSR/SST

Kedua, mari kita lihat apa yang menggunakan untuk model pilihan / sarana evaluasiR2 . Misalkan kita memilih dari serangkaian prediksi yang dihasilkan menggunakan model M : M M , di mana M adalah kumpulan model yang dipertimbangkan (dalam contoh Anda, koleksi ini akan berisi jaringan saraf, hutan acak, jaring elastis, ...). Sejak S S T akan tetap konstan di antara semua model, jika meminimalkan R 2 Anda akan memilih persis model yang meminimalkan S S R . Dengan kata lain, Anda akan memilihY¯M.M.:M.M.M.SSTR2SSR yang menghasilkan kerugian kesalahan kuadrat minimal!M.M.

R2SSR L.2L.1

R2L.hal1hal<2hal=1L.halL.hal

Singkatnya, pilihan / evaluasi model tidak dapat dipertimbangkan secara independen dari tujuan model.

Jeremias K
sumber