TL; DR (terlalu panjang, tidak dibaca):
Saya sedang mengerjakan masalah prediksi deret waktu, yang saya rumuskan sebagai masalah Regresi menggunakan Deep Learning (keras). Saya ingin mengoptimalkan korelasi Pearson antara prediksi saya dan label yang sebenarnya. Saya bingung dengan fakta bahwa menggunakan MSE sebagai proxy sebenarnya mengarah ke hasil yang lebih baik (dalam hal korelasinya) daripada menggunakan Pearson sebagai fungsi kerugian secara langsung. Apakah dianggap praktik buruk untuk menggunakan metrik korelasi sebagai fungsi kerugian untuk pembelajaran yang mendalam? Jika demikian, mengapa?
Versi yang lebih panjang:
Saya memiliki tugas prediksi seri waktu: Saya mengamati nilai untuk langkah waktu berurutan dan perlu memprediksi nilai pada langkah waktu . Karena nilai biasanya dalamSaya memperlakukan ini sebagai masalah regresi, yang saya selesaikan menggunakan Deep Learning (keras).
Pertanyaan saya adalah tentang pilihan kerugian & metrik.
Sebagian besar data saya memiliki label yang benar dengan beberapa nilai ekstrim. Banyak dari nilai-nilai ekstrem yang keliru dan saya tidak ingin mengubah pembelajaran saya untuk fokus pada memperbaikinya. Dengan kata lain, saya ingin dapat menangkap tren umum (dengan benar mengklasifikasikan periode nilai positif versus negatif), dan saya dapat "hidup dengan" dengan memprediksi 100, bukannya 200, misalnya.
Untuk alasan ini, saya pikir metrik evaluasi saya harus menjadi korelasi Pearson antara nilai yang diprediksi dan yang benar.
Sekarang, untuk fungsi kerugian: Idealnya, jika saya ingin mengoptimalkan untuk korelasi Pearson tinggi, masuk akal untuk menggunakannya sebagai fungsi kerugian, bukan? Saya telah menguji arsitektur sederhana yang merupakan "model dasar" saya dua kali: Satu kali dengan menggunakan Pearson (dihitung pada mini-batch) secara langsung sebagai fungsi kerugian saya, dan satu kali dengan menggunakan MSE umum sebagai proxy. Dalam kedua kasus saya melacak MSE dan Pearson untuk zaman yang berbeda dan saya melakukan "penghentian awal" berdasarkan pada set validasi.
Hasil saya:
- MSE sebagai kerugian: MSE 160, Pearson 0.7
- Pearson sebagai kerugian: MSE 250, Pearson 0.6
Saya memahami bahwa MSE yang lebih tinggi untuk kerugian Pearson adalah hasil dari kenyataan bahwa mengoptimalkan korelasi tidak memiliki skala, sehingga semua prediksi dapat "dimatikan" oleh faktor dengan cara yang meningkatkan MSE. Tetapi bagaimana bisa menggunakan MSE sebagai proxy sebenarnya lebih baik dalam hal korelasi Pearson itu sendiri? Apakah ada alasan terkait optimasi mengapa korelasi Pearson tidak boleh digunakan sebagai fungsi kerugian? Memang, saya melihat bahwa dalam praktiknya ini jarang digunakan, tetapi saya ingin memahami alasan di balik ini.