Mitos Prediktabilitas Jangka Panjang

8

Baru-baru ini saya menemukan artikel yang menarik tentang memprediksi pengembalian pasar saham di masa depan. Penulis menyajikan grafik di bawah ini dan mengutip R ^ 2 dari 0,913. Ini akan membuat metode penulis jauh lebih unggul daripada apa pun yang pernah saya lihat pada subjek (kebanyakan berpendapat bahwa pasar saham tidak dapat diprediksi).

Penulis menjelaskan metodenya dengan sangat rinci dan memberikan teori substansial untuk mendukung hasilnya. Lalu saya membaca artikel kedua, mengkritik yang merujuk makalah ini: Mitos Long-Horizon Prediktabilitas . Rupanya orang telah jatuh cinta pada ilusi ini selama beberapa dekade. Sayangnya, saya tidak begitu mengerti makalahnya.

Ini mengarahkan saya ke pertanyaan-pertanyaan berikut:

Apakah kepercayaan salah prediksi jangka panjang muncul karena menggunakan set data yang sama untuk pelatihan dan validasi model? Apakah masalah akan hilang jika data pelatihan dan validasi ditarik dari periode waktu yang terpisah dan tidak tumpang tindih?
Selain memvalidasi pada set pelatihan, mengapa masalah ini menjadi lebih jelas di cakrawala yang lebih panjang?
Secara umum, bagaimana saya bisa mengatasi masalah ini ketika melatih model yang harus membuat prediksi jangka panjang?

machine-learning time-series forecasting predictive-models Ryan Zotti
sumber

1

Tidak yakin apakah Anda menemukan utas ini di CV, tempat saya mereferensikan beberapa makalah tentang topik ini. stats.stackexchange.com/questions/294489/…

horaceT

4

Saya pikir jawaban sederhana adalah bahwa seseorang tidak ingin mengukur R ^ 2 pada skala waktu asli. Jika ramalan seseorang adalah murni salinan nilai jadwal waktu yang terakhir terlihat, R ^ 2 akan sangat besar. Contoh:

Ini bisa disebut kasus palsu. Saya mendapatkan nilai 0,96, sementara perkiraan ini benar-benar omong kosong.

R ^ 2 akan memberikan nilai jujur jika diukur dengan menggunakan stasioner waktu, misalnya, perbedaan pertama y dan y-hat.

Alexey Burnakov
sumber

1

Masalahnya tidak muncul karena kami menggunakan dataset yang sama untuk pelatihan dan validasi. Itu muncul karena efek dari kegigihan variabel pada memperbesar kesalahan pengambilan sampel dan efek kecil pada horizon waktu yang lebih lama. Seperti yang dinyatakan dalam artikel, bahkan jika Anda tidak dapat memprediksi pengembalian pasar saham di masa depan dari variabel minat Anda, kami berharap serta koefisien regresi secara proporsional akan sebanding dengan horizon waktu jika variabelnya persisten. Ini karena (hal 1584): $R^2$

a) setiap penarikan yang tidak biasa dari pengembalian pada waktu akan mempengaruhi pengembalian untuk periode , di mana adalah horizon waktu. $t$ $k$ $k$

b) regressor persisten akan memiliki nilai yang sangat mirip untuk , , , .., $t$ $t-1$ $t-2$ $t-k$

dan dengan demikian "Dampak dari undian yang tidak biasa akan kira-kira kali lebih besar dalam regresi cakrawala panjang daripada dalam regresi satu periode." Dalam artikel terkait mengutip sangat tinggi , horizon waktu adalah sepuluh tahun, data tersedia setiap tiga bulan, sehingga horizon waktu 10 tahun (horizon waktu ) inflasi pada kemungkinan akan sangat besar. $k$ $R^2$ $k = 40$ $R^2$

Chris Novak
sumber

Mitos Prediktabilitas Jangka Panjang

Jawaban: