Misalkan saya memiliki panel variabel penjelas , untuk , , serta vektor variabel dependen hasil biner . Jadi hanya diamati pada waktu akhir dan tidak pada waktu sebelumnya. Kasus yang sepenuhnya umum adalah memiliki beberapa untuk untuk setiap unit pada setiap waktu , tetapi mari kita fokus pada kasus untuk singkatnya. i = 1 . . . N t = 1 . . . T Y i T Y T X i j t j = 1 ... K i t K = 1
Aplikasi dari pasangan "tidak seimbang" dengan variabel penjelas temporal yang berkorelasi adalah misalnya (harga saham harian, dividen triwulanan), (laporan cuaca harian, badai tahunan) atau (fitur posisi catur setelah setiap gerakan, hasil win / loss di akhir pertandingan).
Saya tertarik pada (mungkin non-linear) koefisien regresi untuk melakukan prediksi dari , mengetahui bahwa dalam data pelatihan, mengingat pengamatan awal untuk , itu mengarah ke akhir hasil X i t t < T Y i T
Berasal dari latar belakang ekonometrika, saya belum melihat banyak pemodelan regresi diterapkan pada data tersebut. OTOH, saya telah melihat teknik pembelajaran mesin berikut yang diterapkan pada data tersebut:
- melakukan pembelajaran terawasi pada seluruh kumpulan data, misalnya meminimalkan
dengan hanya mengekstrapolasi / memasukkan diamati ke semua poin sebelumnya dalam waktu
Ini terasa "salah" karena tidak akan memperhitungkan korelasi temporal antara berbagai titik waktu.
- melakukan pembelajaran penguatan seperti perbedaan temporal dengan parameter pembelajaran dan parameter diskon , dan pemecahan secara rekursif untuk melalui back-propagation mulai dariλ β t t = T
dengan gradien sehubungan dengan . f ( ) β
Ini tampaknya lebih "benar" karena memperhitungkan struktur temporal, tetapi parameter dan adalah sejenis "ad hoc".λ
Pertanyaan : apakah ada literatur tentang bagaimana memetakan teknik pembelajaran yang diawasi / diperkuat ini ke dalam kerangka kerja regresi seperti yang digunakan dalam statistik / ekonometrik klasik? Secara khusus, saya ingin dapat memperkirakan parameter dalam "one go" (yaitu untuk semua secara bersamaan) dengan melakukan kuadrat-terkecil (non-linier) atau kemungkinan maksimum pada model seperti t = 1 ... T
Saya juga tertarik untuk mengetahui apakah perbedaan temporal belajar meta-parameter dan dapat dipulihkan dari formulasi kemungkinan maksimum.λ
sumber
Jawaban:
Deskripsi masalah tidak sepenuhnya jelas bagi saya jadi saya mencoba menebak beberapa asumsi. Jika ini tidak menjawab pertanyaan Anda, setidaknya dapat membantu untuk mengklarifikasi masalah lebih lanjut.
Hal pertama yang tidak jelas bagi saya adalah data yang ingin dijadikan dasar prediksi Anda. Jika Anda ingin memprediksi berdasarkan data yang diamati sampai maka pendekatan rekursif seperti dalam metode Anda 2. tidak masuk akal karena ini akan menggunakan data masa depan, yaitu dengan . t < T X τ τ > tYT t<T Xτ τ>t
Kedua, Anda tidak menyatakan apa properti prediksi . Secara umum, diberi informasi pada waktu ekspektasi bersyarat adalah "prediktor terbaik" dalam arti L2. Jika Anda benar-benar ingin memprediksi ekspektasi bersyarat, kuadrat terkecil biasa adalah metode pilihan untuk estimasi praktis.X 1 , ... , X t t < T Y t = E [ Y T | X 1 , ... , X t ] Y TYt X1,…,Xt t<T Yt=E[YT∣X1,…,Xt] YT
Selain itu, saya tidak mengerti komentar Anda tentang korelasi yang tidak tercermin oleh regresi berdasarkan . Ini menggabungkan semua yang Anda ketahui sampai termasuk korelasi antara pengamatan Anda. tX1,…,Xt t
Jadi, simpulkan dan nyatakan ini sebagai jawaban: Jika Anda ingin membuat prediksi yang optimal dalam pengertian L2, hanya berdasarkan data yang diamati sampai Anda dapat menggunakan regresi kuadrat terkecil.t<T
sumber
Keuntungan dari perbedaan temporal adalah bahwa mereka memungkinkan Anda untuk belajar dari episode yang tidak lengkap. Jadi, urutan di mana Anda belum sampai ke final Y masih dapat digunakan untuk menyesuaikan model; estimasi selanjutnya digunakan sebagai gantinya. Efeknya mirip dengan imputasi data tersembunyi; secara implisit Anda memasukkan sisa urutan sesuai dengan model Anda saat ini.α
γ mengontrol upaya relatif yang diberikan pada prediksi tergantung pada seberapa jauh mereka dari akhir urutan. Karena urutan ini terbatas, Anda dapat mengatur ini ke , untuk memberi bobot yang sama pada semua perkiraan. γ=1
Model perbedaan temporal biasanya dilatih oleh penurunan gradien stokastik . mengontrol laju pembelajaran. Terlalu tinggi dan metodenya akan berbeda. Terlalu rendah dan konvergensi ke optimum lokal akan sangat lambat. Tetapi konvergensi harus selalu dengan model yang sama. Di sini,γ γ = 1
sumber