Menerjemahkan masalah pembelajaran mesin ke dalam kerangka regresi

12

Misalkan saya memiliki panel variabel penjelas , untuk , , serta vektor variabel dependen hasil biner . Jadi hanya diamati pada waktu akhir dan tidak pada waktu sebelumnya. Kasus yang sepenuhnya umum adalah memiliki beberapa untuk untuk setiap unit pada setiap waktu , tetapi mari kita fokus pada kasus untuk singkatnya. i = 1 . . . N t = 1 . . . T Y i T Y T X i j t j = 1 ... K i t K = 1Xiti=1...Nt=1...TYiTYTXijtj=1...KitK=1

Aplikasi dari pasangan "tidak seimbang" dengan variabel penjelas temporal yang berkorelasi adalah misalnya (harga saham harian, dividen triwulanan), (laporan cuaca harian, badai tahunan) atau (fitur posisi catur setelah setiap gerakan, hasil win / loss di akhir pertandingan).(X,Y)

Saya tertarik pada (mungkin non-linear) koefisien regresi untuk melakukan prediksi dari , mengetahui bahwa dalam data pelatihan, mengingat pengamatan awal untuk , itu mengarah ke akhir hasilβt X i t t < T Y i TYitXitt<TYiT

Y^it=f(k=1tXikβk),t=1...T

Berasal dari latar belakang ekonometrika, saya belum melihat banyak pemodelan regresi diterapkan pada data tersebut. OTOH, saya telah melihat teknik pembelajaran mesin berikut yang diterapkan pada data tersebut:

  1. melakukan pembelajaran terawasi pada seluruh kumpulan data, misalnya meminimalkan

i,t12(Yitf(Xitβt))2

dengan hanya mengekstrapolasi / memasukkan diamati ke semua poin sebelumnya dalam waktuY

YitYiT,t=1...T1

Ini terasa "salah" karena tidak akan memperhitungkan korelasi temporal antara berbagai titik waktu.

  1. melakukan pembelajaran penguatan seperti perbedaan temporal dengan parameter pembelajaran dan parameter diskon , dan pemecahan secara rekursif untuk melalui back-propagation mulai dariλ β t t = Tαλβtt=T

Δβt=α(Y^t+1Y^t)k=1tλtkβY^k

dengan gradien sehubungan dengan . f ( ) ββY^f()β

Ini tampaknya lebih "benar" karena memperhitungkan struktur temporal, tetapi parameter dan adalah sejenis "ad hoc".λαλ

Pertanyaan : apakah ada literatur tentang bagaimana memetakan teknik pembelajaran yang diawasi / diperkuat ini ke dalam kerangka kerja regresi seperti yang digunakan dalam statistik / ekonometrik klasik? Secara khusus, saya ingin dapat memperkirakan parameter dalam "one go" (yaitu untuk semua secara bersamaan) dengan melakukan kuadrat-terkecil (non-linier) atau kemungkinan maksimum pada model seperti t = 1 ... Tβtt=1...T

YiT=f(t=1TXitβt)+ϵi

Saya juga tertarik untuk mengetahui apakah perbedaan temporal belajar meta-parameter dan dapat dipulihkan dari formulasi kemungkinan maksimum.λαλ

TemplateRex
sumber
Bisakah Anda mengklarifikasi formulasi dalam paragraf ketiga? Anda menulis bahwa Anda ingin memprediksi dari , , tetapi rumus berikut menunjukkan bahwa Anda ingin memprediksi . X i t t < T Y i tYiTXitt<TYit
NRH
@NRH sebenarnya, saya hanya mengamati , tetapi apa yang saya lihat dalam literatur tentang pembelajaran yang diawasi adalah bahwa mereka menyalahkan tidak teramati sama dengan dan kemudian melakukan fitting untuk benar-benar menjelaskan palsu dari (ini dilakukan dalam aplikasi bermain game, di mana fungsi evaluasi untuk setiap posisi dipasang pada hasil akhir permainan). Maaf jika ini tidak jelas dari formulasi awal saya. Bagaimanapun, akan menjadi hasil "diprediksi" (dalam aplikasi game) mengingat peristiwa yang diamati . Y i t Y i T Y i t X i t Y i t X i tYiTYitYiTYitXitY^itXit
TemplateRex
Saya mengerti pengaturan dan apa yang Anda amati, tetapi formulasi Anda dalam pertanyaan tidak jelas. Apakah Anda ingin melatih model untuk memprediksi saat Anda menulis dengan kata-kata, atau Anda ingin melatih model untuk memprediksi untuk semua seperti yang disarankan oleh rumus? Mungkin itu hanya kesalahan ketik. Ketika Anda menulis "... prediksi dari ..." maksudmu "... prediksi dari ..."? Y i t t Y i T Y i tYiTYittYiTYit
NRH
tidak jelas mengapa Anda ingin melakukan ini. Jika Anda dapat menjelaskan aplikasi praktis yang sebenarnya, Anda mungkin mendapatkan jawaban yang lebih jelas. Secara umum, prediksi terbaik untuk setiap rentang waktu hanya akan melakukan regresi pada data yang tersedia secara terpisah untuk setiap t. Tidak jelas bahwa pendekatan simultan memiliki manfaat apa pun. Saya pikir Anda harus menentukan model statistik untuk kumpulan data Anda dan kemudian mungkin manfaatnya lebih jelas. X 1 , ... , X tYTX1,,Xt
seanv507
@NRH, ya, saya ingin memprediksi dari mengetahui bahwa itu mengarah ke hasil dalam data pelatihan, untuk mengambil tindakan optimal untuk data pengujian di mana saya juga mengamati tetapi belum mengamati hasilnya. Akan memperbarui formulasi saya. X i t Y i T X i tYitXitYiTXit
TemplateRex

Jawaban:

1

Deskripsi masalah tidak sepenuhnya jelas bagi saya jadi saya mencoba menebak beberapa asumsi. Jika ini tidak menjawab pertanyaan Anda, setidaknya dapat membantu untuk mengklarifikasi masalah lebih lanjut.

Hal pertama yang tidak jelas bagi saya adalah data yang ingin dijadikan dasar prediksi Anda. Jika Anda ingin memprediksi berdasarkan data yang diamati sampai maka pendekatan rekursif seperti dalam metode Anda 2. tidak masuk akal karena ini akan menggunakan data masa depan, yaitu dengan . t < T X τ τ > tYTt<TXττ>t

Kedua, Anda tidak menyatakan apa properti prediksi . Secara umum, diberi informasi pada waktu ekspektasi bersyarat adalah "prediktor terbaik" dalam arti L2. Jika Anda benar-benar ingin memprediksi ekspektasi bersyarat, kuadrat terkecil biasa adalah metode pilihan untuk estimasi praktis.X 1 , ... , X t t < T Y t = E [ Y T | X 1 , ... , X t ] Y TYtX1,,Xtt<TYt=E[YTX1,,Xt]YT

Selain itu, saya tidak mengerti komentar Anda tentang korelasi yang tidak tercermin oleh regresi berdasarkan . Ini menggabungkan semua yang Anda ketahui sampai termasuk korelasi antara pengamatan Anda. tX1,,Xtt

Jadi, simpulkan dan nyatakan ini sebagai jawaban: Jika Anda ingin membuat prediksi yang optimal dalam pengertian L2, hanya berdasarkan data yang diamati sampai Anda dapat menggunakan regresi kuadrat terkecil.t<T

gg
sumber
dalam data pelatihan, saya ingin menggunakan fakta bahwa pengamatan diberikan statistik akan mengarah pada hasil untuk memprediksi untuk data uji di mana saya tidak mengamati sampai sesudahnya. Jika misalnya Anda tahu bahwa setelah 3 hari berangin kemungkinan akan turun hujan pada hari ke 7, Anda ingin menggunakan informasi itu untuk memberi tahu orang-orang membawa payung setelah akhir pekan setelah beberapa hari yang berangin sebelumnya. Y i T Y i t Y i TXitYiTY^itYiT
TemplateRex
0

Keuntungan dari perbedaan temporal adalah bahwa mereka memungkinkan Anda untuk belajar dari episode yang tidak lengkap. Jadi, urutan di mana Anda belum sampai ke final Y masih dapat digunakan untuk menyesuaikan model; estimasi selanjutnya digunakan sebagai gantinya. Efeknya mirip dengan imputasi data tersembunyi; secara implisit Anda memasukkan sisa urutan sesuai dengan model Anda saat ini.
Model perbedaan temporal biasanya dilatih oleh penurunan gradien stokastik . mengontrol laju pembelajaran. Terlalu tinggi dan metodenya akan berbeda. Terlalu rendah dan konvergensi ke optimum lokal akan sangat lambat. Tetapi konvergensi harus selalu dengan model yang sama. Di sini,γ γ = 1α
γmengontrol upaya relatif yang diberikan pada prediksi tergantung pada seberapa jauh mereka dari akhir urutan. Karena urutan ini terbatas, Anda dapat mengatur ini ke , untuk memberi bobot yang sama pada semua perkiraan. γ=1

nsweeney
sumber
αγ
αγ