Ketika melatih model parameter (misalnya untuk memaksimalkan kemungkinan) melalui penurunan gradien stokastik pada beberapa set data, umumnya diasumsikan bahwa sampel pelatihan diambil di awal dari distribusi data pelatihan. Jadi, jika tujuannya adalah untuk memodelkan distribusi bersama , maka setiap sampel pelatihan harus diambil iid dari distribusi itu.
Jika tujuannya adalah untuk memodelkan distribusi bersyarat , lalu bagaimana persyaratan iid berubah, jika sama sekali?
- Haruskah kita masih menggambar setiap sampel iid dari distribusi bersama?
- Haruskah kita menggambar iid dari , lalu menggambar iid dari ?
- Bisakah kita menggambar bukan iid dari (mis. waktu), lalu menggambar iid dari ?
Bisakah Anda mengomentari validitas ketiga pendekatan ini untuk penurunan gradien stokastik? (Atau bantu saya ulangi pertanyaan jika perlu.)
Saya ingin melakukan # 3 jika memungkinkan. Aplikasi saya dalam pembelajaran penguatan, di mana saya menggunakan model kondisional berparameter sebagai kebijakan kontrol. Urutan status sangat berkorelasi, tetapi tindakan diambil sampelnya dari kebijakan stokastik yang dikondisikan pada negara. Sampel yang dihasilkan (atau sebagian dari mereka) digunakan untuk melatih kebijakan. (Dengan kata lain, bayangkan menjalankan kebijakan kontrol untuk waktu yang lama di beberapa lingkungan, mengumpulkan kumpulan data negara / sampel tindakan. Kemudian meskipun negara berkorelasi dari waktu ke waktu, tindakan dihasilkan secara independen, dikondisikan pada negara.) Ini agak mirip dengan situasi dalam tulisan ini .
Saya menemukan sebuah makalah, Ryabko, 2006, " Pengenalan Pola untuk Data Independen Secara Kondisional ," yang awalnya tampak relevan; Namun, di sana situasinya terbalik dari yang saya butuhkan, di mana (label / kategori / tindakan) dapat ditarik bukan iid dari , dan (objek / pola / keadaan) diambil iid dari .
Pembaruan: Dua makalah (di sini dan di sini ) yang disebutkan dalam makalah Ryabko tampaknya relevan di sini. Mereka menganggap berasal dari proses arbitrer (mis. Bukan iid, mungkin nonstasioner). Mereka menunjukkan bahwa penaksir tetangga terdekat dan kernel konsisten dalam kasus ini. Tapi saya lebih tertarik pada apakah estimasi berdasarkan penurunan gradien stokastik berlaku dalam situasi ini.
sumber
Jawaban:
Saya pikir Anda bisa melakukan 2 atau 3. Namun masalah dengan 3 adalah bahwa dalam memungkinkan distribusi sewenang-wenang untuk X Anda memasukkan distribusi yang akan memiliki semua atau hampir semua probabilitas terkonsentrasi adalah interval kecil dalam ruang-x. Ini akan merusak keseluruhan estimasi P (Y | X) karena Anda akan memiliki sedikit atau tidak ada data untuk nilai X tertentu.
sumber