Bisakah model P (Y | X) dilatih melalui stochastic gradient descent dari sampel non-iid P (X) dan sampel iid dari P (Y

Ketika melatih model parameter (misalnya untuk memaksimalkan kemungkinan) melalui penurunan gradien stokastik pada beberapa set data, umumnya diasumsikan bahwa sampel pelatihan diambil di awal dari distribusi data pelatihan. Jadi, jika tujuannya adalah untuk memodelkan distribusi bersama , maka setiap sampel pelatihan harus diambil iid dari distribusi itu. $P(X,Y)$ $(x_i,y_i)$

Jika tujuannya adalah untuk memodelkan distribusi bersyarat , lalu bagaimana persyaratan iid berubah, jika sama sekali? $P(Y|X)$

Haruskah kita masih menggambar setiap sampel iid dari distribusi bersama? $(x_i,y_i)$
Haruskah kita menggambar iid dari , lalu menggambar iid dari ? $x_i$ $P(X)$ $y_i$ $P(Y|X)$
Bisakah kita menggambar bukan iid dari (mis. waktu), lalu menggambar iid dari ? $x_i$ $P(X)$ $y_i$ $P(Y|X)$

Bisakah Anda mengomentari validitas ketiga pendekatan ini untuk penurunan gradien stokastik? (Atau bantu saya ulangi pertanyaan jika perlu.)

Saya ingin melakukan # 3 jika memungkinkan. Aplikasi saya dalam pembelajaran penguatan, di mana saya menggunakan model kondisional berparameter sebagai kebijakan kontrol. Urutan status sangat berkorelasi, tetapi tindakan diambil sampelnya dari kebijakan stokastik yang dikondisikan pada negara. Sampel yang dihasilkan (atau sebagian dari mereka) digunakan untuk melatih kebijakan. (Dengan kata lain, bayangkan menjalankan kebijakan kontrol untuk waktu yang lama di beberapa lingkungan, mengumpulkan kumpulan data negara / sampel tindakan. Kemudian meskipun negara berkorelasi dari waktu ke waktu, tindakan dihasilkan secara independen, dikondisikan pada negara.) Ini agak mirip dengan situasi dalam tulisan ini . $x_i$ $y_i$ $(x_i,y_i)$

Saya menemukan sebuah makalah, Ryabko, 2006, " Pengenalan Pola untuk Data Independen Secara Kondisional ," yang awalnya tampak relevan; Namun, di sana situasinya terbalik dari yang saya butuhkan, di mana (label / kategori / tindakan) dapat ditarik bukan iid dari , dan (objek / pola / keadaan) diambil iid dari . $y_i$ $P(Y)$ $x_i$ $P(X|Y)$

Pembaruan: Dua makalah (di sini dan di sini ) yang disebutkan dalam makalah Ryabko tampaknya relevan di sini. Mereka menganggap berasal dari proses arbitrer (mis. Bukan iid, mungkin nonstasioner). Mereka menunjukkan bahwa penaksir tetangga terdekat dan kernel konsisten dalam kasus ini. Tapi saya lebih tertarik pada apakah estimasi berdasarkan penurunan gradien stokastik berlaku dalam situasi ini. $x_i$

machine-learning conditional-probability reinforcement-learning gradient-descent Tyler Streeter
sumber

Mungkin saya kehilangan sesuatu, dan saya belum membaca makalah, tetapi: Anda menggambar non-iid dari dan kemudian mengambil sampel iid dari . Ryabko (2006) menggambar non-iid dari dan kemudian mengambil sampel iid dari . Ini tampaknya sama hingga penggantian nama. Apakah ada sesuatu yang secara fundamental berbeda tentang objek dan yang membuat ini bukan situasi yang sama?

x_{i}

$x_i$

P (X)

$P(X)$

y_{i}

$y_i$

P (Y ∣ X)

$P(Y \mid X)$

y_{i}

$y_i$

P (Y)

$P(Y)$

x_{i}

$x_i$

P (X ∣ Y)

$P(X \mid Y)$

x

$x$

y

$y$

Dougal

@ Dougal: Perbedaannya adalah bahwa model distribusi bersyarat, seperti bidang acak bersyarat, memperlakukan dan ("input" dan "output") berbeda ... mereka memodelkan hanya satu arah ( tetapi tidak ).

X

$X$

Y

$Y$

P (Y | X)

$P(Y|X)$

P (X | Y)

$P(X|Y)$

Tyler Streeter

Saya akan mempertimbangkan analogi berikut dalam kasus ini. Misalkan dan adalah dua deret waktu berkorelasi (korelasi dalam waktu). Kami ingin mengetahui fungsi , yang setara dengan menemukan . Jika , yang merupakan residual, adalah IID (maka stasioner dan tidak berkorelasi) maka prosedur estimasi konvergen tanpa bias. Pada dasarnya memproses deret waktu dalam urutan waktu atau urutan acak apa pun tidak boleh menjadi masalah dalam prosedur MLE selama kemungkinan bersyarat ditentukan dengan benar dan residu adalah IID.

Y_{i}

$Y_i$

X_{i}

$X_i$

Y_{i} = f (X_{i}; θ)

$Y_i = f(X_i;\theta)$

P (Y_{i} | X_{i}; θ)

$P(Y_i|X_i;\theta)$

P (Y_{i} | X_{i}; θ)

$P(Y_i|X_i;\theta)$

Cagdas Ozgenc

Saya pikir Anda bisa melakukan 2 atau 3. Namun masalah dengan 3 adalah bahwa dalam memungkinkan distribusi sewenang-wenang untuk X Anda memasukkan distribusi yang akan memiliki semua atau hampir semua probabilitas terkonsentrasi adalah interval kecil dalam ruang-x. Ini akan merusak keseluruhan estimasi P (Y | X) karena Anda akan memiliki sedikit atau tidak ada data untuk nilai X tertentu.

Michael R. Chernick
sumber

Jadi, apakah Anda mengatakan bahwa dengan pendekatan # 3, saya akan mendapatkan hasil yang tidak bias dengan varians yang berpotensi tinggi?

Tyler Streeter

Jika tidak ada data pada atau di dekat titik x maka Anda bahkan tidak bisa memperkirakan P (Y | X = x ) dan jika hanya ada beberapa titik varians dari estimasi akan besar.

_{1}

$_1$

_{1}

$_1$

Michael R. Chernick

Ya, itu masuk akal bahwa variansnya bisa besar. Saya kira kekhawatiran utama saya adalah apakah estimasi P (Y | X) akan bias.

Tyler Streeter

Kami tidak membahas perkiraan titik. Jika Anda memiliki perkiraan yang tidak bias untuk P (X), P (Y) dan P (X | Y) dan hubungkan dengan rumus P (Y | X) = P (X | Y) P (Y) / P (X) Anda akan mendapatkan estimasi yang bias.

Michael R. Chernick

Saya harus menekankan bahwa saya sedang berbicara tentang memperkirakan P (Y | X) melalui keturunan gradien stokastik, dalam hal ini urutan sampel pelatihan dapat mempengaruhi seberapa cepat atau apakah itu menyatu dengan model yang benar. Saya tidak hanya menggunakan rata-rata sampel, di mana urutan sampel tidak masalah.

Tyler Streeter

Bisakah model P (Y | X) dilatih melalui stochastic gradient descent dari sampel non-iid P (X) dan sampel iid dari P (Y | X)?

Jawaban: