Memperbarui MLE secara rekursif saat streaming pengamatan baru masuk

15

Pertanyaan Umum

Katakanlah kita memiliki data id x1 , x2 , ... f(x|θ)θ

θ^n1=argmaxθRpi=1n1f(xi|θ),
xnθ n - 1 ,
θ^n1,xnθ^n
tanpa harus memulai dari awal. Apakah ada algoritma umum untuk ini?

Contoh mainan

Jika , , ... , maka jadi x1x2N(x|μ,1)μ n - 1 = 1

μ^n1=1n1i=1n1xiandμ^n=1ni=1nxi,
μ
μ^n=1n[(n1)μ^n1+xn].

jcz
sumber
6
Jangan lupa kebalikan dari masalah ini: memperbarui estimator saat pengamatan lama dihapus.
Hong Ooi
Recursive least square (RLS) adalah solusi (sangat terkenal) untuk satu contoh masalah ini, bukan? Secara umum, saya akan percaya bahwa literatur penyaringan stokastik mungkin berguna untuk melihat ke dalam.
jhin

Jawaban:

13

Lihat konsep kecukupan dan khususnya, statistik yang cukup minimal . Dalam banyak kasus Anda membutuhkan seluruh sampel untuk menghitung estimasi pada ukuran sampel tertentu, tanpa cara sepele untuk memperbarui dari sampel satu ukuran lebih kecil (yaitu tidak ada hasil umum yang nyaman).

Jika distribusinya adalah keluarga eksponensial (dan dalam beberapa kasus lain selain itu, seragam adalah contoh yang rapi) ada statistik yang cukup bagus yang dalam banyak kasus dapat diperbarui dengan cara yang Anda cari (yaitu dengan sejumlah distribusi yang umum digunakan akan ada pembaruan cepat).

Salah satu contoh saya tidak mengetahui adanya cara langsung untuk menghitung atau memperbarui adalah perkiraan untuk lokasi distribusi Cauchy (misalnya dengan skala unit, untuk membuat masalah menjadi masalah satu-parameter yang sederhana). Namun, mungkin ada pembaruan yang lebih cepat, yang belum saya perhatikan - saya tidak bisa mengatakan saya telah melakukan lebih dari sekadar melirik untuk mempertimbangkan kasus pembaruan.

Di sisi lain, dengan MLE yang diperoleh melalui metode optimasi numerik, estimasi sebelumnya dalam banyak kasus akan menjadi titik awal yang bagus, karena biasanya estimasi sebelumnya akan sangat dekat dengan estimasi yang diperbarui; setidaknya dalam arti itu, pembaruan cepat harus sering dilakukan. Meskipun ini bukan kasus umum - dengan fungsi kemungkinan multimodal (sekali lagi, lihat Cauchy sebagai contoh), pengamatan baru dapat menyebabkan mode tertinggi berada agak jauh dari yang sebelumnya (bahkan jika lokasi masing-masing dari beberapa mode terbesar tidak banyak berubah, mana yang tertinggi dapat berubah).

Glen_b -Reinstate Monica
sumber
1
Terima kasih! Poin tentang MLE yang mungkin berpindah mode midstream sangat membantu untuk memahami mengapa hal ini akan sulit secara umum.
jcz
1
Anda dapat melihat ini sendiri dengan model Cauchy unit-skala di atas dan data (0.1.0.11.0.12.2.91.2.921.2.933). Kemungkinan log untuk lokasi mode dekat 0,5 dan 2,5, dan (sedikit) puncak lebih tinggi adalah yang dekat 0,5. Sekarang buat pengamatan berikutnya 10 dan mode masing-masing dari dua puncak nyaris tidak bergerak tetapi puncak kedua sekarang jauh lebih tinggi. Keturunan gradien tidak akan membantu Anda ketika itu terjadi, hampir seperti memulai lagi. Jika populasi Anda adalah campuran dari dua subkelompok dengan ukuran yang sama dengan lokasi yang berbeda, keadaan tersebut dapat terjadi -. ...
ctd
ctd ... bahkan dalam sampel yang relatif besar. Dalam situasi yang tepat, pengalihan mode dapat terjadi cukup sering.
Glen_b -Reinstate Monica
n
Ya benar; Saya berdebat dengan diri saya sendiri apakah akan membahas itu dalam jawaban.
Glen_b -Reinstate Monica
4

Dalam pembelajaran mesin, ini disebut sebagai pembelajaran online .

Seperti yang ditunjukkan @Glen_b, ada kasus khusus di mana MLE dapat diperbarui tanpa perlu mengakses semua data sebelumnya. Seperti yang dia tunjukkan, saya tidak percaya ada solusi umum untuk menemukan MLE.

Pendekatan yang cukup umum untuk menemukan solusi perkiraan adalah dengan menggunakan sesuatu seperti penurunan gradien stokastik. Dalam hal ini, saat setiap pengamatan masuk, kami menghitung gradien sehubungan dengan pengamatan individual ini dan memindahkan nilai parameter dalam jumlah yang sangat kecil ke arah ini. Dalam kondisi tertentu, kami dapat menunjukkan bahwa ini akan menyatu dengan lingkungan MLE dengan probabilitas tinggi; lingkungan semakin ketat karena kami mengurangi ukuran langkah, tetapi lebih banyak data diperlukan untuk konvergensi. Namun, metode stokastik ini secara umum membutuhkan lebih banyak mengutak-atik untuk mendapatkan kinerja yang baik daripada, katakanlah, pembaruan formulir tertutup.

Cliff AB
sumber