Saya mencoba memahami beberapa makalah oleh Mark van der Laan. Dia seorang ahli statistik teoritis di Berkeley yang mengerjakan masalah yang tumpang tindih secara signifikan dengan pembelajaran mesin. Satu masalah bagi saya (selain matematika yang mendalam) adalah bahwa ia sering akhirnya menggambarkan pendekatan pembelajaran mesin yang akrab dengan menggunakan terminologi yang sama sekali berbeda. Salah satu konsep utamanya adalah "Target Kemungkinan Maksimum Kemungkinan".
TMLE digunakan untuk menganalisis data pengamatan yang disensor dari percobaan yang tidak terkontrol dengan cara yang memungkinkan estimasi efek bahkan di hadapan faktor perancu. Saya sangat curiga bahwa banyak konsep yang sama ada di bawah nama lain di bidang lain, tetapi saya belum memahaminya dengan cukup baik untuk mencocokkannya langsung dengan apa pun.
Upaya menjembatani kesenjangan dengan "Analisis Data Komputasi" ada di sini:
Memasuki Era Ilmu Data: Pembelajaran Target dan Integrasi Statistik dan Analisis Data Komputasi
Dan pengantar untuk ahli statistik ada di sini:
Inferensial Kausal Berbasis Kemungkinan Maksimum yang Ditargetkan: Bagian I
Dari yang kedua:
Dalam artikel ini, kami mengembangkan penaksir kemungkinan maksimum yang ditargetkan khusus untuk efek kausal dari beberapa intervensi titik waktu. Ini melibatkan penggunaan super-learning berbasis-kerugian untuk mendapatkan perkiraan awal dari faktor-faktor yang tidak diketahui dari rumus perhitungan-G, dan selanjutnya, menerapkan fungsi target spesifik parameter fluktuasi optimal (submodel parametrik paling menguntungkan) untuk masing-masing faktor perkiraan, memperkirakan parameter fluktuasi dengan estimasi kemungkinan maksimum, dan mengulangi langkah pemutakhiran faktor awal ini hingga konvergensi. Langkah pemutakhiran kemungkinan maksimum yang ditargetkan berulang yang berulang ini membuat estimator yang dihasilkan dari efek sebab akibat menjadi kuat dua kali lipat dalam arti konsisten jika salah satu estimator awal konsisten, atau penduga fungsi fluktuasi optimal konsisten. Fungsi fluktuasi optimal ditentukan dengan benar jika distribusi kondisional dari node dalam grafik kausal yang diintervensi ditentukan secara benar.
Dalam terminologinya, "super learning" adalah ensemble learning dengan skema pembobotan non-negatif yang secara teoritis sehat. Tetapi apa yang dia maksud dengan "menerapkan fungsi fluktuasi optimal spesifik target-parameter (submodel parametrik paling menguntungkan) untuk setiap faktor yang diperkirakan".
Atau memecahnya menjadi tiga pertanyaan berbeda, apakah TMLE memiliki paralel dalam pembelajaran mesin, apa yang dimaksud dengan "submodel parametrik yang paling tidak menguntungkan", dan apa yang dimaksud dengan "fungsi fluktuasi" di bidang lain?
Jawaban:
Saya setuju bahwa van der Laan memiliki kecenderungan untuk menemukan nama-nama baru untuk ide-ide yang sudah ada (misalnya super-pelajar), tetapi TMLE bukan salah satu dari mereka sejauh yang saya tahu. Ini sebenarnya ide yang sangat pintar, dan saya tidak melihat apa-apa dari komunitas Machine Learning yang terlihat serupa (walaupun saya mungkin tidak tahu apa-apa). Ide-ide tersebut berasal dari teori persamaan estimasi semiparametrik-efisien, yang merupakan sesuatu yang menurut saya lebih banyak dipikirkan oleh para ahli statistik daripada orang-orang ML.
Idenya pada dasarnya adalah ini. Misalkan adalah mekanisme penghasil data sejati, dan minatnya pada fungsi tertentu Ψ ( P 0 ) . Terkait dengan fungsi seperti itu seringkali merupakan persamaan estimasiP0 Ψ(P0)
dan seterusnya sampai kita mendapatkan sesuatu, dalam batas, yang memenuhi persamaan estimasi efisien.
sumber