Perkiraan Fungsi Universal

15

Diketahui melalui teorema aproksimasi universal bahwa jaringan saraf dengan bahkan satu lapisan tersembunyi dan fungsi aktivasi yang berubah-ubah dapat mendekati setiap fungsi kontinu.

Apa model lain yang ada yang juga merupakan penduga fungsi universal

Memilih
sumber
Saya bergabung dengan situs ini untuk menjawab pertanyaan ini dan beberapa jawaban.
Prasad Raghavendra

Jawaban:

20

Ini diperlakukan secara luas dalam literatur statistik, di bawah topik regresi. Dua referensi standar di sini adalah buku Wasserman "semua statistik nonparametrik" dan "pengantar untuk estimasi nonparametrik Tsybakov". Saya akan berbicara secara singkat tentang beberapa hal standar, dan mencoba memberikan petunjuk di luar statistik (ini adalah topik umum dan bidang yang berbeda memiliki budaya yang berbeda: buktikan berbagai jenis teorema, buat asumsi yang berbeda).

  1. (Kernel regressor, kadang-kadang disebut Nadaraya-Watson Estimator.) Di sini Anda menulis fungsi pada titik mana saja sebagai kombinasi tertimbang dari nilai-nilai terdekat. Lebih konkretnya, karena ini ada dalam literatur statistik, Anda biasanya mengira Anda memiliki beberapa contoh diambil dari beberapa distribusi, dan memperbaiki beberapa kernel (dapat memikirkan ini sebagai sebuah gaussian, tetapi mean nol adalah yang paling penting), dan tulis K f ( x ) : = Σ i f ( x i ) ( K ( c n ( x - x i ) )((xsaya,f(xsaya)))saya=1nK manacn(Anda lebih sensitif terhadap jarak kecil saatnmeningkat). Jaminannyaadalah, sepertin, kriteria probilistik dari distorsi (harapan norma-norma, probabilitas tinggi, apa pun) menjadi nol. (Tidak peduli apa yangtampak sepertiK--- itu lebih penting bagaimana Anda memilihcn.)

    f^(x): =sayaf(xsaya)(K(cn(x-xsaya))jK(cn(x-xj))),
    cnnnKcn
  2. L.2f^f. Untuk memahami perbedaan pendekatan di sini, makalah yang rapi adalah "pendekatan aproksimasi fungsi yang seragam dengan basis acak" dari Rahimi & Recht. Mungkin saya harus mengatakan bahwa kakek buyut dari semua ini adalah ekspansi Fourier; ada banyak materi bagus tentang ini dalam buku Mallat tentang Wavelet.

  3. (Metode pohon.) Cara lain adalah dengan melihat fungsi sebagai pohon; di setiap level, Anda bekerja dengan beberapa partisi domain, dan mengembalikan, misalnya, titik rata-rata. (Setiap pemangkasan pohon juga memberikan partisi.) Pada batasnya, kehalusan partisi ini tidak akan lagi mendiskreditkan fungsi, dan Anda telah merekonstruksi dengan tepat. Cara terbaik untuk memilih partisi ini adalah masalah yang sulit. (Anda dapat mencarinya di bawah "pohon regresi".)

  4. (Metode polinomial; lihat juga splines dan teknik interpolasi lainnya.) Dengan teorema Taylor, Anda tahu bahwa Anda dapat mendekati secara sewenang-wenang terhadap fungsi yang berperilaku baik. Hal ini mungkin tampak seperti sebuah pendekatan yang sangat dasar (yaitu, cukup gunakan Lagrange interpolasi polinomial), tetapi di mana hal-hal yang menarik adalah dalam memutuskan manamenunjuk ke interpolasi. Ini diselidiki secara luas dalam konteks integrasi numerik; Anda dapat menemukan beberapa matematika luar biasa di bawah topik "clenshaw-curtis quadrature" dan "gaussian quadrature". Saya melemparkan ini di sini karena jenis asumsi dan jaminan di sini sangat berbeda dari apa yang muncul di atas. Saya suka bidang ini, tetapi metode ini sangat menderita dari kutukan dimensi, setidaknya saya pikir ini sebabnya mereka kurang dibahas daripada dulu (jika Anda melakukan integrasi numerik dengan Mathematica, saya pikir itu quadrature untuk domain univariat, tetapi teknik pengambilan sampel untuk domain multivarian).

Mempertimbangkan berbagai batasan untuk kelas fungsi Anda, Anda dapat membuat contoh di atas untuk mendapatkan semua jenis skenario yang banyak digunakan. Misalnya, dengan fungsi bernilai boolean, thresholding (1.) akan terlihat sangat mirip dengan estimator tetangga terdekat, atau SVM dengan beberapa kernel lokal (gaussian). Banyak hal di atas menderita kutukan dimensi (batas menunjukkan ketergantungan eksponensial pada dimensi). Dalam pembelajaran mesin Anda menyiasati ini baik dengan secara eksplisit membatasi kelas Anda ke beberapa keluarga (yaitu, "metode parametrik), atau dengan kendala implisit, biasanya sesuatu yang menghubungkan kualitas aproksimasi dengan kompleksitas fungsi target (yaitu, analog dari asumsi belajar yang lemah dalam meningkatkan).

f:RdR

f(x)=j=02dhj(saya=1dgj,saya(xsaya)),
gj,saya:RRhj:RRghΘ(d2)

(Anda hanya bertanya tentang kelas fungsi, tapi saya pikir Anda akan tertarik pada metode juga .. jika tidak .. oops)

matus
sumber
"Dari tahun 1957!", Apakah itu eksponensial tahun 1957, jadi dari masa depan ?! :)
nbro