Mengapa model proses Gaussian disebut non-parametrik?

26

Saya sedikit bingung. Mengapa proses Gaussian disebut model non parametrik?

Mereka mengasumsikan bahwa nilai-nilai fungsional, atau bagian dari mereka, memiliki Gaussian prior dengan fungsi rata-rata 0 dan kovarian yang diberikan sebagai fungsi kernel. Fungsi-fungsi kernel ini sendiri memiliki beberapa parameter (yaitu, hiperparameter).

Jadi mengapa mereka disebut model non parametrik?

pengguna34790
sumber
1
Saya tahu beberapa definisi "proses Gaussian," jadi tidak jelas apa pertanyaan Anda sebenarnya. Tetapi ketika Anda mempertimbangkan bagaimana menjelaskannya, tanyakan pada diri sendiri ini: persis bagaimana Anda akan menentukan proses Gaussian yang Anda pikirkan? Jika Anda tidak dapat melakukannya dengan cara alami dengan sejumlah parameter nyata, maka itu harus dianggap nonparametrik.
whuber
@whuber. AFAIK, parameter utama dari proses gaussian adalah fungsi rata-rata dan kovarian. Tetapi karena kami terus menambahkan poin data, mereka terus meningkat. Jadi terus meningkat. Apakah itu sebabnya proses gaussian disebut sebagai non parametrik?
user34790
@whuber Jika saya memiliki jutaan poin data pelatihan, maka GP f ~ N (m, k) saya akan menjadi distribusi gaussian multivariat jutaan dimensi. Bukankah itu terlalu besar? Maksud saya saat data pelatihan baru datang, data itu menjadi semakin besar. Bukankah itu menimbulkan masalah komputasi?
user34790
1
"Parametrik" versus "non-parametrik" adalah istilah yang tidak berlaku untuk proses tertentu: mereka berlaku untuk seluruh rangkaian proses yang dapat disesuaikan dengan data. Meskipun saya masih tidak tahu apa yang ada dalam pikiran keluarga Anda, kedengarannya seperti meskipun jumlah parameter mungkin terbatas dalam keadaan apa pun, tidak ada batasan untuk jumlah parameter yang mungkin muncul di antara anggota keluarga : ergo, masalahnya bersifat non-parametrik.
whuber

Jawaban:

20

Saya akan mengawali ini dengan mengatakan bahwa tidak selalu jelas apa yang dimaksud dengan "nonparametric" atau "semiparametric" dll. Dalam komentar, sepertinya whuber memiliki beberapa definisi formal dalam pikiran (mungkin sesuatu seperti memilih model dari beberapa keluarga mana adalah dimensi tak terbatas), tetapi saya akan menjadi sangat informal. Beberapa mungkin berpendapat bahwa metode nonparametrik adalah metode di mana jumlah parameter efektif yang Anda gunakan meningkat dengan data. Saya pikir ada video di videolectures.net di mana (saya pikir) Peter Orbanz memberikan empat atau lima cara berbeda tentang bagaimana kita dapat mendefinisikan "nonparametrik." { M θ : θ Θ } ΘMθ{Mθ:θΘ}Θ

Karena saya pikir saya tahu hal-hal apa yang ada dalam pikiran Anda, untuk kesederhanaan saya akan berasumsi bahwa Anda berbicara tentang menggunakan proses Gaussian untuk regresi, dengan cara yang khas: kami memiliki data pelatihan dan kami tertarik untuk memodelkan mean bersyarat . Kami menulis dan mungkin kami sangat berani untuk menganggap bahwa adalah iid dan didistribusikan secara normal, . akan menjadi satu dimensi, tetapi semuanya ke dimensi yang lebih tinggi.E ( Y | X = x ) : = f ( x ) Y i = f ( X i ) + ϵ i ϵ i ϵ iiN ( 0 , σ 2 ) X i(Yi,Xi),i=1,...,nE(Y|X=x):=f(x)

Yi=f(Xi)+ϵi
ϵiϵiN(0,σ2)Xi

Jika kita dapat mengambil nilai dalam sebuah kontinum maka dapat dianggap sebagai parameter dari dimensi tak terhingga (tak terhitung). Jadi, dalam arti bahwa kami memperkirakan parameter dimensi tak terbatas , masalah kami adalah nonparametrik. Memang benar bahwa pendekatan Bayesian memiliki beberapa parameter mengambang di sana-sini. Tapi sungguh, ini disebut nonparametric karena kami memperkirakan sesuatu dengan dimensi tak terbatas. Priors GP yang kami gunakan menetapkan massa ke setiap lingkungan dari setiap fungsi kontinu, sehingga mereka dapat memperkirakan fungsi kontinu dengan sewenang-wenang. f ( )Xif()

Hal-hal dalam fungsi kovarians memainkan peran yang mirip dengan parameter smoothing di estimator frequentist biasa - agar masalah yang tidak benar-benar putus asa kita harus mengasumsikan bahwa ada beberapa struktur yang kita harapkan untuk melihat pameran. Bayesians mencapai ini dengan menggunakan prior pada ruang fungsi kontinu dalam bentuk proses Gaussian. Dari perspektif Bayesian, kami menyandikan kepercayaan tentang dengan mengasumsikan diambil dari seorang dokter umum dengan fungsi kovarians ini-dan-itu. Sebelumnya secara efektif menghukum estimasi karena terlalu rumit.f f fffff

Edit untuk masalah komputasi

Sebagian besar (semua?) Barang ini ada di buku Proses Gaussian oleh Rasmussen dan Williams.

Masalah komputasi rumit untuk dokter. Jika kita melanjutkan secara niavely kita akan membutuhkan memori ukuran hanya untuk menahan matriks kovarians dan (ternyata operasi untuk membalikkannya. Ada beberapa hal yang dapat kita lakukan untuk membuat semuanya lebih layak. Satu opsi adalah untuk mencatat bahwa pria yang benar-benar kita butuhkan adalah , solusi untuk mana adalah matriks kovarians. Metode gradien konjugasi memecahkan ini tepat dalam perhitungan , tetapi jika kita memuaskan diri kita dengan solusi perkiraan kita dapat mengakhiri algoritma gradien konjugat setelah langkah dan melakukannya diO ( N 3 ) v ( K + σ 2 I ) v = Y K O ( N 3 ) k O ( k N 2 ) KO(N2)O(N3)v(K+σ2I)v=YKO(N3)kO(kN2)perhitungan. Kita juga tidak perlu menyimpan seluruh matriks sekaligus.K

Jadi kami telah pindah dari ke , tetapi ini masih berskala empat dalam , jadi kami mungkin tidak bahagia. Hal terbaik berikutnya adalah bekerja sebagai gantinya dengan subset dari data, katakanlah ukuran mana membalikkan dan menyimpan matriks tidak terlalu buruk. Tentu saja, kami tidak ingin membuang data yang tersisa. Subset dari pendekatan regressor mencatat bahwa kita dapat menurunkan rata-rata posterior GP kita sebagai regresi data pada fungsi basis data- ditentukan oleh fungsi kovarians kita; jadi kita membuang semuanya kecuali dari perhitungan ini dan kita menuju perhitungan .O(N3)O(kN2)Nmm×mYNmO(m2N)

Ada beberapa opsi potensial lainnya. Kita bisa membangun pendekatan peringkat rendah ke , dan mengatur mana adalah dan peringkat ; itu ternyata pembalik dalam hal ini dapat dilakukan dengan bukan pembalik . Pilihan lain adalah memilih fungsi kovarians menjadi jarang dan menggunakan metode gradien konjugat - jika matriks kovarians sangat jarang maka ini dapat mempercepat perhitungan secara substansial.K = Q Q T Q n × q q K + σ 2 I Q T Q + σ 2 IKK=QQTQn×qqK+σ2IQTQ+σ2I

orang
sumber
8

Secara umum, "nonparametrik" dalam Bayesian nonparametrics mengacu pada model dengan jumlah tak terbatas (potensial) parameter. Ada banyak tutorial dan ceramah yang sangat bagus tentang subjek di videolectures.net ( seperti ini ) yang memberikan tinjauan bagus tentang kelas model ini.

Secara khusus, Proses Gaussian (GP) dianggap nonparametrik karena GP mewakili fungsi (yaitu vektor dimensi tak terbatas). Ketika jumlah titik data meningkat ((x, f (x)) berpasangan), demikian juga jumlah 'parameter' model (membatasi bentuk fungsi). Tidak seperti model parametrik, di mana jumlah parameter tetap tetap sehubungan dengan ukuran data, dalam model nonparametrik, jumlah parameter tumbuh dengan jumlah titik data.

Nick
sumber
Ini persis seperti yang saya asumsikan. Jadi anggapan saya benar saya kira. Tetapi pertanyaan saya adalah apakah saya memiliki jutaan poin (data yang diamati). Maka f saya juga akan menjadi jutaan dimensi. Jadi saya tidak akan memiliki masalah komputasi. Selanjutnya matriks kovarians saya juga akan berukuran 1millionx1million. Jadi apa yang harus saya lakukan dalam kasus ini?
user34790
@ user34790 ya, Anda akan memiliki masalah komputasi. Tantangan komputasi adalah masalah yang cukup besar bagi dokter. Rasmussen dan Williams memiliki buku tentang dokter dengan seluruh bab yang didedikasikan untuk ini, dan jika Anda cukup keras di Google Anda dapat menemukannya online secara gratis. Lihat posting saya yang diperbarui untuk beberapa detail minimal.
pria
1

Parameter yang Anda sebut sebagai hiperparameter bukan parameter yang termotivasi secara fisik dan karenanya namanya. Mereka digunakan hanya untuk parameterisasi fungsi kernel. Untuk memberikan contoh, dalam kernel Gaussian:

K(xi,xj)=h2exp((xixj)2λ2)

yang dan adalah hyperparameters tetapi mereka tidak berhubungan dengan jumlah seperti suhu, konsentrasi polusi, dll, yang mungkin Anda alami dalam model parametrik benar.hλ

Masalah ini dibahas dalam kuliah ini juga, mungkin membantu untuk mendapatkan pemahaman yang lebih baik.

camillejr
sumber