Simulasikan dari Kernel Density Estimate (empiris PDF)

Saya memiliki vektor Xdari N=900pengamatan yang terbaik dimodelkan oleh estimator bandwidth yang global yang kepadatan Kernel (model parametrik, termasuk model campuran yang dinamis, ternyata tidak menjadi cocok baik):

masukkan deskripsi gambar di sini

Sekarang, saya ingin mensimulasikan dari KDE ini. Saya tahu ini bisa dicapai dengan bootstrap.

Dalam R, semuanya bermuara pada baris kode sederhana ini (yang hampir merupakan kode semu): di x.sim = mean(X) + { sample(X, replace = TRUE) - mean(X) + bw * rnorm(N) } / sqrt{ 1 + bw^2 * varkern/var(X) }mana bootstrap yang dihaluskan dengan koreksi varians diimplementasikan dan varkernmerupakan varian dari fungsi Kernel yang dipilih (misalnya, 1 untuk Gaussian Kernel).

Apa yang kami dapatkan dengan 500 pengulangan adalah sebagai berikut:

masukkan deskripsi gambar di sini

Ini bekerja, tetapi saya kesulitan memahami bagaimana pengamatan acak (dengan beberapa suara tambahan) adalah hal yang sama dengan mensimulasikan dari distribusi probabilitas? (distribusinya di sini adalah KDE), seperti dengan Monte Carlo standar. Selain itu, apakah bootstrap satu-satunya cara untuk mensimulasikan dari KDE?

Sunting: silakan lihat jawaban saya di bawah ini untuk informasi lebih lanjut tentang bootstrap yang dihaluskan dengan koreksi varians.

distributions sampling bootstrap simulation kernel-smoothing Antoine
sumber

Eksperimen bootstrap memberi Anda indikasi variabilitas estimasi kepadatan kernel. Ini tidak ada hubungannya dengan simulasi dari kernel, seperti yang lebih baik dijelaskan oleh Dougal di bawah ini.

Xi'an,

ya, itu cukup variabilitas. Apakah Anda pikir KDE akan menjadi pendekatan yang lebih baik daripada model campuran dinamis di sini?

Antoine

jadi, saya mengerti bahwa bootstrap yang halus seperti yang ditunjukkan di atas tidak setara dengan simulasi dari Kernel. Namun, ia mencapai tujuan yang sama: mensimulasikan dari PDF empiris, bukan? Saya akan mencoba memposting hasil strategi yang diusulkan oleh Douglas di bawah ini (disimulasikan langsung dari KDE) untuk dibandingkan ketika saya punya waktu.

Antoine

Simulasi dari estimator kernel tidak mengarah pada simulasi dari cdf empiris dan tidak ada definisi yang jelas tentang pdf empiris, antara histogram dan estimasi kernel, yang semuanya memerlukan kalibrasi bandwidth.

Xi'an

Saya tidak setuju dengan komentar pertama Anda, silakan lihat jawaban saya di bawah ini.

Antoine

Jawaban:

Berikut ini adalah algoritma untuk mengambil sampel dari campuran acak $f(x) = \frac1N \sum_{i=1}^N f_i(x)$ :

Pilih komponen campuran $i$ seragam secara acak.
Sampel dari $f_i$ .

Harus jelas bahwa ini menghasilkan sampel yang tepat.

Perkiraan kepadatan kernel Gaussian adalah campuran $\frac1N \sum_{i=1}^N \mathcal{N}(x; x_i, h^2)$ . Jadi Anda bisa mengambil sampel ukuran $N$ dengan memilih banyak $x_i$ dan menambahkan noise normal dengan nol mean dan varians $h^2$ untuk itu.

Cuplikan kode Anda memilih sekelompok $x_i$ s, tapi kemudian melakukan sesuatu yang sedikit berbeda:

berubah $x_i$ untuk $\hat\mu + \frac{x_i - \hat\mu}{\sqrt{1 + h^2 / \hat\sigma^2}}$
menambahkan nol-mean noise normal dengan varian $\frac{h^2}{1 + h^2/\hat\sigma^2} = \frac{1}{\frac{1}{h^2} + \frac{1}{\hat\sigma^2}}$ , rata-rata harmonik dari $h^2$ dan $\sigma^2$ .

Kita dapat melihat bahwa nilai sampel yang diharapkan menurut prosedur ini adalah

\frac{1}{N} \sum_{i = 1}^{N} \frac{x_{i}}{\sqrt{1 + h^{2} / {\hat{σ}}^{2}}} + \hat{μ} - \frac{1}{\sqrt{1 + h^{2} / {\hat{σ}}^{2}}} \hat{μ} = \hat{μ}

$\frac1N \sum_{i=1}^N \frac{x_i}{\sqrt{1 + h^2/\hat\sigma^2}} + \hat\mu - \frac{1}{\sqrt{1 + h^2 /\hat\sigma^2}} \hat\mu = \hat\mu$ sejak

\hat{μ} = \frac{1}{N} \sum_{i = 1}^{N} x_{i}

$\hat\mu = \frac1N \sum_{i=1}^N x_i$ .

Saya pikir distribusi sampel tidak sama.

Dougal
sumber

terima kasih atas jawaban yang bagus ini. Saat ini saya sedang mengeksplorasi pendekatan ini. Apakah Anda ingin melihat utas lainnya yang terbaru (dan agak terkait) ini ? Terima kasih sebelumnya.

Antoine

Untuk menghilangkan kebingungan tentang apakah mungkin untuk menarik nilai dari KDE menggunakan pendekatan bootstrap, itu mungkin . Bootstrap tidak terbatas pada estimasi interval variabilitas.

Di bawah ini adalah bootstrap yang diperhalus dengan algoritma koreksi varians yang menghasilkan nilai sintetis $Y_{i}'s$ dari KDE $K$ jendela $h$ . Itu berasal dari buku ini oleh Silverman, lihat halaman 25 dari dokumen ini , bagian 6.4.1 "Simulasi dari perkiraan kepadatan". Seperti dicatat dalam buku ini, algoritma ini memungkinkan untuk menemukan realisasi independen dari KDE $\hat{y}$ , tanpa perlu tahu $\hat{y}$ secara eksplisit:

Untuk menghasilkan nilai sintetis $Y$ (dari set pelatihan $\big\{X_{1},...X_{n}\big\}$ ):

Langkah 1: Pilih $i$ seragam dengan penggantian dari $\big\{1,...,n\big\}$ ,
Langkah 2: Contoh $\epsilon$ dari $K$ (Yaitu, dari distribusi Normal jika $K$ adalah Gaussian),
Langkah 3: Tetapkan $Y=\bar{X}+(X_{i}-\bar{X}+h.\epsilon)/\sqrt{1+h^{2}{\sigma_{K}}^2/{\sigma_{X}}^2}$ .

Dimana $\bar{X}$ dan ${\sigma_{X}}^2$ adalah mean dan varians sampel, dan ${\sigma_{K}}^2$ adalah varian dari $K$ (Yaitu, 1 untuk Gaussian $K$ ). Seperti dijelaskan oleh Dougal, nilai yang diharapkan dari realisasi adalah $\bar{X}$ . Berkat koreksi varians, variansnya adalah ${\sigma_{X}}^2$ (di sisi lain, bootstrap yang dihaluskan tanpa koreksi varians, di mana langkah 3 sederhana $Y=X_{i}+h.\epsilon$ , kembangkan varians).

Cuplikan kode R dalam pertanyaan saya di atas benar-benar mengikuti algoritme ini.

Keuntungan dari bootstrap yang dihaluskan di atas bootstrap adalah:

"fitur palsu" dalam data tidak direproduksi karena nilai yang berbeda dari yang ada dalam sampel dapat dihasilkan,
nilai-nilai di luar maks / menit pengamatan dapat dihasilkan.

Antoine
sumber