Estimasi kepadatan kernel menggabungkan ketidakpastian

12

Ketika memvisualisasikan data satu dimensi, sudah biasa menggunakan teknik Kernel Density Estimation untuk menjelaskan lebar bin yang dipilih secara tidak tepat.

Ketika dataset satu dimensi saya memiliki ketidakpastian pengukuran, apakah ada cara standar untuk memasukkan informasi ini?

Misalnya (dan maafkan saya jika pemahaman saya naif) KDE menggabungkan profil Gaussian dengan fungsi delta pengamatan. Kernel Gaussian ini dibagi antara masing-masing lokasi, tetapi parameter Gaussian dapat bervariasi agar sesuai dengan ketidakpastian pengukuran. Apakah ada cara standar untuk melakukan ini? Saya berharap untuk mencerminkan nilai yang tidak pasti dengan kernel yang luas. $\sigma$

Saya sudah menerapkan ini hanya dengan Python, tapi saya tidak tahu metode atau fungsi standar untuk melakukan ini. Apakah ada masalah dalam teknik ini? Saya perhatikan bahwa ini memberikan beberapa grafik yang tampak aneh! Sebagai contoh

Perbandingan KDE

Dalam hal ini nilai-nilai rendah memiliki ketidakpastian yang lebih besar sehingga cenderung memberikan kernel datar yang luas, sedangkan KDE menimbang-nimbang nilai-nilai rendah (dan tidak pasti).

uncertainty kde kernel-smoothing Simon Walker
sumber

Apakah Anda mengatakan kurva merah adalah gaussians lebar variabel dan kurva hijau adalah jumlah mereka? (Itu tidak terlihat masuk akal dari grafik ini.)

whuber

Tahukah Anda apa kesalahan pengukuran untuk setiap pengamatan?

Aksakal

@whuber kurva merah adalah variabel lebar gaussians dan kurva biru adalah jumlah mereka. Kurva hijau adalah KDE dengan lebar konstan, maaf untuk kebingungan

Simon Walker

@Aksakal ya, setiap pengukuran memiliki ketidakpastian yang berbeda

Simon Walker

Masalah sampingan, tapi itu bukan definisi estimasi kepadatan kernel yang Anda gunakan kernel Gaussian. Anda dapat menggunakan kernel apa pun yang Anda sukai untuk diintegrasikan ke 1, meskipun beberapa kernel lebih masuk akal atau berguna daripada yang lain ....

Nick Cox

6

Masuk akal untuk memvariasikan lebar, tetapi tidak harus mencocokkan lebar kernel dengan ketidakpastian.

Pertimbangkan tujuan bandwidth ketika berhadapan dengan variabel acak di mana pengamatan pada dasarnya tidak memiliki ketidakpastian (yaitu di mana Anda dapat mengamati mereka cukup dekat dengan tepat) - meskipun demikian, kde tidak akan menggunakan nol bandwidth, karena bandwidth berhubungan dengan variabilitas dalam distribusi, daripada ketidakpastian dalam pengamatan (yaitu variasi antara pengamatan, bukan ketidakpastian dalam pengamatan).

Apa yang Anda miliki pada dasarnya adalah sumber variasi tambahan (atas kasus 'tidak ada pengamatan-ketidakpastian') yang berbeda untuk setiap pengamatan.

$\sigma_i$

Cara alternatif untuk melihat masalah adalah dengan memperlakukan setiap pengamatan sebagai kernel kecil (seperti yang Anda lakukan, yang akan mewakili di mana pengamatan mungkin dilakukan), tetapi menggabungkan kernel (kde-) biasa (biasanya lebar tetap, tetapi tidak harus) dengan kernel observasi-ketidakpastian dan kemudian melakukan estimasi kepadatan gabungan. (Saya percaya itu sebenarnya hasil yang sama dengan apa yang saya sarankan di atas.)

Glen_b -Reinstate Monica
sumber

2

Saya akan menerapkan penaksir kerapatan kernel bandwidth variabel, mis. Pemilih bandwidth lokal untuk makalah pendugaan kerapatan kernel dekonvolusi mencoba membangun jendela adaptif KDE ketika distribusi kesalahan pengukuran diketahui. Anda menyatakan bahwa Anda mengetahui varians kesalahan, jadi pendekatan ini harus berlaku dalam kasus Anda. Berikut ini makalah lain tentang pendekatan serupa dengan sampel yang terkontaminasi: PEMILIHAN BOOTSTRAP BANDWIDTH DI ESTIMASI DENSITAS KERNEL DARI SAMPEL TERTAMINASI

Aksakal
sumber

Tautan pertama Anda membawa saya ke ms.unimelb.edu.au , Ini bukan korannya. Saya pikir maksud Anda link.springer.com/article/10.1007/s11222-011-9247-y

Adi Ro

Solusi ini terlihat hebat! Anda tahu kode pelaksana ini?

Adi Ro

@AdiRo, saya memperbaiki tautan yang rusak. Saya tidak punya kode

Aksakal

0

Anda mungkin ingin membaca bab 6 dalam "Estimasi Kepadatan Multivariat: Teori, Praktik, dan Visualisasi" oleh David W. Scott, 1992, Wiley.

h = (4 / 3)^{1 / 5} σ n^{1 / 5} (6.17)

$h = (4/3)^{1/5}\sigma n^{1/5} \qquad (6.17)$

σ

$\sigma$

n

$n$

h

$h$

σ

$\sigma$

\hat{f} (x) = \frac{1}{n h} \sum_{i = 1}^{n} K (\frac{x - x_{i}}{h})

$\hat{f}(x) = \frac{1}{nh} \sum_{i=1}^n K\left(\frac{x-x_i}{h}\right)$

K (\cdot)

$K(\cdot)$

pengguna29652
sumber

0

Sebenarnya, saya pikir metode yang Anda usulkan disebut Probability Density Plot (PDP) seperti yang digunakan dalam Geo-science secara luas, lihat sebuah makalah di sini: https://www.sciencedirect.com/science/article/pii/S0009254112001878

Namun, ada kekurangan seperti yang disebutkan dalam makalah di atas. Seperti jika kesalahan yang diukur kecil, akan ada lonjakan dalam PDF yang Anda dapatkan pada akhirnya. Tetapi kita juga dapat memuluskan PDP seperti cara KDE, seperti yang disebutkan @ Glen_b

CyTex
sumber

Estimasi kepadatan kernel menggabungkan ketidakpastian

Jawaban: