Ketika memvisualisasikan data satu dimensi, sudah biasa menggunakan teknik Kernel Density Estimation untuk menjelaskan lebar bin yang dipilih secara tidak tepat.
Ketika dataset satu dimensi saya memiliki ketidakpastian pengukuran, apakah ada cara standar untuk memasukkan informasi ini?
Misalnya (dan maafkan saya jika pemahaman saya naif) KDE menggabungkan profil Gaussian dengan fungsi delta pengamatan. Kernel Gaussian ini dibagi antara masing-masing lokasi, tetapi parameter Gaussian dapat bervariasi agar sesuai dengan ketidakpastian pengukuran. Apakah ada cara standar untuk melakukan ini? Saya berharap untuk mencerminkan nilai yang tidak pasti dengan kernel yang luas.
Saya sudah menerapkan ini hanya dengan Python, tapi saya tidak tahu metode atau fungsi standar untuk melakukan ini. Apakah ada masalah dalam teknik ini? Saya perhatikan bahwa ini memberikan beberapa grafik yang tampak aneh! Sebagai contoh
Dalam hal ini nilai-nilai rendah memiliki ketidakpastian yang lebih besar sehingga cenderung memberikan kernel datar yang luas, sedangkan KDE menimbang-nimbang nilai-nilai rendah (dan tidak pasti).
sumber
Jawaban:
Masuk akal untuk memvariasikan lebar, tetapi tidak harus mencocokkan lebar kernel dengan ketidakpastian.
Pertimbangkan tujuan bandwidth ketika berhadapan dengan variabel acak di mana pengamatan pada dasarnya tidak memiliki ketidakpastian (yaitu di mana Anda dapat mengamati mereka cukup dekat dengan tepat) - meskipun demikian, kde tidak akan menggunakan nol bandwidth, karena bandwidth berhubungan dengan variabilitas dalam distribusi, daripada ketidakpastian dalam pengamatan (yaitu variasi antara pengamatan, bukan ketidakpastian dalam pengamatan).
Apa yang Anda miliki pada dasarnya adalah sumber variasi tambahan (atas kasus 'tidak ada pengamatan-ketidakpastian') yang berbeda untuk setiap pengamatan.
Cara alternatif untuk melihat masalah adalah dengan memperlakukan setiap pengamatan sebagai kernel kecil (seperti yang Anda lakukan, yang akan mewakili di mana pengamatan mungkin dilakukan), tetapi menggabungkan kernel (kde-) biasa (biasanya lebar tetap, tetapi tidak harus) dengan kernel observasi-ketidakpastian dan kemudian melakukan estimasi kepadatan gabungan. (Saya percaya itu sebenarnya hasil yang sama dengan apa yang saya sarankan di atas.)
sumber
Saya akan menerapkan penaksir kerapatan kernel bandwidth variabel, mis. Pemilih bandwidth lokal untuk makalah pendugaan kerapatan kernel dekonvolusi mencoba membangun jendela adaptif KDE ketika distribusi kesalahan pengukuran diketahui. Anda menyatakan bahwa Anda mengetahui varians kesalahan, jadi pendekatan ini harus berlaku dalam kasus Anda. Berikut ini makalah lain tentang pendekatan serupa dengan sampel yang terkontaminasi: PEMILIHAN BOOTSTRAP BANDWIDTH DI ESTIMASI DENSITAS KERNEL DARI SAMPEL TERTAMINASI
sumber
Anda mungkin ingin membaca bab 6 dalam "Estimasi Kepadatan Multivariat: Teori, Praktik, dan Visualisasi" oleh David W. Scott, 1992, Wiley.
sumber
Sebenarnya, saya pikir metode yang Anda usulkan disebut Probability Density Plot (PDP) seperti yang digunakan dalam Geo-science secara luas, lihat sebuah makalah di sini: https://www.sciencedirect.com/science/article/pii/S0009254112001878
Namun, ada kekurangan seperti yang disebutkan dalam makalah di atas. Seperti jika kesalahan yang diukur kecil, akan ada lonjakan dalam PDF yang Anda dapatkan pada akhirnya. Tetapi kita juga dapat memuluskan PDP seperti cara KDE, seperti yang disebutkan @ Glen_b
sumber