Jika lebar kernel variabel sering baik untuk regresi kernel, mengapa mereka umumnya tidak baik untuk estimasi kepadatan kernel?

17

Pertanyaan ini didorong oleh diskusi di tempat lain .

Kernel variabel sering digunakan dalam regresi lokal. Sebagai contoh, loess banyak digunakan dan berfungsi dengan baik sebagai regresi yang lebih lancar, dan didasarkan pada kernel dengan lebar variabel yang beradaptasi dengan data sparsity.

Di sisi lain, kernel variabel biasanya dianggap menyebabkan penaksir yang buruk dalam estimasi kepadatan kernel (lihat Terrell dan Scott, 1992 ).

Apakah ada alasan intuitif mengapa mereka akan bekerja dengan baik untuk regresi tetapi tidak untuk estimasi kepadatan?

Rob Hyndman
sumber
2
Anda menulis "Di sisi lain, kernel variabel biasanya dianggap mengarah ke penaksir miskin dalam estimasi kepadatan kernel", apa bagian dari makalah yang Anda sebutkan yang membuat Anda percaya itu? Saya punya banyak referensi yang masuk derection lain, lihat misalnya referensi yang disebutkan dalam makalah ini: arxiv.org/PS_cache/arxiv/pdf/1009/1009.1016v1.pdf
robin girard
1
Abstrak Terrell dan Scott merangkumnya dengan baik: "Perkiraan tetangga terdekat di semua versi berkinerja buruk dalam satu dan dua dimensi". Mereka tampaknya hanya menemukan banyak keuntungan dalam estimasi kepadatan multivariat.
Rob Hyndman
3
"Tetangga terdekat" bukan satu-satunya kernel variabel. Makalah yang saya sebutkan menggunakan alat lain seperti algoritma Lepskii. Saya akan membaca makalah AOS tetapi karena kinerja tetangga terdekat akan berkurang dengan dimensi, saya merasa aneh bahwa peningkatan dimensi memberi keuntungan bagi penaksir "sangat non-parametrik" (Jika kami mengakui bandwidth konstan kurang parametrik daripada berbagai bandwith). Dalam situasi seperti ini, kasus evaluasi yang digunakan sering menentukan hasilnya ...
robin girard
@Robin Girard:> * merasa aneh bahwa meningkatkan dimensi memberikan keuntungan bagi penaksir "sangat non-parametrik" (Jika kita mengakui bandwidth konstan lebih non parametrik daripada berbagai bandwidth) * apakah ada kesalahan ketik dalam kalimat ini? Kalau tidak, Anda tampaknya akan setuju dengan penulis, setidaknya pada tingkat intuitif. Terima kasih untuk konfirmasi / koreksi.
user603
@ kwak terima kasih untuk memperhatikan itu! ini salah ketik: Saya ingin mengatakan bandwidth konstan kurang NP ... Saya tidak dapat mengubah komentar saya :( maaf tentang itu.
robin girard

Jawaban:

2

Tampaknya ada dua pertanyaan berbeda di sini, yang akan saya coba bagi:

1) bagaimana KS, perataan kernel, berbeda dengan KDE, estimasi kepadatan kernel? Nah, katakan saya punya estimator / lebih halus / interpolator

est( xi, fi -> gridj, estj )

dan kebetulan juga mengetahui densitas "nyata" () di xi. Maka menjalankan est( x, densityf ) harus memberikan estimasi densityf (): a KDE. Mungkin saja KS dan KDE dievaluasi secara berbeda - kriteria kelancaran yang berbeda, norma yang berbeda - tetapi saya tidak melihat perbedaan mendasar. Apa yang saya lewatkan?

2) Bagaimana dimensi memengaruhi estimasi atau perataan, secara intuitif ? Ini contoh mainan, hanya untuk membantu intuisi. Pertimbangkan kotak N = 10.000 poin dalam kotak seragam, dan jendela, garis atau kotak atau kubus, dari W = 64 poin di dalamnya:

                1d          2d          3d          4d
---------------------------------------------------------------
data            10000       100x100     22x22x22    10x10x10x10
side            10000       100         22          10
window          64          8x8         4x4x4       2.8^4
side ratio      .64 %       8 %         19 %        28 %
dist to win     5000        47          13          7

Di sini "rasio sisi" adalah sisi jendela / sisi kotak, dan "dist to win" adalah perkiraan kasar dari jarak rata-rata titik acak dalam kotak ke jendela yang ditempatkan secara acak.

Apakah ini masuk akal sama sekali? (Gambar atau applet akan sangat membantu: siapa pun?)

Idenya adalah bahwa jendela ukuran tetap dalam kotak ukuran tetap memiliki kedekatan yang sangat berbeda dengan kotak lainnya, dalam 1d 2d 3d 4d. Ini untuk kisi yang seragam; mungkin ketergantungan yang kuat pada dimensi membawa ke distribusi lain, mungkin tidak. Bagaimanapun, ini terlihat seperti efek umum yang kuat, suatu aspek dari kutukan dimensi.

denis
sumber
0

Estimasi kepadatan kernel berarti integrasi melalui jendela lokal (fuzzy), dan perataan kernel berarti rata-rata atas jendela lokal (fuzzy).

Pemulusan kernel: y~(x)1ρ(x)K(||x-xsaya||)ysaya.

Estimasi kepadatan kernel: ρ(x)K(||x-xsaya||).

Bagaimana ini sama?

Pertimbangkan sampel fungsi bernilai boolean, yaitu satu set yang berisi "sampel benar" (masing-masing dengan nilai satuan) dan "sampel salah" (masing-masing dengan nilai nol). Dengan asumsi kerapatan sampel keseluruhan adalah konstan (seperti kisi), rata-rata lokal dari fungsi ini identik proporsional dengan kerapatan lokal (parsial) dari subset bernilai sebenarnya. (Sampel palsu memungkinkan kita untuk terus mengabaikan penyebut persamaan penghalusan, sambil menambahkan nol syarat untuk penjumlahan, sehingga menyederhanakan ke dalam persamaan estimasi kerapatan.)

Demikian pula jika sampel Anda direpresentasikan sebagai elemen jarang pada raster boolean, Anda dapat memperkirakan kepadatannya dengan menerapkan filter blur ke raster.

Apa bedanya?

Secara intuitif, Anda mungkin mengharapkan pilihan algoritma penghalusan bergantung pada apakah pengukuran sampel mengandung kesalahan pengukuran yang signifikan atau tidak.

Pada satu ekstrim (tanpa noise), Anda hanya perlu melakukan interpolasi antara nilai yang diketahui secara tepat di lokasi sampel. Katakanlah, dengan triangulasi Delaunay (dengan interpolasi sambungan bilinear).

Estimasi kepadatan menyerupai ekstrim yang berlawanan, itu sepenuhnya kebisingan, karena sampel dalam isolasi tidak disertai dengan pengukuran nilai kerapatan pada titik itu. (Jadi tidak ada yang perlu interpolasi. Anda mungkin mempertimbangkan untuk mengukur area sel diagram Voronoi, tetapi menghaluskan / denoising masih akan menjadi penting ..)

Intinya adalah bahwa meskipun ada kesamaan, ini adalah masalah yang secara fundamental berbeda, sehingga pendekatan yang berbeda mungkin optimal.

benjimin
sumber