Jika kernel Epanechnikov secara teoritis optimal ketika melakukan Kernel Density Estimation, mengapa tidak lebih umum digunakan?

18

Saya telah membaca (misalnya, di sini ) bahwa kernel Epanechnikov optimal, setidaknya secara teoritis, ketika melakukan estimasi kepadatan kernel. Jika ini benar, lalu mengapa Gaussian muncul begitu sering sebagai kernel default, atau dalam banyak kasus satu-satunya kernel, di perpustakaan estimasi kepadatan?

John Rauser
sumber
2
Dua pertanyaan yang tergabung di sini: mengapa tidak lebih umum digunakan? mengapa Gaussian sering merupakan kernel default / hanya? Ini mungkin terdengar sepele, tetapi nama Epanechnikov mungkin tampak sulit untuk dieja dan diucapkan dengan benar untuk orang yang tidak fasih berbahasa itu. (Saya bahkan tidak yakin E. adalah bahasa Rusia; Saya telah gagal menemukan detail biografi.) Juga, jika saya menunjukkan (misalnya) biweight, mengomentari bentuk loncengnya, lebar terbatas dan perilaku di tepinya, yang tampaknya lebih mudah dijual. Epanechnikov adalah default di Stata's kdensity.
Nick Cox
3
Saya akan menambahkan bahwa optimalitas teoretis ini tidak banyak berpengaruh dalam praktiknya jika ada.
Xi'an
2
Itu nama yang akrab. Jika masuk akal untuk menggunakan kernel yang tidak memiliki dukungan yang terbatas, Anda harus memilihnya. Sejauh pengalaman saya berjalan, itu tidak masuk akal, jadi pilihannya muncul sosial, bukan teknis.
Nick Cox
2
@NickCox, ya, E adalah dude Rusia, itu bukan singkatan :) Dia adalah orang yang penuh teka-teki, hanya ini yang bisa Anda temukan tentang dia. Saya juga ingat sangat berguna buku seseorang dengan namanya menulis di kalkulator programmable, ya, itu adalah hal yang besar pada saat itu
Aksakal
1
@amoeba Dia bekerja di Институт радиотехники и электроники Российской Академии Наук им. Котельникова, saya yakin dia melakukan penelitian rahasia, nama lengkapnya adalah Епанечников Виктор Александрович
Aksakal

Jawaban:

7

Alasan mengapa kernel Epanechnikov tidak digunakan secara universal untuk optimalitas teoretisnya mungkin karena kernel Epanechnikov sebenarnya tidak optimal secara teoritis . Tsybakov secara eksplisit mengkritik argumen bahwa kernel Epanechnikov "optimal secara teoritis" dalam hal 16-19 dari Pengantar Estimasi Nonparametrik (bagian 1.2.4).

Mencoba meringkas, di bawah beberapa asumsi pada kernel K dan kepadatan tetap p satu memiliki bahwa rata-rata kesalahan kuadrat terintegrasi, dari bentuk

(1)1nhK2(u)du+h44SK2(p(x))2dx.

Kritik utama terhadap Tsybakov tampaknya lebih kecil daripada kernel non-negatif, karena seringkali mungkin untuk mendapatkan penduga yang berkinerja lebih baik, yang bahkan non-negatif, tanpa membatasi ke kernel non-negatif.

Langkah pertama dari argumen untuk kernel Epanechnikov dimulai dengan meminimalkan (1) lebih dari h dan semua kernel non-negatif (daripada semua kernel dari kelas yang lebih luas) untuk mendapatkan bandwidth "optimal" untuk K

hMISE(K)=(K2nSK2(p)2)1/5

dan kernel "optimal" (Epanechnikov)

K(u)=34(1u2)+

yang berarti kesalahan kuadrat terintegrasi adalah:

hMISE(K)=(15n(p)2)1/5.

Namun ini bukan pilihan yang layak, karena mereka bergantung pada pengetahuan (melalui p ) dari kepadatan p tidak diketahui - karena itu mereka adalah jumlah "oracle".

Proposisi yang diberikan oleh Tsybakov menyiratkan bahwa MISE asimptotik untuk oracle Epanechnikov adalah:

(2)limnn4/5Ep(pnE(x)p(x))2dx=34/551/54((p(x))2dx)1/5.

Tsybakov kata (2) sering diklaim menjadi yang terbaik dicapai MISE, tapi kemudian menunjukkan bahwa seseorang dapat menggunakan kernel dari urutan 2 (untuk yang SK=0 ) untuk membangun estimator kernel, untuk setiap ε>0 , sehingga

lim supnn4/5Ep(p^n(x)p(x))2dxε.

Meskipun p n belum tentu non-negatif, kita masih memiliki hasil yang sama untuk bagian estimator positif, p + n : = max ( 0 , p n ) (yang dijamin untuk menjadi non-negatif bahkan jika K tidak):p^npn+:=max(0,p^n)K

lim supnn4/5Ep(pn+(x)p(x))2dxε.

Oleh karena itu, untuk ε cukup kecil, terdapat penaksir sejati yang memiliki MISE asimptotik yang lebih kecil daripada oracle Epanechnikov , bahkan menggunakan asumsi yang sama pada kerapatan yang tidak diketahui. p .

Khususnya, seseorang memiliki akibat bahwa MISE asimptotik maksimum untuk p tetap atas semua estimator kernel (atau bagian positif dari estimator kernel) adalah0 . Jadi oracle Epanechnikov bahkan tidak mendekati menjadi optimal, bahkan jika dibandingkan dengan penduga sejati.

Alasan mengapa orang mengajukan argumen untuk oracle Epanechnikov di tempat pertama adalah bahwa orang sering berpendapat bahwa kernel itu sendiri harus non-negatif karena kepadatan itu sendiri adalah non-negatif. Tetapi seperti yang Tsybakov tunjukkan, kita tidak perlu berasumsi bahwa kernel adalah non-negatif untuk mendapatkan penduga kepadatan non-negatif, dan dengan membiarkan kernel yang lain kita dapat penduga kepadatan non-negatif yang (1) bukan ramalan. dan (2) tampil sewenang-wenang lebih baik daripada oracle Epanechnikov untuk p tetap . Tsybakov menggunakan perbedaan ini untuk menyatakan bahwa tidak masuk akal untuk berdebat untuk optimal dalam hal p tetap , tetapi hanya untuk properti optimalitas yang seragam di atas kelaskepadatan. Dia juga menunjukkan bahwa argumen masih berfungsi saat menggunakan MSE dan bukan MISE.

EDIT: Lihat juga Konsekuensi 1.1. pada halaman 25, di mana kernel Epanechnikov terbukti tidak dapat diterima berdasarkan kriteria lain. Tsybakov sepertinya tidak menyukai kernel Epanechnikov.

Chill2Macht
sumber
4
+1 untuk bacaan yang menarik, tetapi ini tidak menjawab mengapa kernel Gaussian lebih sering digunakan daripada kernel Epanechnikov: keduanya tidak-negatif.
Amoeba berkata Reinstate Monica
@amoeba Itu benar. Paling tidak ini menjawab pertanyaan dalam judul, yang hanya tentang kernel Epanechnikov. (Yaitu membahas premis untuk pertanyaan dan menunjukkan bahwa itu salah.)
Chill2Macht
3
(+1) Satu hal yang perlu diperhatikan dengan skema Tsybakov untuk mengambil bagian positif dari estimasi kernel yang mungkin negatif - yang setidaknya ingatan saya atas sarannya - adalah bahwa meskipun estimator kepadatan yang dihasilkan mungkin memberikan konvergensi MSE yang lebih baik ke kepadatan sebenarnya , perkiraan kerapatan secara umum tidak akan menjadi kerapatan yang valid (karena Anda memotong massa, dan tidak lagi terintegrasi ke 1). Jika Anda benar-benar hanya peduli tentang MSE, itu tidak masalah, tetapi kadang-kadang ini akan menjadi masalah yang signifikan.
Dougal
2

Kernel Gaussian digunakan misalnya dalam estimasi kepadatan melalui turunan:

difdxi(x)1bandwidthj=1Ndikdxi(Xj,x)

Ini karena kernel Epanechnikov memiliki 3 turunan sebelum identik nol, tidak seperti Gaussian yang memiliki banyak turunan (bukan nol). Lihat bagian 2.10 di tautan Anda untuk lebih banyak contoh.

Alex R.
sumber
2
Turunan pertama dari kernel Epanechnikov (perhatikan n kedua , omong-omong) tidak kontinu di mana fungsi melintasi batas-batas kernel sendiri; yang mungkin lebih merupakan masalah.
Glen_b -Reinstate Monica
saya
1
@AlexR. Sementara apa yang Anda katakan adalah benar, saya tidak mengerti bagaimana ini menjelaskan mengapa Gaussian sangat umum dalam estimasi kepadatan biasa (sebagai lawan estimasi turunan dari kepadatan). Dan bahkan ketika memperkirakan turunannya, bagian 2.10 menunjukkan bahwa Gaussian tidak pernah menjadi kernel yang disukai.
John Rauser
@ JohnRauser: Perlu diingat bahwa Anda perlu menggunakan kernel Epanechnikov orde tinggi untuk optimalitas. Biasanya orang menggunakan Gaussian karena lebih mudah digunakan dan memiliki properti yang lebih bagus.
Alex R.
1
@AlexR Saya akan berdalih tentang "[u] sually orang menggunakan Gaussian"; apakah Anda memiliki data sistematis tentang frekuensi penggunaan atau ini hanya kesan berdasarkan pekerjaan yang Anda lihat? Saya sering melihat dua kali lipat, tetapi saya tidak akan mengklaim lebih dari itu.
Nick Cox