Saya telah membaca (misalnya, di sini ) bahwa kernel Epanechnikov optimal, setidaknya secara teoritis, ketika melakukan estimasi kepadatan kernel. Jika ini benar, lalu mengapa Gaussian muncul begitu sering sebagai kernel default, atau dalam banyak kasus satu-satunya kernel, di perpustakaan estimasi kepadatan?
nonparametric
kernel-smoothing
John Rauser
sumber
sumber
kdensity
.Jawaban:
Alasan mengapa kernel Epanechnikov tidak digunakan secara universal untuk optimalitas teoretisnya mungkin karena kernel Epanechnikov sebenarnya tidak optimal secara teoritis . Tsybakov secara eksplisit mengkritik argumen bahwa kernel Epanechnikov "optimal secara teoritis" dalam hal 16-19 dari Pengantar Estimasi Nonparametrik (bagian 1.2.4).
Mencoba meringkas, di bawah beberapa asumsi pada kernelK dan kepadatan tetap p satu memiliki bahwa rata-rata kesalahan kuadrat terintegrasi, dari bentuk
Kritik utama terhadap Tsybakov tampaknya lebih kecil daripada kernel non-negatif, karena seringkali mungkin untuk mendapatkan penduga yang berkinerja lebih baik, yang bahkan non-negatif, tanpa membatasi ke kernel non-negatif.
Langkah pertama dari argumen untuk kernel Epanechnikov dimulai dengan meminimalkan(1) lebih dari h dan semua kernel non-negatif (daripada semua kernel dari kelas yang lebih luas) untuk mendapatkan bandwidth "optimal" untuk K
dan kernel "optimal" (Epanechnikov)
yang berarti kesalahan kuadrat terintegrasi adalah:
Namun ini bukan pilihan yang layak, karena mereka bergantung pada pengetahuan (melaluip′′ ) dari kepadatan p tidak diketahui - karena itu mereka adalah jumlah "oracle".
Proposisi yang diberikan oleh Tsybakov menyiratkan bahwa MISE asimptotik untuk oracle Epanechnikov adalah:
Tsybakov kata (2) sering diklaim menjadi yang terbaik dicapai MISE, tapi kemudian menunjukkan bahwa seseorang dapat menggunakan kernel dari urutan 2 (untuk yangSK=0 ) untuk membangun estimator kernel, untuk setiap ε>0 , sehingga
Meskipun p n belum tentu non-negatif, kita masih memiliki hasil yang sama untuk bagian estimator positif, p + n : = max ( 0 , p n ) (yang dijamin untuk menjadi non-negatif bahkan jika K tidak):p^n p+n:=max(0,p^n) K
Oleh karena itu, untukε cukup kecil, terdapat penaksir sejati yang memiliki MISE asimptotik yang lebih kecil daripada oracle Epanechnikov , bahkan menggunakan asumsi yang sama pada kerapatan yang tidak diketahui. p .
Khususnya, seseorang memiliki akibat bahwa MISE asimptotik maksimum untukp tetap atas semua estimator kernel (atau bagian positif dari estimator kernel) adalah0 . Jadi oracle Epanechnikov bahkan tidak mendekati menjadi optimal, bahkan jika dibandingkan dengan penduga sejati.
Alasan mengapa orang mengajukan argumen untuk oracle Epanechnikov di tempat pertama adalah bahwa orang sering berpendapat bahwa kernel itu sendiri harus non-negatif karena kepadatan itu sendiri adalah non-negatif. Tetapi seperti yang Tsybakov tunjukkan, kita tidak perlu berasumsi bahwa kernel adalah non-negatif untuk mendapatkan penduga kepadatan non-negatif, dan dengan membiarkan kernel yang lain kita dapat penduga kepadatan non-negatif yang (1) bukan ramalan. dan (2) tampil sewenang-wenang lebih baik daripada oracle Epanechnikov untukp tetap . Tsybakov menggunakan perbedaan ini untuk menyatakan bahwa tidak masuk akal untuk berdebat untuk optimal dalam hal p tetap , tetapi hanya untuk properti optimalitas yang seragam di atas kelaskepadatan. Dia juga menunjukkan bahwa argumen masih berfungsi saat menggunakan MSE dan bukan MISE.
EDIT: Lihat juga Konsekuensi 1.1. pada halaman 25, di mana kernel Epanechnikov terbukti tidak dapat diterima berdasarkan kriteria lain. Tsybakov sepertinya tidak menyukai kernel Epanechnikov.
sumber
Kernel Gaussian digunakan misalnya dalam estimasi kepadatan melalui turunan:
Ini karena kernel Epanechnikov memiliki 3 turunan sebelum identik nol, tidak seperti Gaussian yang memiliki banyak turunan (bukan nol). Lihat bagian 2.10 di tautan Anda untuk lebih banyak contoh.
sumber