Estimasi kepadatan jendela parzen adalah nama lain untuk estimasi kerapatan kernel . Ini adalah metode nonparametrik untuk memperkirakan fungsi kepadatan kontinu dari data.
Bayangkan bahwa Anda memiliki beberapa titik data x1,…,xn yang berasal dari distribusi yang tidak diketahui, mungkin terus menerus, f . Anda tertarik untuk memperkirakan distribusi yang diberikan data Anda. Satu hal yang dapat Anda lakukan hanyalah melihat distribusi empiris dan memperlakukannya sebagai sampel yang setara dengan distribusi sebenarnya. Namun jika data Anda kontinu, maka kemungkinan besar Anda akan melihat setiap xititik hanya muncul satu kali dalam dataset, jadi berdasarkan ini, Anda akan menyimpulkan bahwa data Anda berasal dari distribusi yang seragam karena masing-masing nilai memiliki probabilitas yang sama. Semoga Anda bisa melakukan yang lebih baik dari ini: Anda bisa mengemas data Anda dalam sejumlah interval dengan jarak yang sama dan menghitung nilai-nilai yang termasuk dalam setiap interval. Metode ini akan didasarkan pada estimasi histogram . Sayangnya, dengan histogram Anda berakhir dengan sejumlah tempat sampah, bukan dengan distribusi kontinu, jadi itu hanya perkiraan kasar.
Estimasi kepadatan kernel adalah alternatif ketiga. Ide utamanya adalah bahwa Anda memperkirakan f dengan campuran distribusi kontinu K (menggunakan notasi Anda ϕ ), yang disebut kernel , yang berpusat pada titik data xi dan memiliki skala ( bandwidth ) yang sama dengan h :
fh^(x)=1nh∑i=1nK(x−xih)
Ini diilustrasikan pada gambar di bawah ini, di mana distribusi normal digunakan sebagai kernel K dan nilai yang berbeda untuk bandwidth h digunakan untuk memperkirakan distribusi mengingat tujuh titik data (ditandai dengan garis warna-warni di bagian atas plot). Kepadatan warna-warni pada plot adalah kernel berpusat di xi poin. Perhatikan bahwa h adalah parameter relatif , nilainya selalu dipilih tergantung pada data Anda dan nilai h mungkin tidak memberikan hasil yang serupa untuk kumpulan data yang berbeda.
Kernel K dapat dianggap sebagai fungsi densitas probabilitas, dan perlu diintegrasikan ke kesatuan. Itu juga harus simetris sehingga K(x)=K(−x) dan, yang berikutnya, berpusat pada nol. Artikel Wikipedia tentang kernel mencantumkan banyak kernel populer, seperti Gaussian (distribusi normal), Epanechnikov, persegi panjang (distribusi seragam), dll. Pada dasarnya setiap distribusi yang memenuhi persyaratan tersebut dapat digunakan sebagai kernel.
Jelas, perkiraan akhir akan tergantung pada pilihan kernel Anda (tetapi tidak sebanyak itu) dan pada parameter bandwidth h . Utas berikut
Bagaimana menginterpretasikan nilai bandwidth dalam estimasi kepadatan kernel? menjelaskan penggunaan parameter bandwidth secara lebih rinci.
Mengatakan ini dalam bahasa Inggris, apa yang Anda asumsikan di sini adalah bahwa titik-titik yang diamati xi hanya sampel dan mengikuti beberapa distribusi f untuk diperkirakan. Karena distribusi kontinu, kita asumsikan bahwa ada beberapa diketahui, tetapi kepadatan nol di sekitar lingkungan dekat dari xi poin (lingkungan didefinisikan oleh parameter h ) dan kami menggunakan kernel K ke akun untuk itu. Semakin banyak titik di beberapa lingkungan, semakin banyak kepadatan yang terakumulasi di sekitar wilayah ini dan karenanya, semakin tinggi kepadatan keseluruhan fh^ . Fungsi yang dihasilkan fh^ sekarang dapat dievaluasi untuk apa sajatitik x .(tanpa subskrip) untuk mendapatkan estimasi kepadatan untuknya, ini adalah bagaimana kami memperoleh fungsi fh^(x) yang merupakan perkiraan fungsi kepadatan tidak diketahui f(x)
Hal yang menyenangkan tentang kepadatan kernel adalah bahwa, tidak seperti histogram, mereka adalah fungsi kontinu dan bahwa mereka sendiri adalah kepadatan probabilitas yang valid karena merupakan campuran dari kepadatan probabilitas yang valid. Dalam banyak kasus ini sedekat mungkin dengan mendekati f .
Perbedaan antara kepadatan kernel dan kepadatan lainnya, seperti distribusi normal, adalah bahwa kepadatan "biasa" adalah fungsi matematika, sedangkan kepadatan kernel adalah perkiraan dari kepadatan sebenarnya yang diperkirakan menggunakan data Anda, sehingga mereka bukan distribusi "mandiri".
Saya akan merekomendasikan Anda dua buku pengantar yang bagus tentang hal ini oleh Silverman (1986) dan Wand and Jones (1995).
Silverman, BW (1986). Estimasi kepadatan untuk statistik dan analisis data. CRC / Chapman & Hall.
Wand, MP dan Jones, MC (1995). Penghalusan Kernel. London: Chapman & Hall / CRC.
1) Pemahaman saya adalah bahwa pengguna memiliki pilihan fungsi untuk digunakanϕ , dan bahwa fungsi Gaussian adalah pilihan yang sangat umum.
2) Kepadatan dix adalah nilai rata - rata dari ϕh( xsaya- x ) di x . Misalnya, Anda mungkin memilikinyax1= 1 , x2= 2 , dan distribusi Gaussian dengan σ= 1 untuk ϕh . Dalam hal ini, kepadatan dix akan menjadi N1 , 1( x ) + N2 , 1( x )2 .
3) Anda dapat menyambungkan fungsi kepadatan apa pun yang Anda suka sebagai fungsi jendela Anda.
4)h menentukan lebar fungsi jendela yang Anda pilih.
sumber