Keuntungan estimasi kepadatan kernel lebih dari estimasi parametrik

10

Apakah ada alasan khusus Anda akan memilih estimasi kepadatan kernel daripada estimasi parametrik? Saya sedang belajar menyesuaikan distribusi dengan data saya. Pertanyaan ini datang kepada saya.

Ukuran data saya cukup besar dengan 7500 titik data. Klaim otomatis. Tujuan saya adalah mencocokkannya dengan distribusi (nonparametrik atau parametrik). Dan kemudian menggunakannya untuk mensimulasikan data klaim otomatis, dan menghitung VaR atau TVaR.

Saya menggunakan log untuk mengubah data agar relatif normal. Saya memasang banyak distribusi termasuk normal, lognormal, gamma, t, dll ... Saya menggunakan AIC dan loglikehood untuk mengidentifikasi pemasangan terbaik. Tapi tidak satu pun dari semua pemasangan ini lulus uji KS (nilai p sangat kecil, dengan e-10).

Itu sebabnya saya bertanya dalam situasi apa saya harus beralih ke KDE.

MegaChunk
sumber
Sepertinya saya bahwa pemasangan dataset besar ke distribusi parametrik cukup sulit. Bahkan saya bisa melihat pemasangannya sangat bagus pada histogram dan qqplot, saya masih mendapatkan nilai p yang sangat rendah dari tes KS. Tetapi apakah KDE benar-benar menyelesaikan masalah ini (saya tidak pernah mencoba)
MegaChunk
@MegaChunk AFAIK nilai-p dari uji KS tidak terlalu informatif, karena distribusinya tidak pernah sangat normal dan dengan demikian jika Anda memiliki cukup banyak titik data, hipotesis nol hampir selalu ditolak.
d_ijk_stra

Jawaban:

8

Pertanyaan yang menjawab adalah "mengapa Anda memodelkan data Anda sebagai sampel dari distribusi?" Jika Anda ingin mempelajari sesuatu tentang fenomena di balik data Anda, seperti ketika meningkatkan teori ilmiah atau menguji hipotesis ilmiah, menggunakan penaksir kernel non-parametrik tidak memberi tahu Anda lebih dari sekadar data itu sendiri. Sementara model yang diparameterisasi dapat mengetahui dengan lebih jelas (a) apakah data dan model tersebut setuju dan (b) berapa nilai yang mungkin dari parameter tersebut. Tergantung pada tujuan Anda sehingga mendorong pendekatan mana yang harus Anda pilih.

Xi'an
sumber
6

Mungkin ada. Estimasi kepadatan kernel adalah pendekatan nonparametrik. Estimasi parametrik memerlukan kelompok distribusi parametrik berdasarkan beberapa parameter yang harus diasumsikan. Jika Anda memiliki dasar untuk mempercayai bahwa model ini hampir benar, menguntungkan untuk melakukan inferensi parametrik. Di sisi lain ada kemungkinan bahwa data tidak cocok dengan anggota keluarga mana pun. Dalam hal ini lebih baik menggunakan estimasi kepadatan kernel karena akan membangun kepadatan yang cukup sesuai dengan data. Itu tidak memerlukan asumsi tentang keluarga parametrik.

Deskripsi ini mungkin sedikit disederhanakan untuk kejelasan. Biarkan saya memberikan contoh spesifik untuk membuat beton ini. Misalkan keluarga parametrik adalah distribusi normal yang didefinisikan oleh dua parameter yang tidak diketahui mean dan varians. Setiap distribusi dalam keluarga simetris dan berbentuk lonceng dengan rata-rata sama dengan median dan mode. Sekarang sampel Anda tampaknya tidak simetris dan mean sampel sangat berbeda dari median sampel. Maka Anda memiliki bukti untuk berpikir bahwa asumsi Anda salah. Jadi Anda perlu menemukan transformasi yang mengubah data agar sesuai dengan keluarga parametrik yang bagus (mungkin normal) atau menemukan keluarga parametrik alternatif. Jika pendekatan parametrik alternatif ini sepertinya tidak berhasil, pendekatan kepadatan kernel adalah alternatif yang akan berhasil. Ada beberapa masalah (1) bentuk kernel, (2) bandwidth kernel yang menentukan tingkat kelancaran dan (3) kemungkinan ukuran sampel yang lebih besar daripada apa yang mungkin Anda butuhkan untuk keluarga parametrik. Isu 1 telah ditunjukkan dalam literatur praktis tidak penting. Masalah 2 penting. Masalah 3 tergantung pada seberapa besar sampel yang mampu Anda kumpulkan. Meskipun masalah ini ada bersama dengan asumsi implisit bahwa distribusi memiliki kerapatan, asumsi ini mungkin lebih mudah diterima daripada asumsi parametrik restriktif. Masalah 3 tergantung pada seberapa besar sampel yang mampu Anda kumpulkan. Meskipun masalah ini ada bersama dengan asumsi implisit bahwa distribusi memiliki kerapatan, asumsi ini mungkin lebih mudah diterima daripada asumsi parametrik restriktif. Masalah 3 tergantung pada seberapa besar sampel yang mampu Anda kumpulkan. Meskipun masalah ini ada bersama dengan asumsi implisit bahwa distribusi memiliki kerapatan, asumsi ini mungkin lebih mudah diterima daripada asumsi parametrik restriktif.

Michael R. Chernick
sumber