Saya baru-baru ini menemukan penaksir kuantil berikut untuk variabel acak kontinu dalam makalah (nonstatistik, diterapkan): untuk vektor 100-panjang , kuantil 1% diperkirakan dengan . Berikut ini performanya: di bawah ini adalah plot kerapatan kernel dari realisasi penaksir dari 100.000 simulasi berjalan dari sampel 100-panjang dari distribusi . Garis vertikal adalah nilai sebenarnya, yaitu 1% teoritis dari distribusi . Kode untuk simulasi juga diberikan.
M=10e5; n=100
quantiles=rep(NA,M)
for(i in 1:M){ set.seed(i); quantiles[i]=min(rnorm(n)) }
plot(density(quantiles),main="Kernel density estimate of quantiles from M=100,000 simulation runs"); abline(v=qnorm(1/n))
Grafik terlihat serupa secara kualitatif untuk distribusi (hanya sebuah contoh). Dalam kedua kasus, estimator bias ke bawah. Tanpa membandingkan dengan beberapa estimator lain, sulit untuk mengatakan seberapa bagusnya. Oleh karena itu pertanyaan saya : apakah ada penaksir alternatif yang lebih baik dalam, katakanlah, kesalahan absolut yang diharapkan atau dugaan kesalahan kuadrat yang diharapkan?
Jawaban:
Min dari 100 pengamatan, sampel panjang digunakan sebagai penaksir 1% kuantil dalam praktiknya. Saya pernah melihatnya disebut "persentil empiris."
Keluarga distribusi yang dikenal
Jika Anda menginginkan perkiraan yang berbeda DAN memiliki gagasan tentang distribusi data, maka saya sarankan untuk melihat urutan median statistik. Misalnya, paket R ini menggunakannya untuk koefisien korelasi plot probabilitas PPCC . Anda dapat menemukan bagaimana mereka melakukannya untuk beberapa distribusi seperti biasa. Anda dapat melihat rincian lebih lanjut dalam makalah Vogel pada tahun 1986 "Uji Koefisien Probabilitas Plot untuk Hipotesis Distribusi Normal, Lognormal, dan Gumbel" di sini berdasarkan urutan statistik median pada distribusi normal dan lognormal.
Misalnya, dari makalah Vogel, Persamaan.2 mendefinisikan min (x) dari 100 sampel pengamatan dari distribusi normal standar sebagai berikut: mana perkiraan median CDF:M1=Φ−1(FY(min(y))) F^Y(min(y))=1−(1/2)1/100=0.0069
Kami mendapatkan nilai berikut: untuk standar normal yang Anda bisa menerapkan lokasi dan skala untuk mendapatkan perkiraan Anda dari persentil 1: .M1=−2.46 μ^−2.46σ^
Di sini perbandingannya dengan min (x) pada distribusi normal:
Plot di atas adalah distribusi penaksir min (x) dari persentil ke-1, dan yang di bawah adalah yang saya sarankan untuk dilihat. Saya juga menempelkan kode di bawah ini. Dalam kode saya secara acak memilih mean dan dispersi dari distribusi normal, kemudian menghasilkan sampel pengamatan panjang 100. Selanjutnya, saya menemukan min (x), kemudian skala ke standar normal menggunakan parameter sebenarnya dari distribusi normal. Untuk metode M1, saya menghitung kuantil menggunakan estimasi mean dan varians, lalu skala kembali ke standar menggunakan parameter true lagi. Dengan cara ini saya dapat menjelaskan dampak kesalahan estimasi mean dan standar deviasi sampai batas tertentu. Saya juga menunjukkan persentil yang sebenarnya dengan garis vertikal.
Anda dapat melihat bagaimana penaksir M1 jauh lebih ketat daripada min (x). Itu karena kita menggunakan pengetahuan kita tentang tipe distribusi yang sebenarnya , yaitu normal. Kami masih belum tahu parameter sebenarnya, tetapi bahkan mengetahui keluarga distribusi sangat meningkatkan perkiraan kami.
KODE OCTAVE
Anda dapat menjalankannya di sini secara online: https://octave-online.net/
Distribusi tidak dikenal
Jika Anda tidak berasal dari distribusi data mana, maka ada pendekatan lain yang digunakan dalam aplikasi risiko keuangan . Ada dua distribusi Johnson, SU dan SL. Yang pertama adalah untuk kasus yang tidak terikat seperti Normal dan Student t, dan yang terakhir adalah untuk batas bawah seperti lognormal. Anda dapat menyesuaikan distribusi Johnson dengan data Anda, kemudian menggunakan estimasi parameter, memperkirakan kuantil yang diperlukan. Tuenter (2001) menyarankan prosedur pemasangan pencocokan momen, yang digunakan dalam praktik oleh beberapa orang.
Apakah akan lebih baik daripada min (x)? Saya tidak tahu pasti, tetapi kadang-kadang menghasilkan hasil yang lebih baik dalam praktik saya, misalnya ketika Anda tidak tahu distribusinya tetapi tahu bahwa itu berbatas rendah.
sumber