Cara mendapatkan fungsi kuantil saat bentuk analitik distribusi tidak diketahui

Masalahnya berasal dari halaman 377-379 dari makalah ini [0] .

Diberikan distribusi berkelanjutan $F$ dan diperbaiki $z\in\mathbb{R}$ , pertimbangkan:

L_{z} (t) = P_{F} (| z - Z | \leq t)

$L_z(t)=P_F(|z-Z|\leq t)$

dan

H (z) = L_{z}^{- 1} (0.5) = \underset{Z \sim F}{med} | z - Z |

$H(z)=L^{-1}_z(0.5)=\underset{Z\sim F}{\mbox{med}}|z-Z|$

dimana $L^{-1}_z(u)=\inf\{t:L_z(t)>u\}$ adalah kebalikan terus menerus yang tepat. Jadi untuk tetap $z$ , ini adalah jarak median semua $Z\sim F$ ke $z$ . Selanjutnya, pertimbangkan fungsinya:

L (t) = P_{F} (H (Z) \leq t)

$L(t)=P_F(H(Z)\leq t)$

Sekarang, saya tidak memiliki ekspresi analitik untuk (sebenarnya saya cukup yakin ekspresi analitik untuk itu tidak mungkin) tetapi mengingat CDF Saya dapat dengan mudah menggunakan algoritma pencarian root untuk mendapatkan untuk setiap diberikan . $H(z)$ $F$ $H(z)$ $z$

Dalam aplikasi ini, bunga ada di:

L^{- 1} (0.5) = \underset{Z \sim F}{med} H (Z)

$L^{-1}(0.5)=\underset{Z\sim F}{\mbox{med}}H(Z)$

Ini adalah nilai median dari , sekali lagi, untuk . $H(Z)$ $Z\sim F$

Saat ini untuk mendapatkan , saya menghitung (seperti yang dijelaskan di atas, menggunakan algoritma pencarian akar) nilai sesuai dengan banyak nilai pada kisi dan mengambil median tertimbang dari nilai-nilai ini dari (dengan bobot ) sebagai perkiraan saya dari . $L^{-1}(0.5)$ $H(z)$ $z$ $H(z)$ $f(z)$ $L^{-1}(0.5)$

Pertanyaan saya adalah:

Apakah ada pendekatan yang lebih akurat untuk mendapatkan (penulis makalah ini tidak mengatakan bagaimana dihitung) dan $L^{-1}(0.5)$ $L^{-1}(0.5)$
Bagaimana seharusnya grid nilai dipilih? $z$

[0] Ola Hössjer, Peter J. Rousseeuw dan Christophe Croux. Asimptotik dari penduga fungsional tersebar kuat. Statistica Sinica 6 (1996), 375-388.

mathematical-statistics quantiles cdf numerics quantile-function pengguna603
sumber

Menurut notasi dan terminologi, kita seharusnya memahami " " sebagai pemetaan setiap ke angka (itulah yang "fungsional" lakukan, Lagipula). Tapi apa " "? Itu bisa berupa distribusi (secara harfiah, kebalikan dari ) atau, lebih mungkin, angka (jika kita memperbaiki dan melihat sebagai fungsi - tidak fungsional!), Tapi saya tidak melihat cara apa pun untuk menafsirkannya sebagai variabel acak dengan distribusi . Itu membuat

L_{z} (t)

$L_z(t)$

F

$F$

L_{z} (t) [F] = P_{F} (| z - Z | \leq t)

$L_z(t)[F]=P_F(|z-Z|\le t)$

L_{z}^{- 1} (q)

$L_z^{-1}(q)$

L_{z} (t)

$L_z(t)$

F

$F$

L_{z}

$L_z$

F

$F$

M_{q} (t)

$M_q(t)$ cukup misterius.

whuber

Sedikit, tapi pasti masih ada kesalahan ketik. Mungkin dalam definisi Anda bermaksud menggunakan " " (variabel acak dengan untuk distribusinya) alih-alih " "? Bagaimanapun, seseorang tidak dapat menetapkan probabilitas ke " ", karena dan adalah angka. Anda menjalankan risiko besar di sini bahwa satu kesalahan ketik kecil dalam persamaan apa pun akan mengubah pertanyaan Anda menjadi sesuatu yang sama sekali tidak disengaja dan tidak relevan; lebih buruk lagi, Anda mungkin mendapatkan jawaban yang benar bahwa Anda salah menafsirkan! Akan sangat membantu (banyak) untuk memasukkan penjelasan dalam bahasa Inggris tentang apa yang masing-masing formula ingin wakili.

L (t)

$L(t)$

Z

$Z$

F

$F$

z

$z$

H (z) \leq t

$H(z)\le t$

H (z)

$H(z)$

t

$t$

Whuber

Jawaban:

$\DeclareMathOperator*{\med}{med}$ Median adalah titik yang meminimalkan jarak diharapkan : $L^1$

\underset{Z}{med} f (Z) = \arg min_{m} E_{z} | f (Z) - m |

$\med_Z f(Z) = \arg\min_m E_z|f(Z) - m|$

Karenanya kami dapat menyederhanakan ekspresi Anda:

\underset{z_{1} \sim F}{med} \underset{z_{2} \sim F}{med} | z_{1} - z_{2} | = \arg min_{m_{1}} E_{z_{1} \sim F} | m_{1} - \arg min_{m_{2}} E_{z_{2} \sim F} | m_{2} - | z_{1} - z_{2} | | |

$\begin{equation}\med_{z_1 \sim F} \med_{z_2 \sim F} |z_1 - z_2| \\ = \arg\min_{m_1}E_{z_1 \sim F}\left| m_1 - \arg\min_{m_2} E_{z_2 \sim F}\left| m_2 - \left|z_1 - z_2\right|\right|\right| \end{equation}$

Saya pikir ini adalah masalah optimasi bilevel , yang saya tidak tahu terlalu banyak tentang tetapi mungkin ada teknik standar yang dapat Anda terapkan. Kemudian lagi, itu mungkin tidak lebih cepat dari hanya menghitung median sampel median untuk sampel yang lebih besar hingga konvergensi.

Ben Kuhn
sumber

Saya tidak berpikir ini mengatasi masalah, karena kita tidak berurusan dengan realisasi sini tetapi dengan itu sendiri (Jika Anda mau, saya tertarik pada nilai-nilai benda-benda ini ketika ukuran sampel pergi ke ). Tapi mungkin saya salah paham jawaban Anda?

F

$F$

F

$F$

\infty

$\infty$

user603

Yah, saya baru sadar saya membuat kesalahan dengan derivasi - optimasi sebenarnya bersarang. Saya pikir masih ada teknik optimasi yang dapat Anda gunakan, tetapi saya tidak tahu apakah mereka lebih baik daripada hanya mengambil median kedua pada sampel besar seperti yang telah Anda lakukan.

Ben Kuhn

bagus jadi kita sekarang bertanya-tanya hal yang sama;)

user603

Pendekatan berbasis data langsung untuk memperkirakan fungsi kuantil terdiri dari:

bootstrap pengamatan Anda untuk menghasilkan lebih banyak nilai dari pada sampel asli Anda (terutama, nilai di luar kisaran sampel terbatas awal). Strategi yang baik adalah dengan menggunakan skema simulasi bootstrap yang dihaluskan untuk menghindari keterbatasan utama dari bootstrap nonparametrik dasar. Ini sama dengan mensimulasikan dari Kernel Density Estimate.
dari ini, Anda bisa mendapatkan Fungsi Distribusi Kumulatif (CDF) empiris dari nilai-nilai yang disimulasikan ( ecdffungsi dalam R). Kebalikan dari CDF tidak lain adalah fungsi kuantil ( quantile fungsi dalam R). Lihat di sini untuk mendapatkan nilai dan plot fungsi kuantil Anda. Anda bahkan bisa mendapatkan band kepercayaan diri.

Namun prasyarat adalah bahwa Anda mencicipi fitur pengamatan yang cukup untuk setidaknya mendapatkan ide bagus tentang bentuk PDF yang mendasarinya.

Antoine
sumber

Mengapa Anda pikir Anda mendapatkan presisi yang lebih baik dengan bootstrap?

kjetil b halvorsen

nasib setiap sampel terbatas adalah bahwa ia tidak mengandung spektrum penuh pengamatan yang mungkin terjadi. Misalnya, aliran arus maksimum sungai yang diamati lebih dari 100 tahun jelas bukan batas absolut yang dapat terjadi. Jadi perkiraan Anda untuk banjir 500 tahun (kuantil 0,998) atau banjir 1000 tahun (kuantil 0,999) berdasarkan sampel terbatas Anda akan menjadi bias (risiko akan diremehkan ). Sebaliknya, jika Anda menghasilkan ratusan ribu pengamatan baru dengan mensimulasikan (melalui bootstrap yang diperhalus atau teknik lainnya), perkiraan Anda akan lebih akurat

Antoine

Itu salah paham! Nilai-nilai dalam sampel bootstrap melakukan semua berasal dari sampel terbatas dan terbatas yang sama, dan tidak mengandung lebih banyak informasi daripada sampel itu sendiri. Bootstrapping (seperti teknik analitik lainnya) hanya dapat membantu kita memahami lebih baik informasi apa yang ada dalam sampel, itu tidak dapat meningkatkan informasi itu.

kjetil b halvorsen

Tidak! Saya berbicara tentang bootstrap yang dihaluskan . Ini menghasilkan pengamatan yang tidak pernah terlihat, yang melebihi kisaran sampel asli. Silakan klik tautan di jawaban saya di atas.

Antoine

@ Antoine: Oke, tapi itu tidak mengubah apa pun dalam komentar saya. "Obses" yang dihaluskan dihasilkan dari model fenomena Anda, bukan fenomena itu sendiri, jadi bukan "data".

kjetil b halvorsen

Jadi, saya pikir itu cara terbaik untuk mendapatkannya

{med}_{Z \sim F} H (Z)

$\text{med}_{Z\sim F} H(Z)$

adalah untuk:

hitung entri dari vektor dari nilai sesuai dengan kisi nilai dari ditempatkan secara seragam di $n$ $\{H(z_i)\}_{i=1}^n$ $H(z_i)$ $n$ $\{z_i\}_{i=1}^n$ $(F_Z^{-1}(\epsilon),F_Z^{-1}(1-\epsilon))$
Hitung median tertimbang dari dengan bobot . $\{H(z_i)\}_{i=1}^n$ $F_Z^\prime(z_i)$

pengguna603
sumber