Apakah menghitung persentil sama dengan mengevaluasi fungsi kepadatan kumulatif?

8

Saya mencoba membuat lompatan dari gagasan persentil, katakanlah, di atas garis bilangan real (di mana persentil ke-n hanyalah posisi di mana n% titik data berada di bawahnya, dan 100-n% di atasnya ), dengan gagasan daerah di bawah fungsi kepadatan probabilitas.

Jika saya ingin mengetahui persentil 50% dari satu set angka, saya akan menemukan titik di mana setengah angka di bawah, setengah angka di atas. Itu persentil 50%, dan saya selesai.

Jika saya ingin mengetahui persentil 50% dari distribusi, katakanlah, skor-Z, saya akan mengevaluasi cdf dari 0 - 50, dan saya sudah selesai. Apakah saya mengatakan ini dengan benar?

Ini terasa benar secara intuisi, tetapi saya perlu beberapa diskusi untuk memalu rumah. Atau, saya bisa benar-benar pergi ...

tumultous_rooster
sumber

Jawaban:

5

Anda dekat tetapi tidak sepenuhnya benar. Ingat bahwa area di bawah distribusi probabilitas harus berjumlah 1. Fungsi kumulatif kepadatan (CDF) adalah fungsi dengan nilai dalam [0,1] karena CDF didefinisikan sebagai

F(a)=af(x)dx
di mana f (x) adalah fungsi kepadatan probabilitas. Kemudian persentil ke-50 adalah probabilitas total 50% dari sampel yang berarti titik di mana CDF mencapai 0,5. Atau dalam istilah yang lebih umum, persentil p'th adalah titik di mana CDF mencapai p / 100.
Goker
sumber
3
Mungkin ada baiknya menunjukkan seberapa dekat OP didapat - alih-alih "mengevaluasi CDF" mereka harus mengevaluasi CDF terbalik .
Silverfish
1
begitu dekat namun sejauh ini ... :)
tumultous_rooster
Secara umum, kebalikan dari CDF (dalam arti biasa, yaitu, kebalikan dari suatu fungsi) mungkin tidak ada. Kita harus mempertimbangkan apa yang disebut dengan invers umum (atau pseudo-invers) dari CDF.
Danny Pak-Keung Chan
1

Tidak. Pada dasarnya, menghitung persentil (atau p-kuantil) sama dengan menemukan kebalikan dari CDF.

Perhatikan bahwa invers, dalam arti biasa, dari CDF mungkin tidak ada dan gagasan invers umum harus diperkenalkan. Untuk membuat diskusi tepat, kami mengklarifikasi semua definisi.

Definisi: CDF adalah suatu fungsi F:[,][0,1] yang memenuhi ketentuan berikut:

  1. (Meningkat) Untuk apa pun x,y[,], jika x<y, kemudian F(x)F(y),

  2. (Kontinuitas kanan) Untuk apa pun aR, kita memilikinya F(a)=limxa+F(x),

  3. F()=limxF(x)=0 , dan

  4. F()=limxF(x)=1 .

Kami memiliki setidaknya dua versi invers general dari , dilambangkan dengan dan , yang didefinisikan sebagai berikut.FInv1FInv2F

Inv1F:[0,1][,] , didefinisikan olehInv1F(x)=inf{yF(y)x},

Inv2F:[0,1][,] , didefinisikan oleh .Inv2F(x)=inf{yF(y)>x}

Di sini, kami mengadopsi konvensi yang .inf()=

Jika saya ingat dengan benar, mengingat , -quantile didefinisikan sebagai .p[0,1]psayanv1F(hal)

Tentu saja, jika benar-benar meningkat dan kontinu, kedua versi invers umum adalah sama dan mengurangi ke fungsi invers yang biasaFF-1:[0,1][-,].

Untuk informasi lebih lanjut: https://people.math.ethz.ch/~embrecht/ftp/generalized_inverse.pdf

Danny Pak-Keung Chan
sumber