Biarkan data yang diurutkan menjadi . Untuk memahami CDF empiris , pertimbangkan salah satu nilai dari sebut saja - dan anggaplah bahwa beberapa angka dari kurang dari dan dari sama dengan . Pilih interval di mana, dari semua nilai data yang mungkin, hanya muncul. Maka, menurut definisi, dalam interval ini memiliki nilai konstan untuk angka yang kurang dari G x i γ k x i γ t ≥ 1 x i γ [ α , β ] γ G k / n γ ( k + t ) / n γx1≤ x2≤ ⋯ ≤ xnGxiγkxiγt≥1xiγ[α,β]γGk/nγdan melompat ke nilai konstan untuk angka yang lebih besar dari .(k+t)/nγ
Pertimbangkan kontribusi untuk dari interval . Meskipun bukan fungsi - ini adalah ukuran titik ukuran pada - integral didefinisikan dengan cara integrasi oleh bagian-bagian untuk mengubahnya menjadi integral jujur-untuk-kebaikan. Mari kita lakukan ini selama interval :∫b0xh(x)dx[α,β]ht/nγ[α,β]
∫βαxh(x)dx=(xG(x))|βα−∫βαG(x)dx=(βG(β)−αG(α))−∫βαG(x)dx.
Integrand baru, meskipun tidak terputus pada , tidak dapat diintegrasikan. Nilainya mudah ditemukan dengan memecah domain integrasi ke bagian sebelumnya dan mengikuti lompatan di :γG
∫βαG(x)dx=∫γαG(α)dx+∫βγG(β)dx=(γ−α)G(α)+(β−γ)G(β).
Mengganti ini menjadi hasil sebelumnya dan menarik hasilG(α)=k/n,G(β)=(k+t)/n
∫βαxh(x)dx=(βG(β)−αG(α))−((γ−α)G(α)+(β−γ)G(β))=γtn.
Dengan kata lain, integral ini melipatgandakan lokasi (sepanjang sumbu ) dari setiap lompatan dengan ukuran lompatan itu. Ukuran lompatannya adalahX
tn=1n+⋯+1n
dengan satu istilah untuk masing-masing nilai data yang sama dengan . Menambahkan kontribusi dari semua lompatan menunjukkan hal ituγG
∫b0xh(x)dx=∑i:0≤xi≤b(xi1n)=1n∑xi≤bxi.
Kita mungkin menyebutnya "rata-rata parsial," melihat bahwa itu sama dengan kali jumlah parsial. (Harap dicatat bahwa ini bukan ekspektasi. Ini dapat dikaitkan dengan ekspektasi versi dari distribusi dasar yang telah terpotong ke interval : Anda harus mengganti faktor dengan mana adalah jumlah nilai data dalam .)1/n[0,b]1/n1/mm[0,b]
Mengingat , Anda ingin menemukan yangKarena jumlah parsial adalah himpunan nilai yang terbatas, biasanya tidak ada solusi: Anda harus puas dengan perkiraan terbaik, yang dapat ditemukan dengan mengurung antara dua cara parsial, jika memungkinkan. Yaitu, setelah menemukan seperti itukbkj1n∑xi≤bxi=k.kj
1n∑i=1j−1xi≤k<1n∑i=1jxi,
Anda akan mempersempit ke interval . Anda tidak dapat melakukan lebih baik dari itu menggunakan ECDF. (Dengan memasang beberapa distribusi kontinu ke ECDF Anda dapat melakukan interpolasi untuk menemukan nilai tepat , tetapi akurasinya akan tergantung pada keakuratan kecocokan.)[ x j - 1 , x j ) bb[xj−1,xj)b
R
melakukan perhitungan jumlah parsial dengan cumsum
dan menemukan di mana ia melintasi nilai tertentu menggunakan which
keluarga pencarian, seperti pada:
set.seed(17)
k <- 0.1
var1 <- round(rgamma(10, 1), 2)
x <- sort(var1)
x.partial <- cumsum(x) / length(x)
i <- which.max(x.partial > k)
cat("Upper limit lies between", x[i-1], "and", x[i])
Output dalam contoh ini data yang diambil iid dari distribusi Eksponensial adalah
Batas atas terletak di antara 0,39 dan 0,57
Nilai sebenarnya, memecahkan adalah . Kedekatannya dengan hasil yang dilaporkan menunjukkan kode ini akurat dan benar. (Simulasi dengan kumpulan data yang jauh lebih besar terus mendukung kesimpulan ini).0,5318120.1=∫b0xexp(−x)dx,0.531812
Berikut adalah plot empiris CDF untuk data ini, dengan nilai estimasi batas atas ditampilkan sebagai garis abu-abu putus-putus vertikal:G