Interval Keyakinan untuk ECDF

8

Ketimpangan Dvoretzky – Kiefer – Wolfowitz adalah sebagai berikut:

Pr(sup|F^n(x)F(x)|>ϵ)2exp(2nϵ2),

dan memprediksi seberapa dekat fungsi distribusi yang ditentukan secara empiris akan dengan fungsi distribusi dari mana sampel empiris diambil. Dengan menggunakan ketidaksetaraan ini kami dapat memanfaatkan interval kepercayaan (CI) di sekitarF^n(x)(ECDF). Tetapi CI ini akan memiliki jarak yang sama di setiap titik ECDF.

Yang saya heran, apakah ada cara lain untuk membangun CI di sekitar ECDF?

Membaca tentang statistik yang dipesan, kami menemukan bahwa distribusi asimptotik dari statistik yang dipesan adalah sebagai berikut:

rumus dari hyperlink

Sekarang, pertama, apa fungsinya np-index dengan simbol-simbol itu artinya?

Pertanyaan utama: apakah kita dapat menggunakan hasil ini, bersama-sama dengan metode delta (lihat di bawah), untuk memberikan CI untuk ECDF. Maksud saya, ECDF adalah fungsi dari statistik yang diurutkan, bukan? Tetapi pada saat yang sama ECDF adalah fungsi non-parametrik, jadi apakah ini jalan buntu?

Kami tahu itu E(F^n(x))=F(x) dan Var(F^n(x))=F(x)(1F(x))n

Saya harap saya mengerti apa yang saya dapatkan di sini, dan menghargai bantuan apa pun.

EDIT :

Metode Delta: Jika Anda memiliki urutan variabel acak Xn memuaskan

masukkan deskripsi gambar di sini,

dan θ dan σ2 terbatas, maka yang berikut puas:

masukkan deskripsi gambar di sini,

untuk setiap fungsi g memuaskan properti itu g(θ) ada, tidak bernilai nol, dan secara polinomi terikat dengan variabel acak (kutipan wikipedia)

Erosennin
sumber
1
np cara np dibulatkan ke integer berikutnya. X(i) akan menjadi i- observasi terbesar (the i- statistik urutan ke-4 ); menempatkan dua bit notasi bersama-sama (biarkani=np) Memberi anda X(np).
Glen_b -Reinstate Monica
Baik! Dan p sama denganF^n(x), sehingga np sama dengan saya ?
Erosennin
1
Lihat inside-r.org/packages/cran/sfsmisc/docs/ecdf.ksCI untuk solusi di R.
kjetil b halvorsen
Jadi cara Anda menghitung CI didasarkan pada statistik Kolmogorov-Smirnov, jika saya memahami sesuatu dengan benar? Saya bisa melihat itu juga! Terima kasih!
Erosennin
1
Jika saya ingat dengan benar, menggunakan statistik KS akan memberi Anda Dvoretzky–Kiefer–Wolfowitz.band. Pernyataan yang Anda miliki tidak mengatakan bahwa Anda memilihp untuk membuat np=i. Jika Anda mengambil beberapapAnda memiliki hasil asimptotik yang Anda kutip; ini akan melibatkan batas urutann-nilai, dan Anda tidak perlu npmenjadi bilangan bulat untuk salah satu dari mereka.
Glen_b -Reinstate Monica

Jawaban:

4

Saya tidak melihat cara menggunakan metode delta, tapi ...

Membaca tentang konvergensi fungsi distribusi empiris kita membaca bahwa teorema limit pusat memberi kita:

n(F^n(x)F(x))N(0,F(x)(1F(x)))

Kita dapat menggunakan ini untuk membuat CI bervariasi di sekitar masing-masing F^n(x):

F^n(x)±1.96F^n(x)(1F^n(x))n,

sejak E(F^n(x))=F(x), F^n(x) adalah estimasi terbaik kami F(x).

Menggunakan kode-R berikut:

#confidenc ebands calculation:
sim_norm<-rnorm(100)
plot(sim_norm)
hist(sim_norm)
sim_norm_sort<-sort(sim_norm)
n = sum(!is.na(sim_norm_sort))
plot(sim_norm_sort, (1:n)/n, type = 's', ylim = c(0, 1), 
     xlab = 'sample', ylab = '', main = 'Empirical Cumluative Distribution')

# Dvoretzky–Kiefer–Wolfowitz inequality:
# P ( sup|F_n - F| > epsilon  ) leq 2*exp(-2n*epsilon^2)
# set alpha to 0.05 and alpha=2*exp(-2n*epsilon^2):
# --> epsilon_n = sqrt(-log(0.5*0.05)/(2*n))
#
#lower and upper bands:
L<-1:n
U<-1:n


  epsilon_i = sqrt(log(2/0.05)/(2*n))

  L=pmax(1:n/n-epsilon_i, 0)
  U=pmin(1:n/n+epsilon_i, 1)
  lines(sim_norm_sort, U, col="blue")
  lines(sim_norm_sort, L, col="blue")

#using clt:
U2=(1:n/n)+1.96*sqrt( (1:n/n)*(1-1:n/n)/n )
L2=(1:n/n)-1.96*sqrt( (1:n/n)*(1-1:n/n)/n )
lines(sim_norm_sort, L2, col="red")
lines(sim_norm_sort, U2, col="red")

Kita mendapatkan:

Biru = band KWD, Merah = band CLT

Kita melihat bahwa pita merah (dari metode CLT) memberi kita pita kepercayaan yang lebih sempit.

EDIT : Seperti yang ditunjukkan oleh @Kjetil B Halvorsen - kedua jenis band ini adalah tipe yang berbeda. Saya telah @Glen_b menjelaskan dengan tepat apa yang dia maksud:

Jenis band kepercayaan diri yang sangat berbeda. Dengan band percaya diri pointwise Anda akan mengharapkan sejumlah poin di luar band bahkan jika itu adalah distribusi dari mana data diambil. Dengan band simultan Anda tidak akan melakukannya. Jika Anda memiliki band 95% searah, rata-rata 5% dari poin untuk distribusi yang benar akan berada di luar band. Dengan band-band simultan, ada kemungkinan 5% bahwa titik dengan penyimpangan terbesar ada di luar.

Terima kasih banyak untuk keduanya!

Erosennin
sumber
Mengapa cara ini tidak disukai daripada menggunakan ketimpangan DKW - atau statistik KS? Saya belum pernah melihat orang yang membangun band kepercayaan diri dengan cara ini sebelumnya ...
Erosennin
1
Itu hanya memberikan band-band kepercayaan diri secara individual, untuk masing-masing x, tidak secara bersamaan
kjetil b halvorsen
Dengan "itu" Saya menganggap Anda maksud "cara CLT". Dan misalnya DKW tidak benar-benar memberikan apa pun secara bersamaan, itu hanya menyatakan jarak "maksimum"ϵdan gunakan ini sebagai pita kepercayaan untuk setiap poin x. Dan juga untuk KS.
Erosennin
Ya, dan dengan menggunakan maksimum dengan cara ini mereka memperoleh pita kepercayaan yang berlaku secara bersamaan.
kjetil b halvorsen
2
Diskusi yang menarik di sini. Saya menambahkan interval CDF ke Wikipedia dan beberapa diskusi seputar perbedaan antara metode ini. Saya juga memperbarui halaman DKW untuk membahas interval lebih khusus. Lihatlah dan jangan ragu untuk memperbarui halaman atau PM saya di kedua situs en.wikipedia.org/wiki/… en.wikipedia.org/wiki/…
Bscan