Saya memiliki distribusi sampel dengan sejumlah kecil nilai di masing-masing (kurang dari ). Saya telah menghitung median untuk setiap sampel, yang ingin saya bandingkan dengan model dan mendapatkan perbedaan antara model dan median masing-masing sampel. Untuk mendapatkan hasil yang konsisten, saya memerlukan kesalahan pada perbedaan ini.
Hasilnya menemukan bahwa standar deviasi dalam kasus seperti itu bisa sangat sulit, setidaknya untuk non-pro seperti saya (lihat contoh di sini ).
Saya telah menemukan situs web ini yang mengatakan bagaimana cara menghitung interval kepercayaan untuk median, bahkan jika tidak ada referensi resmi yang dikutip.
Tampaknya masuk akal bagi saya, tetapi saya tidak bisa menilai, jadi saya ingin tahu:
- apakah formula itu benar?
- Ada referensi untuk itu?
- Bagaimana jika saya ingin menemukan CI berbeda dari ?
Terima kasih sebelumnya
EDIT: Saya juga menemukan contoh bootstrap ini untuk data non-Gaussian . Sekarang, saya tidak tahu banyak tentang bootstrap, tetapi akan lebih baik memiliki alamat tentang validitasnya.
Jawaban:
Ringkasan
Ketika Anda dapat mengasumsikan sedikit atau tidak sama sekali tentang hukum probabilitas sejati, dan dapat menyimpulkan sedikit tentangnya - yang merupakan kasus untuk sampel kecil dari pengamatan - maka sepasang statistik pesanan yang sesuai akan membentuk interval kepercayaan untuk median. Statistik pesanan mana yang dipilih dapat dengan mudah ditemukan dengan analisis cepat dari distribusi Binomial . Ada beberapa pilihan yang harus dilakukan dalam praktik: ini dibahas dan diilustrasikan pada akhir posting ini.n (n,1/2)
Secara kebetulan, analisis yang sama dapat digunakan untuk membangun interval kepercayaan untuk kuantil apa pun (di mana median, sesuai dengan , adalah salah satu contoh). Distribusi Binomial mengatur solusi dalam kasus ini.q q=50% (n,q)
pengantar
Ingat apa arti interval kepercayaan diri (CI). Pengaturan adalah sampel acak independen dengan setiap diatur oleh distribusi yang sama . Diasumsikan hanya bahwa adalah salah satu elemen dari himpunan dari distribusi yang mungkin. Masing-masing dari mereka memiliki median . Untuk setiap tetap antara dan , CI level adalah sepasang fungsi (alias "statistik"), dan , sedemikian rupa sehinggaX=(X1,X2,…,Xn) Xi F F Ω F1/2 α 0 1 α L U
Sisi kanan adalah cakupan dari CI untuk distribusi .F
Selain itu: agar ini bermanfaat, kami juga lebih suka bahwa (1) maksimum pertanggungan di atas sekecil mungkin dan (2) panjang interval yang diharapkan, , seharusnya cenderung singkat untuk semua atau "paling" .F∈Ω EF(U(X)−L(X)) F∈Ω
Analisis
Misalkan kita tidak berasumsi tentang .Ω Dalam situasi ini kita masih dapat mengeksploitasi statistik pesanan . Ini adalah nilai spesifik dalam sampel yang diurutkan. Untuk menyederhanakan notasi, mari urutkan sampel sekali dan untuk semua sehingga
Nilai adalah statistik urutan dari sampel. Karena kita tidak mengasumsikan apa pun tentang , kita tidak tahu apa-apa tentang pada awalnya, jadi kita tidak dapat menyimpulkan banyak tentang kemungkinan interval antara masing-masing dan tetangganya . Namun, kami masih dapat bernalar secara kuantitatif tentang nilai-nilai individual: berapa peluang tidak melebihi median ? Untuk mengetahuinya, biarkan menjadi variabel acak yang diatur oleh , dan biarkanXi ith Ω F Xi Xi+1 Xi F Y F
menjadi kesempatan yang tidak melebihi rata-rata . Kemudian ketika kita tahu (karena ) bahwa sampel asli kami dari nilai harus berisi setidaknya nilai tidak melebihi .Y F Xi≤F1/2 X1≤⋯≤Xi≤F1/2 n i F1/2
Ini adalah masalah Binomial. Secara formal, jika kita mendefinisikan variabel acak menjadi sama dengan ketika dan sebaliknya, hal di atas menunjukkan bahwa memiliki distribusi Bernoulli dengan parameter . "Keberhasilan" terdiri dari mengamati nilai pada atau di bawah median. Oleh karena itu diberikan oleh probabilitas Binomial yang terkait dengan lebih sedikit dari berhasil:Z 1 Y≤F1/2 0 Z πF Pr(Xi>F1/2) i
Anda mungkin memperhatikan bahwa . Bahkan, untuk banyak distribusi kedua nilai sama: mereka hanya berbeda ketika memberikan probabilitas positif ke median . Untuk menganalisis perbedaannya, tulis untuk . Untuk ini berarti iniπF≥1/2 F F1/2 πF=1/2+ε ε≥0 2(j−1)≤n
Akibatnya, ketika , kami dapat menghilangkan ketergantungan jumlah pada , dengan biaya mengganti kesetaraan dengan ketidaksetaraan:2(i−1)≤n F
Argumen yang persis sama (diterapkan dengan membalik statistik urutan) menunjukkan bahwa ketika ,2(i+1)≥n
Sisi kanan berkurang menjadi nol setiap kali (dalam kasus pertama) atau (dalam yang kedua). Oleh karena itu, selalu mungkin untuk menemukan indeks yangi≤0 i≥n l≤u
Larutan
Ini adalah komplemen dari kondisi yang menentukan untuk interval kepercayaan, dan karenanya setara dengan itu:
Dengan memilih untuk membuat sisi kanan setidaknya , kita akan menemukan prosedur interval kepercayaan yang levelnya setidaknya .l≤u 1−α 1−α
Dengan kata lain, saat memilih indeks dan , dengan menetapkan dan , interval akan menjadi CI untuk median memiliki jangkauan setidaknya . Anda dapat menghitung cakupan aktualnya dalam hal probabilitas Binomial. Cakupan ini akan diperoleh untuk setiap distribusi yang menetapkan probabilitas nol untuk (yang mencakup semua distribusi kontinu). Itu akan dilampaui oleh apa pun yang memberikan probabilitas bukan nol pada .l u L(X)=Xl U(X)=Xu [L(X),U(X)] F1/2 1−α F F1/2 F F1/2
Diskusi
Pada titik ini kami memiliki beberapa pilihan. Yang paling umum adalah membuat batas simetris dengan mengatur cukup dekat dengan . Bahkan, dengan menetapkan , batas kepercayaan dapat ditemukan untuk setiap dengan pencarian cepat atau dengan menerapkan fungsi kuantil Binomial.u n+1−l u=n+1−l n
Sebagai contoh, misalkan dan (untuk menggambarkan prosedur CI). Mari kita hitung bagian bawah dari distribusi Binomial kumulatif dengan parameter dan :n=10 α=10% 1−α=90% 10 1/2
(Ini adalah2 5.5% α/2 l=3 u=10+1−3=8 1−0.055−0.055=0.89 90% l=2 u=8 l=3 u=9 1−0.011−.055=0.935
R
perintah dan responsnya.) Karena nilai pada , sama dengan , dekat dengan , ia tergoda untuk mengambil dan , untuk maka cakupannya adalah yang dekat dengan target . Jika Anda harus mencapai cakupan yang diinginkan, maka Anda perlu mengambil dan atau dan , keduanya dengan cakupan .Sebagai tanda centang, mari kita simulasikan banyak dataset dari distribusi apa pun, hitung CI ini untuk dataset, dan hitung proporsi CI yang menutupi median sebenarnya.
R
Contoh ini menggunakan distribusi Normal:Outputnya adalah
Cakupan setuju dengan nilai-nilai teoritis.
Sebagai contoh lain, mari kita ambil sampel dari distribusi diskrit, seperti Poisson:
Kali ini cakupannya jauh lebih tinggi dari yang diperkirakan. Alasannya adalah bahwa ada peluang bahwa nilai acak sama dengan median. Ini sangat meningkatkan kemungkinan bahwa CI menutupi median. Ini bukan masalah atau paradoks. Menurut definisi, cakupan harus setidaknya apa pun distribusi - tetapi dimungkinkan (seperti dalam kasus ini) bahwa cakupan untuk distribusi tertentu jauh lebih besar dari .27% 1−α F 1−α
Di situlah letak pengorbanannya: ketika Anda tidak berasumsi tentang , CI berdasarkan statistik pesanan adalah satu-satunya yang dapat Anda buat. Cakupannya untuk Anda yang sebenarnya (tetapi tidak diketahui) mungkin sedikit lebih tinggi dari yang Anda harapkan. Itu berarti CI Anda akan lebih luas daripada jika Anda telah membuat beberapa asumsi kuat tentang dengan membatasi kemungkinan .F F Ω F
sumber
Jika Anda ingin menggunakan metode numerik, Anda dapat menghasilkan estimasi distribusi median samping dengan menggunakan bootstrap. Ulangi sampel Anda berulang kali dan hitung banyak median. Stdev median ini berfungsi sebagai perkiraan stdev distribusi sampling median. Saya menggunakan metode serupa untuk menghitung ketidakpastian hasil permainan catur di makalah saya tentang catur catur yang dapat ditemukan di sini https://sonoma.academia.edu/JamalMunshi/papers
sumber