Ini adalah masalah dari "7th Kolmogorov Student Olympiad in Probability Theory":
Diberikan satu pengamatan dari distribusi dengan kedua parameter tidak diketahui, berikan interval kepercayaan untuk dengan tingkat kepercayaan setidaknya 99%.
Bagi saya sepertinya ini tidak mungkin. Saya punya solusinya, tetapi belum membacanya. Adakah pikiran?
Saya akan memposting solusinya dalam beberapa hari.
[Suntingan lanjutan: Solusi resmi diposting di bawah ini. Solusi Cardinal lebih panjang, tetapi memberikan interval kepercayaan yang lebih baik. Terima kasih juga kepada Max dan Glen_b untuk masukan mereka.]
probability
normal-distribution
confidence-interval
variance
Jonathan Christensen
sumber
sumber
Jawaban:
Dilihat melalui lensa ketidaksetaraan probabilitas dan koneksi ke kasus multi-observasi, hasil ini mungkin tidak tampak begitu mustahil, atau, setidaknya, itu mungkin tampak lebih masuk akal.
Biarkan dengan dan tidak dikenal. Kita dapat menulis untuk .X∼N(μ,σ2) μ σ2 X=σZ+μ Z∼N(0,1)
Alasan untuk optimis
Ingat bahwa dalam kasus , dengan , interval kepercayaan tipikal untuk adalah mana adalah kuantil-tingkat dari chi-kuadrat dengan derajat kebebasan. Ini, tentu saja, berlaku untuk semua . Meskipun ini adalah interval yang paling populer (disebut interval sama-ekor untuk alasan yang jelas), ini bukan satu-satunya atau bahkan yang memiliki lebar terkecil! Seperti yang seharusnya, pemilihan lain yang valid adalahn≥2 T=∑ni=1(Xi−X¯)2 (1−α) σ2
Karena, , lalu juga memiliki cakupan setidaknya .T≤∑ni=1X2i
Dilihat dari sudut pandang ini, kita mungkin optimis bahwa interval dalam klaim utama adalah benar untuk . Perbedaan utama adalah bahwa tidak ada distribusi nol-derajat-kebebasan-kuadrat untuk kasus pengamatan tunggal, jadi kita harus berharap bahwa menggunakan kuantil satu derajat kebebasan akan bekerja.n=1
Setengah langkah menuju tujuan kami ( Memanfaatkan ekor kanan )
Sebelum menyelami bukti klaim utama, pertama mari kita lihat klaim awal yang hampir tidak sekuat atau memuaskan secara statistik, tetapi mungkin memberikan beberapa wawasan tambahan tentang apa yang sedang terjadi. Anda dapat melewatkan bukti klaim utama di bawah ini, tanpa banyak kerugian (jika ada). Pada bagian ini dan selanjutnya, bukti — meski sedikit halus — didasarkan hanya pada fakta-fakta dasar: monotonitas probabilitas, dan simetri serta unimodality dari distribusi normal.
Klaim bantu : adalah interval kepercayaan untuk selama . Di sini adalah quantile tingkat- dari standar normal.[0,X2/z2α) (1−α) σ2 α>1/2 zα α
Bukti . danoleh simetri, jadi dalam apa yang berikut kita dapat mengambil tanpa kehilangan keumuman Sekarang, untuk dan , dan demikian pula dengan , kita melihat bahwa Ini hanya berfungsi untuk , karena itulah yang diperlukan untuk .|X|=|−X| |σZ+μ|=d|−σZ+μ| μ≥0 θ≥0 μ≥0
Ini membuktikan klaim pembantu. Meskipun ilustratif, itu tidak meyakinkan dari perspektif statistik karena itu membutuhkan sangat besar untuk bekerja.α
Membuktikan klaim utama
Penyempurnaan argumen di atas mengarah pada hasil yang akan bekerja untuk tingkat kepercayaan yang sewenang-wenang. Pertama, perhatikan bahwa Set dan . Kemudian, Jika kita dapat menunjukkan bahwa tangan kanan sisi kenaikan untuk setiap tetap , maka kita dapat menggunakan argumen yang sama seperti dalam argumen sebelumnya. Ini setidaknya masuk akal, karena kami ingin percaya bahwa jika mean meningkat, maka menjadi lebih mungkin bahwa kita melihat nilai dengan modulus yang melebihi
Set . Kemudian Perhatikan bahwa dan untuk positif , menurun di . Sekarang, untuk , mudah untuk melihat bahwa . Fakta-fakta ini diambil bersama-sama dengan mudah menyiratkan bahwa untuk semua dan semua yang diperbaiki .fb(a)=Φ(a−b)+Φ(−a−b)
Karenanya, kami telah memperlihatkan bahwa untuk dan ,a≥0 b≥0
Mengurai semua ini, jika kita mengambil , kita mendapatkan yang menetapkan klaim utama.θ=qα−−√σ
Komentar penutup : Pembacaan yang cermat atas argumen di atas menunjukkan bahwa ia hanya menggunakan properti simetris dan unimodal dari distribusi normal. Oleh karena itu, pendekatan ini bekerja secara analog untuk mendapatkan interval kepercayaan dari pengamatan tunggal dari keluarga skala lokasi simetris unimodal, misalnya, distribusi Cauchy atau Laplace.
sumber
Waktunya untuk menindaklanjuti! Inilah solusi yang saya berikan:
Interval kepercayaan (yang sangat lebar) sedikit konservatif dalam simulasi, tanpa cakupan empiris (dalam 100.000 simulasi) lebih rendah dari 99,15% karena saya memvariasikan CV pada banyak pesanan besar.
Sebagai perbandingan, saya juga mensimulasikan interval kepercayaan kardinal. Saya harus mencatat bahwa interval kardinal agak sedikit lebih sempit - dalam kasus 99%, akhirnya menjadi sekitar , dibandingkan dengan dalam solusi yang disediakan. Cakupan empiris tepat di tingkat nominal, sekali lagi atas banyak pesanan besarnya untuk CV. Jadi intervalnya pasti menang.6300X2 10000X2
Saya belum punya waktu untuk melihat dengan cermat pada kertas yang diposting Max, tapi saya berencana untuk melihatnya dan mungkin menambahkan beberapa komentar mengenai hal itu nanti (yaitu, tidak lebih dari seminggu). Makalah itu mengklaim interval kepercayaan 99% , yang memiliki cakupan empiris sedikit lebih rendah (sekitar 98,85%) daripada cakupan nominal untuk CV besar dalam simulasi singkat saya.(0,4900X2)
sumber
pchisq(1/4900,1,lower.tail=F)
diR
kembali0.9886
, cukup dekat dengan hasil simulasi untuk interval.CI mungkin.(0,∞)
sumber