Apakah versi sampel ketidaksetaraan Chebyshev satu sisi ada?

32

Saya tertarik pada versi Cantelli satu sisi tentang ketidaksetaraan Chebyshev :

P(XE(X)t)Var(X)Var(X)+t2.

Pada dasarnya, jika Anda mengetahui mean dan varians populasi, Anda dapat menghitung batas atas pada probabilitas mengamati nilai tertentu. (Setidaknya itu adalah pemahaman saya.)

Namun, saya ingin menggunakan mean sampel dan varians sampel daripada mean populasi aktual dan varians.

Saya menduga bahwa karena ini akan menimbulkan lebih banyak ketidakpastian, batas atas akan meningkat.

Apakah ada ketidaksamaan analog dengan di atas, tetapi yang menggunakan mean dan varians sampel?

Sunting : "Sampel" analog dari Chebyshev Ketimpangan (tidak satu sisi), telah dikerjakan. The halaman Wikipedia memiliki beberapa rincian. Namun, saya tidak yakin bagaimana ini akan diterjemahkan ke satu sisi kasus yang saya miliki di atas.

casandra
sumber
Terima kasih Glen_b. Ini masalah yang cukup menarik. Saya selalu berpikir bahwa ketimpangan Chebyshev sangat kuat (karena memungkinkan Anda melakukan inferensi statistik tanpa memerlukan distribusi probabilitas); jadi bisa menggunakannya dengan mean sampel dan varians akan sangat luar biasa.
casandra

Jawaban:

26

Ya, kita bisa mendapatkan hasil yang analog menggunakan mean sampel dan varians, dengan mungkin, beberapa kejutan kecil muncul dalam proses.

Pertama, kita perlu sedikit memperbaiki pernyataan pertanyaan dan menetapkan beberapa asumsi. Yang penting, harus jelas bahwa kita tidak bisa berharap untuk mengganti varians populasi dengan varians sampel di sisi kanan karena yang terakhir adalah acak ! Jadi, kami memfokuskan kembali perhatian kami pada ketimpangan setara Dalam hal tidak jelas bahwa ini adalah setara, perhatikan bahwa kami hanya mengganti t dengan t σ dalam ketidaksetaraan awal tanpa kehilangan secara umum.

P(XEXtσ)11+t2.
ttσ

Kedua, kita asumsikan bahwa kita memiliki sampel acak dan kami tertarik dalam batas atas untuk analog kuantitas P ( X 1 - ˉ Xt S ) , di mana ˉ X adalah sampel mean dan S adalah standar deviasi sampel.X1,,XnP(X1X¯tS)X¯S

Setengah langkah ke depan

X1X¯

P(X1X¯tσ)11+nn1t2
σ2=Var(X1)σS

Versi sampel Chebyshev satu sisi

X1,,XnP(S=0)=0

P(X1X¯tS)11+nn1t2.

Xi

Yi=XiX¯

P(Y1tS)=1ni=1nP(YitS)=E1ni=1n1(YitS).

c>0{S>0}

1(YitS)=1(Yi+tcStS(1+c))1((Yi+tcS)2t2(1+c)2S2)(Yi+tcS)2t2(1+c)2S2.

Kemudian, karena dan .

1ni1(YitS)1ni(Yi+tcS)2t2(1+c)2S2=(n1)S2+nt2c2S2nt2(1+c)2S2=(n1)+nt2c2nt2(1+c)2,
Y¯=0iYi2=(n1)S2

Sisi kanan adalah konstanta ( ! ), Jadi dengan mengambil ekspektasi pada hasil kedua sisi, Akhirnya, meminimalkan lebih dari , menghasilkan , yang setelah sedikit aljabar menetapkan hasilnya.

P(X1X¯tS)(n1)+nt2c2nt2(1+c)2.
cc=n1nt2

Kondisi teknis yang sial itu

Perhatikan bahwa kita harus mengasumsikan agar dapat dibagi dengan dalam analisis. Ini bukan masalah untuk distribusi yang benar-benar kontinu, tetapi menimbulkan ketidaknyamanan untuk yang terpisah. Untuk distribusi diskrit, ada beberapa kemungkinan bahwa semua pengamatan adalah sama, dalam hal ini untuk semua dan .P(S=0)=0S20=Yi=tS=0it>0

Kita dapat menggoyangkan jalan keluar kita dengan menetapkan . Kemudian, perhitungan argumen yang cermat menunjukkan bahwa semuanya berjalan hampir tidak berubah dan kita dapatkanq=P(S=0)

Konsekuensi 1 . Untuk kasus , kami memilikiq=P(S=0)>0

P(X1X¯tS)(1q)11+nn1t2+q.

Bukti . Berpisah pada acara dan . Bukti sebelumnya berlaku untuk dan case sepele.{S>0}{S=0}{S>0}{S=0}

Ketidaksetaraan sedikit lebih baik jika kita mengganti ketidaksetaraan nonstrik dalam pernyataan probabilitas dengan versi yang ketat.

Konsekuensi 2 . Misalkan (mungkin nol). Kemudian,q=P(S=0)

P(X1X¯>tS)(1q)11+nn1t2.

Pernyataan akhir : Versi sampel ketimpangan yang diperlukan tidak ada asumsi (selain itu tidak hampir-pasti konstan dalam kasus nonstrict ketimpangan, yang versi aslinya juga diam-diam mengasumsikan), pada dasarnya, karena sampel mean dan sampel varians selalu ada apakah analog populasi mereka lakukan atau tidak.X

kardinal
sumber
15

Ini hanyalah pelengkap jawaban cerdas @ cardinal. Samuelson Inequality , menyatakan bahwa, untuk sampel ukuran , ketika kita memiliki setidaknya tiga nilai berbeda dari terealisasi , ia menyatakan bahwa mana dihitung tanpa koreksi bias, .nxi

xix¯<sn1,i=1,...n
ss=(1ni=1n(xix¯)2)1/2

Kemudian, menggunakan notasi jawaban Kardinal kita dapat menyatakan itu

P(X1X¯Sn1)=0a.s.[1]

Karena kita memerlukan, tiga nilai berbeda, kita akan memiliki dengan asumsi. Jadi pengaturan dalam Ketidaksetaraan Cardinal (versi awal) kita dapatkanS0t=n1

P(X1X¯Sn1)11+n,[2]

Eq. tentu saja kompatibel dengan persamaan. . Kombinasi keduanya memberi tahu kita bahwa Ketimpangan Kardinal berguna sebagai pernyataan probabilistik untuk . [2][1]0<t<n1

Jika Ketidaksetaraan Kardinal mengharuskan untuk dihitung bias-dikoreksi (sebut ini ) maka persamaan menjadiSS~

P(X1X¯S~n1n)=0a.s.[1a]

dan kami memilih untuk diperoleh melalui Ketimpangan Kardinalt=n1n

P(X1X¯S~n1n)1n,[2a]
dan interval bermakna secara probabilistik untuk adalaht0<t<n1n.
Alecos Papadopoulos
sumber
2
(+1) Kebetulan, ketika saya pertama kali mempertimbangkan masalah ini, fakta bahwa sebenarnya adalah petunjuk awal bahwa ketimpangan sampel harus lebih ketat daripada yang asli. Saya ingin memasukkannya ke dalam posting saya, tetapi tidak dapat menemukan tempat (nyaman) untuk itu. Saya senang melihat Anda menyebutkannya (sebenarnya ada sedikit peningkatan) di sini bersama dengan elaborasi tambahan Anda yang sangat bagus. Tepuk tangan. maxi|XiX¯|Sn1
kardinal
Cheers @ Cardinal, jawaban yang bagus -hanya mengklarifikasi untuk saya -apakah penting bagi Ketidaksetaraan Anda bagaimana seseorang mendefinisikan varian sampel (bias dikoreksi atau tidak)?
Alecos Papadopoulos
Hanya sedikit saja. Saya menggunakan varians sampel bias-dikoreksi. Jika Anda menggunakan sebagai ganti untuk menormalkan, maka Anda akan berakhir dengan alih-alih yang berarti istilah dalam ketidaksetaraan akhir akan hilang. Dengan demikian, Anda akan mendapatkan ikatan yang sama seperti dalam ketidaksetaraan Chebyshev satu sisi yang asli dalam kasus itu. (Dengan asumsi saya sudah melakukan aljabar dengan benar.) :-)nn1
1+t2c2t2(1+c)2
(n1)+nt2c2nt2(1+c)2,
n/(n1)
kardinal
@ Cardinal ... yang berarti bahwa persamaan yang relevan dalam jawaban saya adalah dan , yang berarti bahwa ketidaksetaraan Anda memberi tahu kami bahwa untuk memilih untuk mengaktifkan Ketidaksetaraan Samuelson, probabilitas acara yang kami periksa, tidak boleh lebih besar dari , yaitu tidak lebih besar daripada secara acak memilih satu nilai yang direalisasikan dari sampel ... yang entah bagaimana masuk akal kabur: apa yang terbukti tentu tidak mungkin dalam hal deterministik, ketika didekati secara probabilistik, probabilitasnya tidak melebihi peralatan yang dapat diperbesar ... tidak jelas dalam pikiran saya. 1a2at1/n
Alecos Papadopoulos