Varians dari variabel acak terbatas

22

Misalkan variabel acak memiliki batas bawah dan atas [0,1]. Bagaimana cara menghitung varians dari variabel seperti itu?

Piotr
sumber
8
Cara yang sama seperti untuk variabel tak terbatas - menetapkan integrasi atau batas penjumlahan secara tepat.
Scortchi
2
Seperti yang dikatakan @Scortchi. Tapi saya ingin tahu mengapa Anda berpikir itu mungkin berbeda?
Peter Flom - Reinstate Monica
3
Kecuali jika Anda tidak tahu apa-apa tentang variabel (dalam hal ini batas atas varians dapat dihitung dari keberadaan batas), mengapa fakta bahwa itu terikat masuk ke dalam perhitungan?
Glen_b -Reinstate Monica
6
Batas atas yang berguna pada varian variabel acak yang mengambil nilai dalam dengan probabilitas adalah dan dicapai oleh variabel acak diskrit yang mengambil nilai dan dengan probabilitas yang sama . Hal lain yang perlu diingat adalah bahwa varians dijamin ada sedangkan variabel acak tidak terikat mungkin tidak memiliki varians (beberapa, seperti variabel acak Cauchy bahkan tidak memiliki rata-rata). 1 ( b - a ) 2 / 4 a b 1[a,b]1(ba)2/4ab12
Dilip Sarwate
7
Ada adalah variabel diskrit acak yang varians sama persis: variabel acak yang mengambil nilai-nilai dan dengan probabilitas yang sama . Jadi, setidaknya kita tahu bahwa batas atas universal pada varian tidak boleh lebih kecil dari . ab1(ba)24 ab (b-a)212(ba)24
Dilip Sarwate

Jawaban:

46

Anda dapat membuktikan ketidaksetaraan Popoviciu sebagai berikut. Gunakan notasi dan . Tentukan fungsi oleh Menghitung turunan , dan menyelesaikan kami menemukan bahwa mencapai minimum pada ( perhatikan bahwa ).m=infXM.=supXg

g(t)=E[(X-t)2].
g
g(t)=2E[X]+2t=0,
gt=E[X]g>0

Sekarang, pertimbangkan nilai fungsi pada titik khusus . Itu harus menjadi kasus yang Tetapi Karena dan , kami memiliki menyiratkan bahwa gt=M+m2

VSebuahr[X]=g(E[X])g(M.+m2).
g(M+m2)=E[(XM+m2)2]=14E[((Xm)+(XM))2].
Xm0XM0
((Xm)+(XM))2((Xm)(XM))2=(Mm)2,
14E[((Xm)+(XM))2]14E[((Xm)(XM))2]=(Mm)24.
V a Karenanya, kami membuktikan ketidaksetaraan
Var[X](Mm)24.

Zen
sumber
3
Pendekatan yang bagus: senang melihat demonstrasi yang ketat tentang hal-hal semacam ini.
whuber
22
+1 Bagus! Saya belajar statistik jauh sebelum komputer berada dalam mode, dan satu ide yang dibor ke kami adalah bahwa yang memungkinkan untuk perhitungan varians dengan menemukan jumlah kuadrat dari penyimpangan dari titik dan kemudian menyesuaikan bias. Di sini tentu saja, identitas ini memberikan bukti sederhana dari hasil bahwa memiliki nilai minimum pada tanpa keharusan turunan, dll. t g ( t ) t = μ
E[(Xt)2]=E[((Xμ)(tμ))2]=E[(Xμ)2]+(tμ)2
tg(t)t=μ
Dilip Sarwate
18

Biarkan menjadi distribusi pada . Kami akan menunjukkan bahwa jika varians dari maksimal, maka dapat memiliki tidak ada dukungan di pedalaman, dari yang berikut bahwa adalah Bernoulli dan sisanya adalah sepele.[ 0 , 1 ] F F FF[0,1]FFF

Sebagai soal notasi, biarkan menjadi th saat baku dari (dan, seperti biasa, kita menulis dan untuk varians).k F μ = μ 1 σ 2 = μ 2 - μ 2μk=01xkdF(x)kFμ=μ1σ2=μ2-μ2

Kita tahu tidak memiliki semua dukungannya pada satu titik (variansnya minimal dalam hal itu). Antara lain, ini menyiratkan benar-benar terletak antara dan . Untuk berdebat dengan kontradiksi, anggaplah ada beberapa himpunan bagian dapat diukur di bagian dalam yang . Tanpa kehilangan sifat umum kita dapat mengasumsikan (dengan mengubah ke jika perlu) bahwa : dengan kata lain, diperoleh dengan memotong semua bagian dari atas mean danμ 0 1 I ( 0 , 1 ) F ( I ) > 0 X 1 - X F ( J = I ( 0 , μ ] ) > 0 J I JFμ01saya(0,1)F(saya)>0X1-XF(J=I(0,μ])>0JIJ memiliki probabilitas positif.

Mari kita ubah ke dengan mengambil semua probabilitas dari dan menempatkannya pada . F FF0 J0μ k Dengan demikian, berubah menjadiμk

μk=μkJxkdF(x).

Sebagai notasi, marilah kita menulis untuk integral tersebut, dari mana[g(x)]=Jg(x)dF(x)

μ2=μ2[x2],μ=μ[x].

Menghitung

σ2=μ2μ2=μ2[x2](μ[x])2=σ2+((μ[x][x2])+(μ[x][x]2)).

Istilah kedua di sebelah kanan, , adalah non-negatif karena mana-mana di . Istilah pertama di sebelah kanan dapat ditulis ulangμ x J(μ[x][x]2)μxJ

μ[x][x2]=μ(1[1])+([μ][x][x2]).

Istilah pertama di sebelah kanan adalah benar - benar positif karena (a) dan (b) karena kita mengasumsikan tidak terkonsentrasi pada suatu titik. Istilah kedua adalah non-negatif karena dapat ditulis ulang sebagai dan integand ini tidak negatif dari asumsi pada dan . Oleh karena itu .[ 1 ] = F ( J ) < 1 F [ ( μ - x ) ( x ) ] μ x J 0 x 1μ>0[1]=F(J)<1F[(μx)(x)]μxJ0x1σ2σ2>0

Kami baru saja menunjukkan bahwa berdasarkan asumsi kami, mengubah ke secara ketat meningkatkan variansnya. Maka satu-satunya cara ini tidak dapat terjadi adalah ketika semua probabilitas terkonsentrasi pada titik akhir dan , dengan (katakanlah) masing-masing nilai dan . Variansnya mudah dihitung hingga sama dengan yang maksimal ketika dan sama dengan sana.F F 0 1 1 - p p p ( 1 - p ) p =FF F011ppp(1p)p=1/21/4

Sekarang ketika adalah distribusi pada , kami memasukkan kembali dan mengubah skala ke distribusi pada . Recentering tidak mengubah varians sedangkan rescaling membaginya dengan . Jadi dengan varians maksimal pada sesuai dengan distribusi dengan varians maksimal pada : karena itu adalah distribusi Bernoulli diubah dan diterjemahkan ke memiliki varian 2/4 , QED .[ a , b ] [ 0 , 1 ] ( b - a ) 2 F [ a , b ] [ 0 , 1 ] ( 1 / 2 ) [ a , b ] ( b - a ) 2 / 4F[Sebuah,b][0,1](b-Sebuah)2F[Sebuah,b][0,1](1/2)[Sebuah,b](b-Sebuah)2/4

whuber
sumber
Menarik, whuber. Saya tidak tahu bukti ini.
Zen
6
@ Zen Sama sekali tidak seanggun milikmu. Saya menawarkannya karena saya telah menemukan diri saya selama bertahun-tahun berpikir dengan cara ini ketika dihadapkan dengan ketidaksetaraan distribusi yang jauh lebih rumit: Saya bertanya bagaimana kemungkinannya dapat diubah untuk membuat ketidaksetaraan lebih ekstrem. Sebagai heuristik intuitif, ini berguna. Dengan menggunakan pendekatan seperti yang diuraikan di sini, saya menduga teori umum untuk membuktikan kelas besar ketidaksetaraan dapat diturunkan, dengan semacam rasa hibrida dari Kalkulus Variasi dan teknik pengali Lagrange (dimensional finite).
whuber
Sempurna: jawaban Anda penting karena menggambarkan teknik yang lebih umum yang dapat digunakan untuk menangani banyak kasus lainnya.
Zen
@whuber berkata - "Saya bertanya bagaimana probabilitas dapat diubah untuk membuat ketidaksetaraan lebih ekstrem." - ini sepertinya cara alami untuk berpikir tentang masalah seperti itu.
Glen_b -Reinstate Monica
Tampaknya ada beberapa kesalahan dalam derivasi. Itu harusJuga, tidak sama dengan karena tidak sama dengan[ ( μ - x ) ( x ) ] [ μ ] [ x ] - [ x 2 ] [ μ ] [
μ[x]-[x2]=μ(1-[1])[x]+([μ][x]-[x2]).
[(μ-x)(x)][μ][x]-[x2]μ [ x ][μ][x]μ[x]
Leo
13

Jika variabel acak dibatasi untuk dan kita tahu rata-rata , varians dibatasi oleh .μ = E [ X ] ( b - μ ) ( μ - a )[a,b]μ=E[X](bμ)(μa)

Mari kita perhatikan kasus . Perhatikan bahwa untuk semua , , karenanya juga . Dengan menggunakan hasil ini, x [ 0 , 1 ] x 2x E [ X 2 ] E [ X ] σ 2 = E [ X 2 ] - ( E [ X ] 2 ) = E [ X 2 ] - μ 2μ - μ 2 = μ (a=0,b=1x[0,1]x2xE[X2]E[X]

σ2=E[X2](E[X]2)=E[X2]μ2μμ2=μ(1μ).

Untuk menggeneralisasi ke interval dengan , pertimbangkan terbatas pada . Tentukan , yang dibatasi dalam . Secara ekivalen, , dan dengan demikian mana ketidaksetaraan didasarkan pada hasil pertama. Sekarang, dengan mengganti , sama dengan yang merupakan hasil yang diinginkan.b > a Y [ a , b ] X = Y - a[a,b]b>aY[a,b] [0,1]Y=(b-a)X+aVar[Y]=(b-a)2Var[X](b-a)2μX(1-μX). μX=μY-aX=Yaba[0,1]Y=(ba)X+a

Var[Y]=(ba)2Var[X](ba)2μX(1μX).
(b-a)2μX=μYaba
(ba)2μYaba(1μYaba)=(ba)2μYababμYba=(μYa)(bμY),
Juho Kokkala
sumber
8

Atas permintaan @ user603 ....

Batas atas yang berguna pada varians dari variabel acak yang mengambil nilai dalam dengan probabilitas adalah . Bukti untuk kasus khusus (yang ditanyakan OP) dapat ditemukan di sini di math.SE , dan mudah disesuaikan dengan kasus yang lebih umum. Seperti disebutkan dalam komentar saya di atas dan juga dalam jawaban yang dirujuk di sini, variabel acak diskrit yang mengambil nilai dan dengan probabilitas yang sama memiliki varians dan dengan demikian tidak ada batasan umum yang lebih ketat dapat ditemukan.σ2[Sebuah,b]1σ2(b-Sebuah)24Sebuah=0,b=1Sebuahb12(b-Sebuah)24

Hal lain yang perlu diingat adalah bahwa variabel acak terikat memiliki varians terbatas, sedangkan untuk variabel acak tak terikat, varians mungkin tidak terbatas, dan dalam beberapa kasus bahkan mungkin tidak dapat didefinisikan. Sebagai contoh, rata-rata tidak dapat didefinisikan untuk variabel acak Cauchy , dan karenanya seseorang tidak dapat mendefinisikan varians (seperti harapan deviasi kuadrat dari rata-rata).

Dilip Sarwate
sumber
ini adalah kasus khusus dari jawaban Juho
Aksakal
Itu hanya komentar, tetapi saya juga bisa menambahkan bahwa jawaban ini tidak menjawab pertanyaan yang diajukan.
Aksakal
@Aksakal Jadi ??? Juho menjawab pertanyaan yang sedikit berbeda dan jauh lebih baru diajukan. Pertanyaan baru ini telah digabungkan dengan pertanyaan yang Anda lihat di atas, yang saya jawab sepuluh bulan lalu.
Dilip Sarwate
0

apakah Anda yakin bahwa ini berlaku secara umum - untuk distribusi yang berkelanjutan dan terpisah? Bisakah Anda memberikan tautan ke halaman lain? Untuk distribusi umum pada sepele untuk menunjukkan bahwa Saya dapat membayangkan bahwa ada ketimpangan yang lebih tajam ... Apakah Anda membutuhkan faktor untuk hasil Anda?V a r ( X ) = E [ ( X - E [ X ] ) 2 ] E [ ( b - a ) 2 ] = ( b - a ) 2 . 1 / 4[Sebuah,b]

VSebuahr(X)=E[(X-E[X])2]E[(b-Sebuah)2]=(b-Sebuah)2.
1/4

Di sisi lain kita dapat menemukannya dengan faktor bawah nama Popoviciu's_inequality di wikipedia.1/4

Artikel ini terlihat lebih baik daripada artikel wikipedia ...

Untuk distribusi yang seragam itu menyatakan bahwa

VSebuahr(X)=(b-Sebuah)212.
Ric
sumber
Halaman ini menyatakan hasil dengan permulaan bukti yang terlalu sedikit terlibat bagi saya karena tampaknya memerlukan pemahaman tentang "Teorema Dasar Pemrograman Linear". sci.tech-archive.net/Archive/sci.math/2008-06/msg01239.html
Adam Russell
Terima kasih telah menyebutkan nama ini! "Ketimpangan Popoviciu" adalah yang saya butuhkan.
Adam Russell
2
Jawaban ini membuat beberapa saran yang salah: memang benar. Referensi untuk ketidaksetaraan Popoviciu akan bekerja, tetapi secara tegas itu berlaku hanya untuk distribusi dengan dukungan terbatas (khususnya, yang tidak menyertakan distribusi berkelanjutan). Argumen yang membatasi akan melakukan trik, tetapi sesuatu yang ekstra diperlukan di sini. 1/4
whuber
2
Distribusi kontinu dapat mendekati yang diskrit (dalam istilah cdf) secara sewenang-wenang dekat (misalnya membangun kepadatan kontinu dari diskrit tertentu dengan menempatkan kernel berbentuk Beta kecil (4,4) yang dipusatkan pada setiap titik massa - area yang sesuai - dan biarkan deviasi standar masing-masing kernel menyusut ke nol sambil menjaga daerahnya konstan). Batas diskrit seperti yang dibahas di sini juga akan bertindak sebagai batasan pada distribusi berkelanjutan. Saya berharap Anda berpikir tentang distribusi unimodal terus menerus ... yang memang memiliki batas atas yang berbeda.
Glen_b -Reinstate Monica
2
Yah ... jawaban saya adalah yang paling tidak membantu tetapi saya akan meninggalkannya di sini karena komentar yang bagus. Cheers, R
Ric