Apa varian dari campuran tertimbang dari dua gaussians?

39

Katakanlah saya memiliki dua distribusi normal A dan B dengan mean dan dan varians dan . Saya ingin mengambil campuran berbobot dari dua distribusi ini menggunakan bobot dan mana dan . Saya tahu bahwa rata-rata campuran ini adalah .μ B σ A σ B p q 0 p 1 q = 1 - p μ A B = ( p × μ A ) + ( q × μ B )μAμBσAσBpq0p1q=1pμAB=(p×μA)+(q×μB)

Apa perbedaannya?


Contoh konkret adalah jika saya tahu parameter untuk distribusi tinggi pria dan wanita. Jika saya memiliki ruangan yang terdiri dari 60% pria, saya dapat menghasilkan tinggi rata-rata yang diharapkan untuk seluruh ruangan, tetapi bagaimana dengan variansnya?

JoFrhwld
sumber
Terminologi ulang: Campuran itu hanya memiliki mean dan varian; tidak masuk akal dalam mengkualifikasi ini sebagai "yang diharapkan," kecuali Anda mungkin mengisyaratkan bahwa dan harus dianggap sebagai variabel acak. qpq
whuber
Saya tahu bahwa campuran dari dua distribusi gaussian dapat diidentifikasi. Tetapi apakah kedua distribusi memiliki eman yang sama? Yaitu: apakah campuran dari dua distribusi normal dengan cara yang sama dan standar deviasi yang berbeda dapat diidentifikasi? Ada makalah dalam konteks ini? Terima kasih sebelumnya
1
Ada pertanyaan serupa dengan jawaban (berurusan juga dengan COVARIANCES) di sini: math.stackexchange.com/q/195911/96547
hplieninger

Jawaban:

63

Variansnya adalah momen kedua dikurangi kuadrat dari momen pertama, sehingga cukup untuk menghitung momen campuran.

Secara umum, distribusi yang diberikan dengan PDF dan konstan (non-acak) , PDF dari campuran tersebut adalahp ifipi

f(x)=ipifi(x),

dari yang berikut segera untuk setiap saat yangk

μ(k)=Ef[xk]=ipiEfi[xk]=ipiμi(k).

Saya telah menulis untuk momen dari dan untuk momen dari . k t h f μ ( k ) saya k t h f iμ(k)kthfμi(k)kthfi

Menggunakan rumus-rumus ini, varians dapat ditulis

Var(f)=μ(2)(μ(1))2=ipiμi(2)(ipiμi(1))2.

Secara ekivalen, jika varian diberikan sebagai , maka , memungkinkan varians dari campuran untuk ditulis dalam hal varian dan sarana komponennya sebagaiσ 2 i μ ( 2 ) i = σ 2 i + ( μ ( 1 ) i ) 2 ffiσi2μi(2)=σi2+(μi(1))2f

Var(f)=ipi(σi2+(μi(1))2)(ipiμi(1))2=ipiσi2+ipi(μi(1))2(ipiμi(1))2.

Dengan kata lain, ini adalah varians rata-rata (tertimbang) ditambah rata-rata kuadrat rata-rata dikurangi kuadrat dari rata-rata. Karena kuadrat adalah fungsi cembung, Ketidaksamaan Jensen menegaskan bahwa rata-rata kuadrat dapat tidak kurang dari kuadrat rata-rata rata-rata. Hal ini memungkinkan kita untuk memahami formula karena menyatakan varian campuran adalah campuran varian ditambah istilah non-negatif yang menghitung dispersi (tertimbang) sarana.

Dalam kasus Anda variansnya

pAσA2+pBσB2+[pAμA2+pBμB2(pAμA+pBμB)2].

Kita dapat menafsirkan ini adalah campuran berbobot dari dua varian, , ditambah istilah koreksi (harus positif) untuk memperhitungkan pergeseran dari rata-rata individu relatif terhadap rata-rata campuran keseluruhan.pAσA2+pBσB2

Kegunaan varian ini dalam menginterpretasikan data, seperti yang diberikan dalam pertanyaan, diragukan, karena distribusi campuran tidak akan Normal (dan mungkin jauh berbeda darinya, sejauh menunjukkan bimodalitas).

whuber
sumber
8
Secara khusus, mencatat bahwa , ekspresi terakhir Anda menyederhanakan menjadi . σ 2 = μ ( 2 ) - μ 2 = p A σ 2 A + p B σ 2 B + p A p B ( μ A - μ B ) 2pA+pB=1σ2=μ(2)μ2=pAσA2+pBσB2+pApB(μAμB)2
Ilmari Karonen
2
Atau, jika kita melakukan memaksakan penjelasan probabilistik untuk kepadatan campuran (ada acara dari probabiity dan kondisional kepadatan diberikan adalah sedangkan bersyarat kepadatan diberikan adalah ), lalu var adalah jumlah dari rata-rata dari varian bersyarat ditambah dengan varian dari rata-rata bersyarat. Yang terakhir adalah RV diskrit dengan nilai dengan probabilitas danp A X A N ( μ A , σ 2 A ) X A c = B N ( μ B , σ 2 B ) ( X ) Y μ A , μ B p q E [ Y 2 ] - ( E [ Y ] ) 2ApAXAN(μA,σA2)XAc=BN(μB,σB2)(X)YμA,μBpqdan ekspresi Anda dalam tanda kurung siku mudah dikenal sebagai . E[Y2](E[Y])2
Dilip Sarwate
1
@Neodyme Secara definisi, varians adalah momen kedua dikurangi rata-rata kuadrat. Oleh karena itu, momen kedua adalah varians plus mean kuadrat.
whuber
1
@Neodyme use . E(X)=μ
whuber
1
@Kiran Meskipun dalam beberapa kasus campuran mungkin terlihat Normal, itu tidak akan terjadi. Salah satu cara untuk melihatnya adalah dengan menghitung kelebihan kurtosis menggunakan rumus yang diberikan di sini. Ini akan menjadi nol kecuali semua standar deviasi sama - dalam hal ini "campuran" sebenarnya bukan campuran di tempat pertama.
whuber