Katakanlah saya memiliki dua distribusi normal A dan B dengan mean dan dan varians dan . Saya ingin mengambil campuran berbobot dari dua distribusi ini menggunakan bobot dan mana dan . Saya tahu bahwa rata-rata campuran ini adalah .μ B σ A σ B p q 0 ≤ p ≤ 1 q = 1 - p μ A B = ( p × μ A ) + ( q × μ B )
Apa perbedaannya?
Contoh konkret adalah jika saya tahu parameter untuk distribusi tinggi pria dan wanita. Jika saya memiliki ruangan yang terdiri dari 60% pria, saya dapat menghasilkan tinggi rata-rata yang diharapkan untuk seluruh ruangan, tetapi bagaimana dengan variansnya?
normal-distribution
mixture
JoFrhwld
sumber
sumber
Jawaban:
Variansnya adalah momen kedua dikurangi kuadrat dari momen pertama, sehingga cukup untuk menghitung momen campuran.
Secara umum, distribusi yang diberikan dengan PDF dan konstan (non-acak) , PDF dari campuran tersebut adalahp ifsaya halsaya
dari yang berikut segera untuk setiap saat yangk
Saya telah menulis untuk momen dari dan untuk momen dari . k t h f μ ( k ) saya k t h f iμ( k ) kt h f μ(k)i kth fi
Menggunakan rumus-rumus ini, varians dapat ditulis
Secara ekivalen, jika varian diberikan sebagai , maka , memungkinkan varians dari campuran untuk ditulis dalam hal varian dan sarana komponennya sebagaiσ 2 i μ ( 2 ) i = σ 2 i + ( μ ( 1 ) i ) 2 ffi σ2i μ(2)i=σ2i+(μ(1)i)2 f
Dengan kata lain, ini adalah varians rata-rata (tertimbang) ditambah rata-rata kuadrat rata-rata dikurangi kuadrat dari rata-rata. Karena kuadrat adalah fungsi cembung, Ketidaksamaan Jensen menegaskan bahwa rata-rata kuadrat dapat tidak kurang dari kuadrat rata-rata rata-rata. Hal ini memungkinkan kita untuk memahami formula karena menyatakan varian campuran adalah campuran varian ditambah istilah non-negatif yang menghitung dispersi (tertimbang) sarana.
Dalam kasus Anda variansnya
Kita dapat menafsirkan ini adalah campuran berbobot dari dua varian, , ditambah istilah koreksi (harus positif) untuk memperhitungkan pergeseran dari rata-rata individu relatif terhadap rata-rata campuran keseluruhan.pAσ2A+pBσ2B
Kegunaan varian ini dalam menginterpretasikan data, seperti yang diberikan dalam pertanyaan, diragukan, karena distribusi campuran tidak akan Normal (dan mungkin jauh berbeda darinya, sejauh menunjukkan bimodalitas).
sumber