Misalkan saya memiliki campuran banyak Gaussians dengan bobot, sarana, dan standar deviasi yang diketahui. Berarti tidak sama. Deviasi rata-rata dan standar dari campuran dapat dihitung, tentu saja, karena momen adalah rata-rata tertimbang dari momen komponen. Campuran itu bukan distribusi normal, tetapi seberapa jauh dari normal itu?
Gambar di atas menunjukkan kepadatan probabilitas untuk campuran Gaussian dengan rata-rata komponen yang dipisahkan oleh standar deviasi (komponen) dan Gaussian tunggal dengan rerata dan varian yang sama.
Di sini alat dipisahkan oleh deviasi standar dan lebih sulit untuk memisahkan campuran dari Gaussian dengan mata.
Motivasi: Saya tidak setuju dengan beberapa orang malas tentang beberapa distribusi aktual yang belum mereka ukur yang mereka anggap mendekati normal karena itu akan menyenangkan. Saya malas juga. Saya juga tidak ingin mengukur distribusi. Saya ingin dapat mengatakan asumsi mereka tidak konsisten, karena mereka mengatakan bahwa campuran yang terbatas dari Gaussians dengan cara yang berbeda adalah Gaussian yang tidak benar. Saya tidak hanya ingin mengatakan bahwa bentuk ekor yang asimptotik salah karena ini hanya perkiraan yang hanya dianggap cukup akurat dalam beberapa standar deviasi rata-rata. Saya ingin dapat mengatakan bahwa jika komponen-komponennya didekati dengan baik oleh distribusi normal maka campurannya tidak, dan saya ingin dapat mengukur ini.
sumber
Jawaban:
Divergensi KL akan alami karena Anda memiliki distribusi basis alami, Gaussian tunggal, dari mana campuran Anda menyimpang. Di sisi lain, divergensi KL (atau bentuk 'jarak' simetrisnya) antara dua campuran Gaussian, di mana masalah Anda merupakan kasus khusus, tampaknya tidak dapat dipecahkan secara umum. Hershey dan Olson (2007) terlihat seperti ringkasan yang masuk akal dari perkiraan yang tersedia, termasuk metode variasi yang mungkin menawarkan batasan yang lebih mudah.
Namun, jika Anda ingin berdebat tentang efek buruk dari mengasumsikan sesuatu adalah Gaussian ketika itu benar-benar campuran, maka yang terbaik adalah memiliki ide yang baik tentang konsekuensi yang benar-benar Anda minati - sesuatu yang lebih spesifik daripada sekadar 'salah '(ini poin @ Michael-Chernick). Misalnya, konsekuensi untuk tes, atau interval, atau semacamnya. Dua efek yang jelas dari campuran tersebut adalah penyebaran berlebih, yang cukup banyak dijamin, dan multimodality, yang akan membingungkan para pemaksimalan.
sumber
Biarkan saya menindaklanjuti dengan mempertimbangkan konsekuensi dari spesifikasi distribusi yang salah. Daripada menggunakan ukuran jarak yang umum, seperti KL Divergence, Anda dapat mengevaluasi ukuran "perbedaan" yang disesuaikan, sesuai dengan konsekuensi yang ada.
Sebagai contoh, jika distribusi akan digunakan untuk perhitungan risiko, misalnya untuk menentukan bahwa probabilitas kegagalan cukup rendah, maka satu-satunya hal yang penting dalam kecocokan adalah perhitungan probabilitas di ekor ekstrim. Ini mungkin relevan dengan keputusan pada program multi-miliar dolar, dan melibatkan masalah hidup dan mati.
Di mana asumsi Normal cenderung paling tidak akurat? Dalam banyak kasus, di ujung yang ekstrem, satu-satunya tempat yang penting untuk perhitungan risiko penting ini. Jika misalnya, distribusi Anda yang sebenarnya adalah campuran dari Normals yang memiliki rata-rata yang sama, tetapi penyimpangan standar yang berbeda, maka ekor dari distribusi campuran lebih gemuk daripada ekor dari distribusi Normal yang memiliki mean dan standar deviasi yang sama. Ini dapat dengan mudah menghasilkan urutan perbedaan yang besar (perkiraan risiko yang lebih rendah) untuk probabilitas di ekor yang ekstrem.
sumber