Dari kursus probabilitas dasar, distribusi probabilitas seperti Gaussian, Poisson atau eksponensial semua memiliki motivasi yang baik. Setelah menatap formula distribusi keluarga eksponensial untuk waktu yang lama, saya masih tidak mendapatkan intuisi.
Adakah yang bisa membantu saya memahami Mengapa kita membutuhkannya? Apa keuntungan memodelkan variabel respons menjadi keluarga eksponensial vs normal?
EDIT: Oleh keluarga eksponensial, yang saya maksud adalah kelas distribusi umum yang dijelaskan di sini .
exponential-family
penghuni utara
sumber
sumber
Jawaban:
Keluarga eksponensial jauh lebih luas daripada keluarga normal. Misalnya, apa keuntungan menggunakan Poisson atau binomial daripada normal? Normal tidak banyak digunakan jika Anda menghitung dengan mean rendah. Bagaimana jika data Anda kontinu tetapi condong sangat benar - mungkin waktu atau jumlah uang? Keluarga eksponensial termasuk normal, binomial, Poisson dan Gamma sebagai kasus khusus (di antara banyak lainnya)
Ini menggabungkan berbagai variasi hubungan mean-varian .
Ini berasal dari mencoba menjawab pertanyaan di sepanjang baris "apa distribusi adalah fungsi dari statistik yang cukup ", dan model memiliki dapat diperkirakan melalui ML menggunakan statistik yang cukup sederhana; ini termasuk model biasa yang tersedia dalam program yang sesuai dengan model linier umum. Memang statistik yang cukup ( ) eksplisit dalam fungsi kerapatan eksponensial-keluarga.T(x)
Itu membuatnya mudah untuk memisahkan hubungan antara respons dan prediktor dari distribusi kondisional dari respons (melalui fungsi tautan). Misalnya Anda dapat mencocokkan hubungan garis lurus ke model yang menentukan respons bersyarat memiliki distribusi gamma , atau hubungan eksponensial dengan respons Gaussian bersyarat dalam kerangka kerja GLM.
Bagi orang Bayes, keluarga eksponensial cukup menarik karena semua anggota keluarga eksponensial memiliki prior konjugasi.
sumber
Bagi saya, motivasi utama di balik distribusi keluarga eksponensial adalah bahwa mereka adalah keluarga distribusi entropi maksimum yang diberikan serangkaian statistik dan dukungan yang memadai. Dengan kata lain, mereka adalah distribusi asumsi minimum.
Misalnya, jika Anda hanya mengukur rata-rata dan varians dari kuantitas yang dinilai nyata, pilihan pemodelan yang paling tidak berasumsi adalah distribusi normal.
Dari sudut pandang komputasi, ada keuntungan lain:
Mereka ditutup di bawah "kombinasi bukti". Yaitu, kombinasi dari dua kemungkinan independen dari keluarga eksponensial yang sama selalu dalam keluarga eksponensial yang sama dan parameter alaminya hanyalah jumlah dari parameter alami komponennya. Ini nyaman untuk statistik Bayesian.
Gradien dari entropi silang antara dua distribusi keluarga eksponensial adalah perbedaan parameter ekspektasinya. Ini berarti bahwa fungsi kehilangan yang merupakan cross entropy adalah fungsi kerugian yang cocok , yang sesuai untuk optimasi.
sumber
Daftar Glen baik. Saya akan menambahkan 1 aplikasi lagi untuk melengkapi jawabannya: menurunkan prior konjugasi untuk inferensi Bayesian.
Bagian inti dari inferensi Bayesian adalah menurunkan distribusi posterior . Memiliki sebelumnya yang konjugat dengan kemungkinan berarti bahwa posterior dan sebelumnya akan termasuk dalam kelas distribusi probabilitas yang sama.p(θ|y)∝p(y|θ)p(θ) p(θ) p(y|θ) p(y|θ) p(θ)
Properti berguna yang saya maksudkan adalah bahwa, untuk kemungkinan pengamatan diambil dari satu keluarga parameter eksponensial dari formulirn
kita bisa menuliskan konjugasi sebelumnya sebagai
dan kemudian posterior berfungsi sebagai
Mengapa konjugasi ini bermanfaat? Karena itu menyederhanakan interpretasi dan perhitungan kami saat melakukan inferensi Bayesian. Ini juga berarti kita dapat dengan mudah menghasilkan ekspresi analitik untuk posterior tanpa harus melakukan terlalu banyak aljabar.
sumber
Anda ingin model data mencerminkan proses pembuatannya. 'Proses' menghasilkan variabel Gaussian memiliki karakteristik yang sangat berbeda dari yang mengatur eksponensial, dan itu tidak selalu intuitif mengapa. Terkadang Anda perlu menghargai karakteristik distribusi lainnya. Sebagai salah satu contoh, pertimbangkan bahwa fungsi bahaya untuk Gaussian meningkat sementara eksponensial datar. Sebagai contoh praktis basi, anggaplah saya akan menyodok Anda pada interval, dan 'interval poke antar' akan dipilih oleh Gaussian atau fungsi pembangkit eksponensial. Di bawah Gaussian, Anda akan menemukan bahwa colekan dapat diprediksi, dan terasa sangat mungkin setelah interval yang lama. Di bawah eksponensial, mereka akan merasa sangat tidak terduga. Alasan untuk ini adalah karena fungsi pembangkit, yang tergantung pada fenomena yang mendasarinya.
sumber