Perbandingan antara MaxEnt, ML, Bayes dan jenis metode inferensi statistik lainnya

21

Saya sama sekali tidak seorang ahli statistik (saya pernah mengikuti kursus dalam statistik matematika tetapi tidak lebih dari itu), dan baru-baru ini, ketika mempelajari teori informasi dan mekanika statistik, saya bertemu dengan hal yang disebut "ukuran ketidakpastian" / "entropi" ini. Saya membaca turunan Khinchin sebagai ukuran ketidakpastian dan masuk akal bagi saya. Hal lain yang masuk akal adalah deskripsi Jaynes dari Maxent untuk mendapatkan statistik ketika Anda tahu mean aritmetik dari satu atau lebih fungsi / s pada sampel (dengan asumsi Anda menerima sebagai ukuran ketidakpastian tentu saja). -halsayadalamhalsaya

Jadi saya mencari di internet untuk menemukan hubungan dengan metode inferensi statistik lain, dan Tuhan saya bingung. Misalnya makalah ini menyarankan, dengan asumsi bahwa saya sudah benar, bahwa Anda hanya mendapatkan estimator ML di bawah reformulasi yang sesuai dari masalah; MacKey, dalam bukunya, mengatakan bahwa MaxEnt dapat memberi Anda hal-hal aneh, dan Anda tidak boleh menggunakannya bahkan untuk perkiraan awal dalam inferensi Bayesian; dll. Saya kesulitan menemukan perbandingan yang bagus.

Pertanyaan saya adalah, dapatkah Anda memberikan penjelasan dan / atau penyempurnaan yang baik dari titik lemah dan kuat MaxEnt sebagai metode inferensi statistik dengan perbandingan kuantitatif dengan metode lain (ketika diterapkan pada model mainan misalnya)?

Francesco
sumber

Jawaban:

19

Metode inferensi MaxEnt dan Bayesian berhubungan dengan berbagai cara menggabungkan informasi ke dalam prosedur pemodelan Anda. Keduanya dapat diletakkan di atas landasan aksiomatik ( "Aksioma Entropi Maksimal" karya John Skilling dan "Aljabar Kemungkinan Kemungkinan" karya Cox ).

Pendekatan Bayesian mudah diterapkan jika pengetahuan Anda sebelumnya datang dalam bentuk fungsi bernilai riil yang terukur atas ruang hipotesis Anda, yang disebut "prior". MaxEnt mudah ketika informasi itu datang sebagai sekumpulan kendala keras pada ruang hipotesis Anda. Dalam kehidupan nyata, pengetahuan tidak datang dalam bentuk "sebelumnya" atau dalam bentuk "kendala", sehingga keberhasilan metode Anda tergantung pada kemampuan Anda untuk mewakili pengetahuan Anda dalam bentuk yang sesuai.

Pada masalah mainan, rata-rata model Bayesian akan memberi Anda kehilangan log rata-rata terendah ( rata-rata di atas banyak model menarik) ketika sebelumnya cocok dengan distribusi hipotesis yang sebenarnya. Pendekatan MaxEnt akan memberi Anda log-loss terendah terburuk saat kendala terpenuhi (terburuk diambil alih semua kemungkinan prior)

ETJaynes, dianggap sebagai bapak metode "MaxEnt" juga mengandalkan metode Bayesian. Pada halaman 1412 dari bukunya , ia memberikan contoh di mana pendekatan Bayesian menghasilkan solusi yang baik, diikuti oleh contoh di mana pendekatan MaxEnt lebih alami.

Kemungkinan maksimum pada dasarnya membawa model untuk berada di dalam ruang model yang telah ditentukan sebelumnya dan berusaha menyesuaikannya "sekeras mungkin" dalam arti bahwa ia akan memiliki sensitivitas tertinggi terhadap data dari semua metode pemilihan model yang terbatas pada model tersebut ruang. Sedangkan MaxEnt dan Bayesian adalah kerangka kerja, ML adalah metode pemasangan model konkret, dan untuk beberapa pilihan desain tertentu, ML dapat berakhir dengan metode yang keluar dari pendekatan Bayesian atau MaxEnt. Misalnya, MaxEnt dengan kendala kesetaraan setara dengan Maximum Likelihood fitting dari keluarga eksponensial tertentu. Demikian pula, perkiraan Bayesian Inference dapat mengarah pada solusi Maximum Likelihood yang diatur. Jika Anda memilih sebelum membuat kesimpulan Anda peka terhadap data, hasil inferensi Bayesian akan sesuai dengan pemasangan Kemungkinan Maksimum. Contohnya,hal

Keberhasilan Pembelajaran Mesin kehidupan nyata seringkali merupakan campuran dari berbagai filosofi. Misalnya, "Bidang Acak" berasal dari prinsip MaxEnt. Implementasi ide yang paling populer, CRF yang teregulasi, melibatkan penambahan "prior" pada parameter. Akibatnya, metode ini tidak benar-benar MaxEnt atau Bayesian, tetapi dipengaruhi oleh kedua aliran pemikiran.

Saya telah mengumpulkan beberapa tautan pada landasan filosofis pendekatan Bayesian dan MaxEnt di sini dan di sini .

Catatan tentang terminologi: kadang-kadang orang memanggil metode mereka Bayesian hanya jika menggunakan aturan Bayes di beberapa titik. Demikian juga, "MaxEnt" kadang-kadang digunakan untuk beberapa metode yang mendukung solusi entropi tinggi. Ini tidak sama dengan "inferensi MaxEnt" atau "inferensi Bayesian" seperti dijelaskan di atas

Yaroslav Bulatov
sumber
1
Terima kasih. Saya tidak berpikir bahwa "Logika sains" juga membicarakan hal ini, saya pasti akan membaca buku itu.
Francesco
19

Untuk kritik yang menghibur tentang metode entropi maksimum, saya akan merekomendasikan membaca beberapa posting newsgroup lama di sci.stat.math dan sci.stat.consult, terutama yang oleh Radford Neal:

Saya tidak mengetahui adanya perbandingan antara metode maxent dan lainnya: bagian dari masalah tampaknya adalah bahwa maxent sebenarnya bukan kerangka kerja, tetapi arahan ambigu ("ketika dihadapkan dengan sesuatu yang tidak diketahui, cukup maksimalkan entropi"), yang merupakan ditafsirkan dengan cara yang berbeda oleh orang yang berbeda.

Simon Byrne
sumber
4
(+1) Utas tahun 2002 itu adalah pertukaran ide yang hebat.
whuber
1
Perhatikan bahwa "derivasi wallis" dari maxent yang diberikan oleh Edwin Jaynes dalam Probability Theory: The Logic of Science memang memberikan alasan "eksperimental" untuk memaksimalkan entropi. Dalam distribusi diskrit, jika kita mulai dari prinsip ketidakpedulian (PID), dan kemudian pada dasarnya melakukan sampel penolakan pada probabilitas, menggunakan kendala untuk menerima atau menolak sampel seragam acak. Probabilitas yang dihasilkan kemudian sewenang-wenang dekat dengan distribusi maksimum (diskrit).
probabilityislogic
3

Memang benar bahwa di masa lalu, MaxEnt dan Bayes telah berurusan dengan berbagai jenis atau bentuk informasi. Saya akan mengatakan bahwa Bayes menggunakan kendala "keras" juga, kemungkinannya.

Bagaimanapun, itu bukan masalah lagi karena Bayes Rule (bukan aturan produk) dapat diperoleh dari Entropy relatif maksimum (MrE), dan tidak dengan cara yang ambigu:

Ini dunia baru ...


sumber