Apa perbedaan antara Memaksimalkan Kemungkinan Bersyarat (Log) atau Kemungkinan Gabungan (Log) saat memperkirakan parameter model?

9

Pertimbangkan respon y dan data matriks X . Misalkan saya membuat model formulir -

y ~ g (X, )θ

(g () bisa berupa fungsi X dan )θ

Sekarang, untuk memperkirakan menggunakan metode Maximum Likelihood (ML), saya bisa melanjutkan dengan Conditional ML (dengan asumsi saya tahu bentuk kepadatan bersyarat f (y | X) ) atau dengan Joint ML (dengan asumsi saya tahu bentuk sambungan kerapatan f (y, X) atau ekuivalen, f (X | y) * f (y) )θ

Saya bertanya-tanya apakah ada pertimbangan untuk melanjutkan dengan salah satu dari dua metode di atas terlepas dari asumsi tentang kepadatan. Juga, apakah ada contoh (tipe data tertentu) di mana satu metode mengalahkan sebagian besar waktu lainnya?

mantap
sumber
Jika Anda memiliki banyak data, saya pikir kepadatan sambungan lebih kuat.
user541686

Jawaban:

6

Itu tergantung apa yang ingin Anda lakukan dengan model Anda nanti.

Model gabungan berupaya untuk memprediksi keseluruhan distribusi melalui dan . Ini memiliki beberapa sifat yang berguna:Xy

  • Deteksi outlier. Sampel yang sangat berbeda dengan sampel pelatihan Anda dapat diidentifikasi karena mereka memiliki probabilitas marjinal yang rendah. Model bersyarat tidak akan selalu basi untuk memberi tahu Anda ini.
  • Terkadang lebih mudah untuk dioptimalkan. Jika model Anda adalah model campuran gaussian, katakanlah, ada cara yang terdokumentasi dengan baik agar sesuai dengan kepadatan sambungan yang bisa Anda pasang (maksimisasi harapan, bay variational), tetapi hal-hal menjadi lebih rumit jika Anda ingin melatihnya secara kondisional.
  • Bergantung pada model , pelatihan berpotensi diparalelkan dengan mengambil keuntungan dari independensi bersyarat, dan Anda juga dapat menghindari kebutuhan untuk melatihnya nanti jika data baru tersedia. EG jika setiap distribusi marginal diparameterisasi secara terpisah, dan Anda mengamati sampel baru , maka satu-satunya distribusi marjinal yang perlu Anda latih ulang adalah . Distribusi marginal lainnya tidak terpengaruh. Properti ini kurang umum dengan model bersyarat.f(X|y)(X=x1,y=y1)f(X|y=y1)f(X|y=y2),f(X|y=y3),
  • Saya ingat pernah membaca sebuah makalah yang mengindikasikan model bersama memiliki beberapa sifat bagus lainnya dalam kasus di mana ada banyak dan banyak data, tetapi tidak dapat mengingat klaim yang tepat, atau menemukannya di folder besar saya dari makalah yang menarik. Jika saya menemukannya nanti saya akan memasukkan referensi.

Namun model bersyarat memiliki beberapa sifat menarik juga

  • Mereka dapat bekerja dengan sangat baik.
  • Beberapa telah memiliki banyak pekerjaan dalam menemukan strategi optimasi yang masuk akal (misalnya mesin vektor dukungan)
  • Distribusi bersyarat sangat sering `sederhana 'untuk memodelkan daripada sambungan - untuk memodelkan yang terakhir, Anda harus memodelkan yang pertama serta memodelkan distribusi marjinal. Jika Anda hanya tertarik untuk mendapatkan prediksi yang akurat tentang nilai apa untuk diberikan , mungkin lebih masuk akal untuk memusatkan kapasitas model Anda untuk hanya mewakili ini.yX
Menepuk
sumber
1
Terima kasih atas jawabannya. Bisakah Anda juga memberikan tautan ke literatur yang relevan?
mantap ikan