Katakanlah, tergantung pada . Berbicara dengan keras,
jika dan keduanya merupakan variabel acak, kita dapat menulis ;
namun, jika adalah variabel acak dan adalah parameter, kita harus menulis .
Saya perhatikan beberapa kali bahwa komunitas pembelajaran mesin tampaknya mengabaikan perbedaan dan menyalahgunakan ketentuan.
Misalnya, dalam model LDA yang terkenal, di mana adalah parameter Dirichlet alih-alih variabel acak.
Bukankah seharusnya ? Saya melihat banyak orang, termasuk penulis asli kertas LDA, menuliskannya sebagai .
machine-learning
terminology
Sibbs Gambling
sumber
sumber
Jawaban:
Saya pikir ini lebih tentang statistik Bayesian / non-Bayesian daripada pembelajaran mesin vs .. statistik.
Dalam parameter statistik Bayesian dimodelkan sebagai variabel acak juga. Jika Anda memiliki distribusi gabungan untuk , p ( X ∣ α ) adalah distribusi bersyarat, tidak peduli apa interpretasi fisik X dan α . Jika seseorang menganggap hanya α s tetap atau tidak menempatkan distribusi probabilitas di atas α , perhitungan dengan p ( X ; α ) persis sama dengan p ( X ∣ α ) dengan p ( αX, α p ( X∣ α ) X α α α p ( X; α ) p ( X∣ α ) . Lebih lanjut, seseorang dapat pada suatu saat memutuskan untuk memperluas model dengan nilai-nilai tetap α ke satu di mana ada distribusi sebelumnya di atas α . Setidaknya bagi saya, tampaknya aneh bahwa notasi untuk distribusi-diberikan- a harus berubah pada titik ini, karenanya beberapa orang Bayesian lebih suka menggunakan notasi pengkondisian bahkan jika seseorang belum (belum?) Repot untuk mendefinisikan semua parameter sebagai variabel acak .p ( α ) α α α
Perdebatan tentang apakah seseorang dapat menulis sebagai p ( X | α ) juga muncul dalam komentar dari posting blog Andrew Gelman ini Kesalahpahaman yang p -nilai . Sebagai contoh, Larry Wasserman berpendapat bahwa ∣ tidak diperbolehkan ketika tidak ada pengkondisian-dari-sendi sementara Andrew Gelman memiliki pendapat yang berlawanan.p ( X; α ) p ( X∣ α ) hal ∣
sumber