Apa kontribusi alfa dan beta hiperparameter dalam alokasi Latent Dirichlet?

19

LDA memiliki dua hiperparameter, menyetelnya mengubah topik yang diinduksi.

Apa kontribusi hiperparameter alfa dan beta terhadap LDA?

Bagaimana topik berubah jika satu atau yang lain hiperparameter bertambah atau berkurang?

Mengapa mereka hyperparamters dan bukan hanya parameter?

alva
sumber
berikut ini adalah jawaban parsial yang bagus: stats.stackexchange.com/a/37444/156252
Greenish

Jawaban:

16

Distribusi Dirichlet adalah distribusi multivarian. Kita dapat menunjukkan parameter Dirichlet sebagai vektor ukuran K dari formulir ~ , di manaaadalah vektor ukuranKdari parameter, danxi=1.1B(Sebuah)sayaxsayaSebuahsaya-1SebuahKxsaya=1

Sekarang LDA menggunakan beberapa konstruksi seperti:

  • sebuah dokumen dapat memiliki banyak topik (karena banyaknya ini, kita membutuhkan distribusi Dirichlet); dan ada distribusi Dirichlet yang memodelkan hubungan ini
  • kata-kata juga bisa menjadi bagian dari banyak topik, ketika Anda menganggapnya di luar dokumen; jadi di sini kita membutuhkan Dirichlet lain untuk memodelkan ini

Dua yang sebelumnya adalah distribusi yang tidak benar-benar Anda lihat dari data, ini sebabnya disebut laten, atau disembunyikan.

xθ

hal(θ|x)=hal(x|θ)hal(θ|α)hal(x|α)probabilitas posterior=kemungkinan×probabilitas sebelumnyakemungkinan marjinal
α

Parameter sebelumnya disebut hyperparameters . Jadi, dalam LDA, kedua distribusi topik, lebih dari dokumen dan lebih dari kata-kata juga memiliki prior koresponden, yang dilambangkan biasanya dengan alpha dan beta, dan karena parameter distribusi sebelumnya disebut hyperparameters.

αkx

αk

αk

αk

Tambahan, harap dicatat bahwa nilai-nilai untuk parameter priors menghasilkan pdf distribusi yang halus karena nilai-nilai parameternya mendekati 1. Jadi, jika Anda memiliki keyakinan besar bahwa ada sesuatu yang terdistribusi dengan jelas dengan cara yang Anda ketahui, dengan tingkat kepercayaan yang tinggi, daripada nilai-nilai yang jauh dari 1 dalam nilai absolut harus digunakan, jika Anda tidak memiliki pengetahuan seperti itu maka nilai-nilai dekat 1 akan menyandikan kurangnya pengetahuan ini. Mudah untuk melihat mengapa saya memainkan peran seperti itu dalam distribusi Dirichlet dari rumus distribusi itu sendiri.

αkαk

Semoga ini bisa membantu.

rapaio
sumber
Kami di rumah / berharap sama tentang dukungan tex! : D
Rubens
11

Dengan asumsi distribusi Dirichlet simetris (untuk kesederhanaan), nilai alpha rendah menempatkan bobot pada setiap dokumen yang terdiri dari hanya beberapa topik dominan (sedangkan nilai tinggi akan mengembalikan banyak topik yang relatif dominan). Demikian pula, nilai beta yang rendah memberi bobot lebih besar karena setiap topik hanya terdiri dari beberapa kata dominan.

Alireza
sumber