Apa kontribusi alfa dan beta hiperparameter dalam alokasi Latent Dirichlet?

19

LDA memiliki dua hiperparameter, menyetelnya mengubah topik yang diinduksi.

Apa kontribusi hiperparameter alfa dan beta terhadap LDA?

Bagaimana topik berubah jika satu atau yang lain hiperparameter bertambah atau berkurang?

Mengapa mereka hyperparamters dan bukan hanya parameter?

topic-model lda parameter alva
sumber

berikut ini adalah jawaban parsial yang bagus: stats.stackexchange.com/a/37444/156252

Greenish

16

Distribusi Dirichlet adalah distribusi multivarian. Kita dapat menunjukkan parameter Dirichlet sebagai vektor ukuran K dari formulir ~ , di manaadalah vektor ukurandari parameter, dan. $\frac{1}{B(a)} \cdot \prod\limits_{i} x_i^{a_{i-1}}$ $a$ $K$ $\sum x_i = 1$

Sekarang LDA menggunakan beberapa konstruksi seperti:

sebuah dokumen dapat memiliki banyak topik (karena banyaknya ini, kita membutuhkan distribusi Dirichlet); dan ada distribusi Dirichlet yang memodelkan hubungan ini
kata-kata juga bisa menjadi bagian dari banyak topik, ketika Anda menganggapnya di luar dokumen; jadi di sini kita membutuhkan Dirichlet lain untuk memodelkan ini

Dua yang sebelumnya adalah distribusi yang tidak benar-benar Anda lihat dari data, ini sebabnya disebut laten, atau disembunyikan.

$x$ $\theta$

hal (θ | x) = \frac{hal (x | θ) hal (θ | α)}{hal (x | α)} ⟺ probabilitas posterior = \frac{kemungkinan \times probabilitas sebelumnya}{kemungkinan marjinal}

$p(\theta|x) = \frac{p(x|\theta)p(\theta|\alpha)}{p(x|\alpha)} \iff \text{posterior probability} = \frac{\text{likelihood}\times \text{prior probability}}{\text{marginal likelihood}}$

α

$\alpha$

Parameter sebelumnya disebut hyperparameters . Jadi, dalam LDA, kedua distribusi topik, lebih dari dokumen dan lebih dari kata-kata juga memiliki prior koresponden, yang dilambangkan biasanya dengan alpha dan beta, dan karena parameter distribusi sebelumnya disebut hyperparameters.

$\alpha_k$ $x$

$\alpha_k$

Tambahan, harap dicatat bahwa nilai-nilai untuk parameter priors menghasilkan pdf distribusi yang halus karena nilai-nilai parameternya mendekati 1. Jadi, jika Anda memiliki keyakinan besar bahwa ada sesuatu yang terdistribusi dengan jelas dengan cara yang Anda ketahui, dengan tingkat kepercayaan yang tinggi, daripada nilai-nilai yang jauh dari 1 dalam nilai absolut harus digunakan, jika Anda tidak memiliki pengetahuan seperti itu maka nilai-nilai dekat 1 akan menyandikan kurangnya pengetahuan ini. Mudah untuk melihat mengapa saya memainkan peran seperti itu dalam distribusi Dirichlet dari rumus distribusi itu sendiri.

$\alpha_k$ $\alpha_k$

Semoga ini bisa membantu.

rapaio
sumber

Kami di rumah / berharap sama tentang dukungan tex! : D

Rubens

11

Dengan asumsi distribusi Dirichlet simetris (untuk kesederhanaan), nilai alpha rendah menempatkan bobot pada setiap dokumen yang terdiri dari hanya beberapa topik dominan (sedangkan nilai tinggi akan mengembalikan banyak topik yang relatif dominan). Demikian pula, nilai beta yang rendah memberi bobot lebih besar karena setiap topik hanya terdiri dari beberapa kata dominan.

Alireza
sumber

Apa kontribusi alfa dan beta hiperparameter dalam alokasi Latent Dirichlet?

Jawaban: