LDA memiliki dua hiperparameter, menyetelnya mengubah topik yang diinduksi.
Apa kontribusi hiperparameter alfa dan beta terhadap LDA?
Bagaimana topik berubah jika satu atau yang lain hiperparameter bertambah atau berkurang?
Mengapa mereka hyperparamters dan bukan hanya parameter?
topic-model
lda
parameter
alva
sumber
sumber
Jawaban:
Distribusi Dirichlet adalah distribusi multivarian. Kita dapat menunjukkan parameter Dirichlet sebagai vektor ukuran K dari formulir ~ , di manaaadalah vektor ukuranKdari parameter, dan∑xi=1.1B ( a )⋅ ∏sayaxSebuahi - 1saya Sebuah K ∑ xsaya= 1
Sekarang LDA menggunakan beberapa konstruksi seperti:
Dua yang sebelumnya adalah distribusi yang tidak benar-benar Anda lihat dari data, ini sebabnya disebut laten, atau disembunyikan.
Parameter sebelumnya disebut hyperparameters . Jadi, dalam LDA, kedua distribusi topik, lebih dari dokumen dan lebih dari kata-kata juga memiliki prior koresponden, yang dilambangkan biasanya dengan alpha dan beta, dan karena parameter distribusi sebelumnya disebut hyperparameters.
Tambahan, harap dicatat bahwa nilai-nilai untuk parameter priors menghasilkan pdf distribusi yang halus karena nilai-nilai parameternya mendekati 1. Jadi, jika Anda memiliki keyakinan besar bahwa ada sesuatu yang terdistribusi dengan jelas dengan cara yang Anda ketahui, dengan tingkat kepercayaan yang tinggi, daripada nilai-nilai yang jauh dari 1 dalam nilai absolut harus digunakan, jika Anda tidak memiliki pengetahuan seperti itu maka nilai-nilai dekat 1 akan menyandikan kurangnya pengetahuan ini. Mudah untuk melihat mengapa saya memainkan peran seperti itu dalam distribusi Dirichlet dari rumus distribusi itu sendiri.
Semoga ini bisa membantu.
sumber
Dengan asumsi distribusi Dirichlet simetris (untuk kesederhanaan), nilai alpha rendah menempatkan bobot pada setiap dokumen yang terdiri dari hanya beberapa topik dominan (sedangkan nilai tinggi akan mengembalikan banyak topik yang relatif dominan). Demikian pula, nilai beta yang rendah memberi bobot lebih besar karena setiap topik hanya terdiri dari beberapa kata dominan.
sumber