Saya telah membaca bahwa representasi distribusi didasarkan pada hipotesis distribusi bahwa kata-kata yang muncul dalam konteks yang sama cenderung memiliki makna yang sama.
Word2Vec dan Doc2Vec keduanya dimodelkan sesuai dengan hipotesis ini. Tapi, di koran aslinya, bahkan mereka diberi judul sebagai Distributed representation of words and phrases
dan Distributed representation of sentences and documents
. Jadi, apakah algoritma ini didasarkan pada representasi distribusi atau representasi terdistribusi.
Bagaimana dengan model lain seperti LDA dan LSA.
male
royal
female
royal
Turian, Joseph, Lev Ratinov, dan Yoshua Bengio. " Representasi kata: metode sederhana dan umum untuk pembelajaran semi-diawasi ." Prosiding pertemuan tahunan ke-48 asosiasi untuk linguistik komputasi. Association for Computational Linguistics, 2010. mendefinisikan representasi distribusi dan representasi terdistribusi sebagai berikut:
FYI: Apa perbedaan antara vektor kata, representasi kata dan embeddings vektor?
sumber
Distributional
: Ini memiliki matriks ukuran WxC dan kemudian dikurangi menjadi Wxd, di mana d adalah ukuran vektor embedding. Ini menggunakan ukuran jendela untuk menentukan konteksnya.Distributed
: Padat, vektor dimensi rendah. Ini mempertahankan fitur laten (properti semantik) di dimensi tersebut.Jawaban dari Andrey Kutuzov melalui grup google terasa memuaskan
sumber