Apakah Word2Vec dan Doc2Vec merupakan representasi distribusi atau representasi terdistribusi?

10

Saya telah membaca bahwa representasi distribusi didasarkan pada hipotesis distribusi bahwa kata-kata yang muncul dalam konteks yang sama cenderung memiliki makna yang sama.

Word2Vec dan Doc2Vec keduanya dimodelkan sesuai dengan hipotesis ini. Tapi, di koran aslinya, bahkan mereka diberi judul sebagai Distributed representation of words and phrasesdan Distributed representation of sentences and documents. Jadi, apakah algoritma ini didasarkan pada representasi distribusi atau representasi terdistribusi.

Bagaimana dengan model lain seperti LDA dan LSA.

yazhi
sumber

Jawaban:

5

Secara efektif, Word2Vec / Doc2Vec didasarkan pada di distributional hypothesismana konteks untuk setiap kata adalah kata-kata terdekatnya. Demikian pula, LSA mengambil seluruh dokumen sebagai konteksnya. Kedua teknik memecahkan word embeddingmasalah - menanamkan kata-kata ke dalam ruang vektor terus menerus sambil menjaga kata-kata terkait semantik berdekatan.

Di sisi lain, LDA tidak dibuat untuk memecahkan masalah yang sama. Mereka menangani masalah berbeda yang disebut topic modeling, yaitu menemukan topik laten dalam satu set dokumen.

Tu N.
sumber
Saya menerima balasan dari grup google yang menyatakan bahwa, keduanya didistribusikan dan didistribusikan dalam perspektif yang berbeda. Distribusi dalam hal hipotesis yang digunakan dan didistribusikan dalam hal fitur yang didistribusikan dalam ruang vektor.
yazhi
ya, representasi didistribusikan dalam arti bahwa vektor kata menangkap beberapa konsep, masing-masing konsep itu sendiri adalah vektor. Sebagai contoh: mungkin menangkap dua konsep gender dan , v q u e e n menangkap gender dan . Itu sebabnyavksayangmaleroyalvqkamueenfemaleroyalvksayang-vqkamueenvmSebuahn-vwHaimSebuahn
Tu N.
2

Turian, Joseph, Lev Ratinov, dan Yoshua Bengio. " Representasi kata: metode sederhana dan umum untuk pembelajaran semi-diawasi ." Prosiding pertemuan tahunan ke-48 asosiasi untuk linguistik komputasi. Association for Computational Linguistics, 2010. mendefinisikan representasi distribusi dan representasi terdistribusi sebagai berikut:

  • Sebuah representasi kata distribusi didasarkan atas cooccurrence matriks ukuran W × C F w sebagai fitur untuk kata w dalam model diawasi. Seseorang dapat memetakanFW×CWFwwFcFFwWFwFd<<CFwwdgF

  • Sebuah representasi didistribusikan padat, rendah-dimensi, dan bernilai real. Representasi kata terdistribusi disebut embeddings kata. Setiap dimensi embedding mewakili fitur laten dari kata, semoga menangkap sifat sintaksis dan semantik yang berguna. Representasi terdistribusi kompak, dalam arti dapat mewakili jumlah cluster eksponensial dalam jumlah dimensi.

FYI: Apa perbedaan antara vektor kata, representasi kata dan embeddings vektor?

Franck Dernoncourt
sumber
2
Kebingungan yang sama juga tetap ada dalam jawabannya. Ia memiliki properti dari kedua representasi. Mari kita lihat kesamaannya. Distributional: Ini memiliki matriks ukuran WxC dan kemudian dikurangi menjadi Wxd, di mana d adalah ukuran vektor embedding. Ini menggunakan ukuran jendela untuk menentukan konteksnya. Distributed: Padat, vektor dimensi rendah. Ini mempertahankan fitur laten (properti semantik) di dimensi tersebut.
yazhi
2

Jawaban dari Andrey Kutuzov melalui grup google terasa memuaskan

Saya akan mengatakan bahwa algoritma word2vec didasarkan pada keduanya.

Ketika orang berkata distributional representation, mereka biasanya berarti aspek linguistik: makna adalah konteks, ketahui kata dari perusahaannya dan kutipan terkenal lainnya.

Tetapi ketika orang mengatakan distributed representation, sebagian besar tidak ada hubungannya dengan linguistik. Ini lebih tentang aspek ilmu komputer. Jika saya memahami Mikolov dan lainnya dengan benar, kata distributeddalam makalah mereka berarti bahwa setiap komponen tunggal dari representasi vektor tidak memiliki makna sendiri. Fitur yang dapat ditafsirkan (misalnya, konteks kata dalam kasus word2vec) disembunyikan dan di distributedantara komponen vektor yang tidak dapat ditafsirkan: setiap komponen bertanggung jawab atas beberapa fitur yang dapat ditafsirkan, dan setiap fitur yang dapat ditafsirkan terikat ke beberapa komponen.

Jadi, word2vec (dan doc2vec) menggunakan representasi terdistribusi secara teknis, sebagai cara untuk mewakili semantik leksikal. Dan pada saat yang sama secara konseptual didasarkan pada hipotesis distribusi: itu hanya berfungsi karena hipotesis distribusi benar (makna kata-kata memang berkorelasi dengan konteks tipikal mereka).

Tapi tentu saja sering istilah distributeddan distributionaldigunakan secara bergantian, meningkatkan kesalahpahaman :)

yazhi
sumber