Apa pro dan kontra dari penerapan informasi timbal balik secara langsung pada matriks kata cooccurrence sebelum SVD?

11

Salah satu cara untuk menghasilkan embeddings kata adalah sebagai berikut ( mirror ):

  1. Dapatkan kopral, misalnya "Saya menikmati terbang. Saya suka NLP. Saya suka belajar dalam-dalam."
  2. Bangun kata cooccurrence matrix dari itu:

masukkan deskripsi gambar di sini

  1. Lakukan SVD pada , dan pertahankan kolom pertama U.Xk

masukkan deskripsi gambar di sini

Setiap baris submatrix akan menjadi kata embedding dari kata yang diwakili oleh baris tersebut (baris 1 = "I", baris 2 = "seperti", ...).U1:|V|,1:k

Antara langkah 2 dan 3, informasi timbal balik yang tajam kadang-kadang diterapkan (mis. A. Herbelot dan EM Vecchi. 2015. Membangun dunia bersama: Memetakan ruang distribusi ke model semantik teoritik . Dalam Prosiding Konferensi 2015 tentang Metode Empiris dalam Pemrosesan Bahasa Alami Lisbon, Portugal .).

Apa pro dan kontra dari penerapan informasi timbal balik secara langsung pada matriks kata cooccurrence sebelum SVD?

Franck Dernoncourt
sumber

Jawaban:

11

menurut buku Dan Jurafsky dan James H. Martin :

"Namun ternyata, frekuensi sederhana bukanlah ukuran hubungan yang terbaik antara kata-kata. Satu masalah adalah frekuensi mentah sangat condong dan tidak terlalu diskriminatif. Jika kita ingin tahu jenis konteks apa yang dibagikan oleh aprikot dan nanas tetapi tidak dengan digital dan informasi, kita tidak akan mendapatkan diskriminasi yang baik dari kata-kata seperti itu, itu, atau mereka, yang sering terjadi dengan semua jenis kata dan tidak informatif tentang kata tertentu. "

terkadang kami mengganti frekuensi mentah ini dengan informasi timbal balik positif positif:

PPMI(w,c)=max(log2P(w,c)P(w)P(c),0)

PMI sendiri menunjukkan betapa mungkin untuk mengamati kata w dengan kata konteks C dibandingkan dengan mengamati mereka secara mandiri. Dalam PPMI kami hanya menyimpan nilai positif PMI. Mari kita pikirkan kapan PMI adalah + atau - dan mengapa kita hanya menyimpan yang negatif:

Apa arti PMI positif?

  • P(w,c)(P(w)P(c))>1

  • P(w,c)>(P(w)P(c))

  • itu terjadi ketika dan terjadi saling lebih daripada secara individu seperti tendangan dan bola. Kami ingin menyimpan ini!wc

Apa arti PMI negatif?

  • P(w,c)(P(w)P(c))<1

  • P(w,c)<(P(w)P(c))

  • itu berarti keduanya dan atau salah satunya cenderung terjadi secara individual! Ini mungkin menunjukkan statistik yang tidak dapat diandalkan karena data yang terbatas jika tidak, hal ini menunjukkan co-kejadian tidak informatif misalnya, 'the' and 'ball'. ('the' muncul dengan sebagian besar kata juga.)wc

PMI atau khususnya PPMI membantu kita menangkap situasi semacam itu dengan kejadian bersama yang informatif.

Maryam Hnr
sumber