Mesin Faktorisasi Sadar Lapangan

Jawaban:

2

Sepertinya Anda meminta deskripsi tingkat tinggi. Jika Anda merujuk ke slide yang ditautkan dalam slide dari pos asli Anda, ada perbandingan FM (slide 11) vs FFM (slide 12).

Sebagai contoh cepat, jika Anda mempelajari tentang pengguna dan film, FM mungkin memiliki faktor berikut:

w_{user_1}*w_{movie_1}*... + w{user_1}*w_{genre_1}*...

FFM akan memiliki:

w_{user_1, movies}*w_{movie_1, users}*... + w{user_1, genres}*w_{genre_1, users}*...

Perbedaan utama adalah bahwa dalam FM, w_{user_1}koefisiennya sama dalam kedua istilah - ada satu gagasan pengguna. Dalam FFM, Anda belajar terpisah w_{user_1}untuk setiap konteks, misalnya apakah itu berinteraksi dengan film atau genre. Perhatikan bahwa ini tidak dipelajari secara terpisah untuk setiap film atau genre tertentu, tetapi untuk film dan genre pada umumnya. Artinya, secara terpisah mempelajari konteks pengguna untuk setiap jenis interaksi.

Juga mencatat bahwa w_{movie_1}pergi ke w_{movie_1, users}karena istilah yang berinteraksi dengan w_{user_1}, pengguna.

Zak
sumber
2

Misalkan (sebelum satu-hot-encoding) Anda memiliki prediktor / bidang dari set (katakanlah genre film, jenis kelamin pengguna, dan ras pengguna). Misalkan lebih lanjut, setiap prediktor z Z dapat mengambil salah satu dari k z nilai-nilai. Setelah pengodean satu-panas, Anda akan memiliki satu set fitur biner baru X ukuran K : = z Z k z .ZzZkzXK:=zZkz

Dalam model dengan semua interaksi, Anda harus memperkirakan matriks koefisien interaksi , yang memiliki K × ( K + 1 ) / 2 istilah unik.QK×(K+1)/2

QQWTWWl×K1lKWQ

QQzqzi,zjzi,zjQqzi,zjzi,zjWjTWiWil×KWiQ

QK×lK×l×|Z|K×(K+1)/2

kalu
sumber
1

Mesin faktorisasi standar memiliki bidang juga. "Kebaruan" di sini tampaknya adalah penggunaan fitur GBDT dan penerapan trik hashing. Tidak terlalu berpengaruh, tampaknya: periksa rentang kinerja menit pada slide terakhir.

Emre
sumber
Menurut penulis, memang ada karakteristik sadar lapangan untuk model, relatif terhadap implementasi standar - itu dinyatakan dalam forum kaggle. Saya hanya tidak bisa mengikuti apa artinya dan apa perbedaannya sebenarnya.
B_Miner
Berdasarkan slie 14, tampaknya mereka mendasarkan solusi mereka pada makalah ini ( Ensemble Penyaringan Kolaboratif dan Model Model Rekayasa untuk Prediksi Rasio Klik Melalui Tayangan ).
Emre