Bagaimana memodelkan perilaku pembelian pengguna di Amazon?

9

Untuk proyek tugas akhir kami di Ilmu Data, kami mengusulkan berikut-

Berikan Dataset Ulasan Amazon , kami berencana untuk membuat algoritme (yang kira-kira berdasarkan pada Personal PageRank) yang menentukan posisi strategis untuk menempatkan iklan di Amazon. Misalnya, ada jutaan produk di Amazon. Dan dataset memberi Anda gambaran tentang produk apa yang terkait, produk apa yang disatukan, dilihat bersama, dll. (Kami dapat membuat grafik dengan info ini juga dilihat dan juga dibeli) Ini juga memberi Anda ulasan terkait dengan setiap produk lebih dari 14 tahun. Dengan menggunakan semua info ini, kami akan memberi peringkat / memberi peringkat produk di Amazon. Sekarang, Anda adalah vendor di Amazon yang ingin meningkatkan traffic ke halaman produk mereka. Algoritma kami membantu Anda mengidentifikasi posisi strategis dalam grafik tempat Anda dapat menempatkan iklan sehingga Anda dapat memperoleh lalu lintas maksimal.

Sekarang, pertanyaan Profesor kami adalah, bagaimana Anda akan memvalidasi algoritma Anda tanpa pengguna nyata? Kami berkata-

Kami dapat memodelkan sekelompok pengguna tetap. Beberapa pengguna mengikuti also_boughtdan also_viewedmenautkan ke hop ketiga lebih sering daripada hop pertama atau kelima. Di sana perilaku pengguna terdistribusi secara normal. Beberapa pengguna lain sulit menavigasi melampaui hop pertama. Serangkaian perilaku pengguna ini didistribusikan secara eksponensial.

Kata Profesor kami - Distribusi apa pun yang diikuti pengguna, pengguna menavigasi menggunakan tautan untuk produk serupa. Algoritme peringkat Anda juga mempertimbangkan kesamaan produk b / w 2 dengan produk peringkat. Jadi menggunakan algoritma validasi ini agak cheating. Hadir dengan beberapa perilaku pengguna lain, sesuatu yang lebih realistis dan ortogonal pada algoritme.

Adakah ide tentang bagaimana memodelkan perilaku pengguna? Saya senang memberikan detail lebih lanjut tentang algo.

Pavan Manjunath
sumber

Jawaban:

1

Bagaimana Anda akan memvalidasi algoritma Anda?

Daripada mencoba menjawab pertanyaan kedua, pertimbangkan bahwa jawaban Anda untuk pertanyaan pertama mungkin perlu direvisi ...

Metode apa yang Anda gunakan untuk memvalidasi metode pembelajaran di seluruh kelas sains data Anda? Pertama, Anda ingin menentukan serangkaian metrik numerik tertentu untuk menilai keberhasilan atau kegagalan model Anda. Kedua, metode apa yang dapat Anda gunakan untuk membuat populasi pengujian yang sangat realistis (lebih realistis daripada memodelkan populasi)? Petunjuk pertama yang akan saya berikan adalah Amazon Dataset Reviews sangat besar, sehingga data Anda sangat dapat diperbaiki dengan metode ini. Petunjuk kedua yang akan saya berikan adalah bahwa metode ini kemungkinan yang Anda gunakan dalam 95% dari masalah belajar yang diawasi yang telah Anda kerjakan di kelas ...

Semoga ini bisa membantu ... Saya akan mengedit ini jika perlu didasarkan pada komentar yang ditambahkan oleh OP, tetapi tidak ingin memberikan solusi segera untuk memperoleh beberapa pemikiran organik misalnya karena ini adalah masalah kelas dan Prof juga mencoba membantu Anda menemukan solusi yang tepat sendiri.

AN6U5
sumber
0

Ada dua persyaratan untuk model perilaku yang harus Anda gunakan: (1) "lebih realistis" dan (2) ortogonal untuk algoritma Anda.

(1) Dengan realistis, mari kita asumsikan bahwa itu berarti perilaku tersebut harus mencerminkan perilaku yang diamati dalam konteks lain yang lebih luas daripada konteks spesifik pembelian Amazon.

(2) Orthogonal lebih mudah dipahami. Perilaku yang dimodelkan tidak boleh didorong oleh kesamaan antara produk.

Pendekatan sederhana untuk memenuhi kedua persyaratan ini akan datang dari fakta bahwa perilaku pembelian didorong oleh fitur sosio-demografis seperti jenis kelamin, usia, lokasi (misalnya daerah perkotaan / pedesaan) dan kendala ekonomi (pendapatan dan harga).

Anda memiliki satu set pengguna dan satu set produk. Anda dapat memperkirakan hubungan antara variabel sosio-demografis dan permintaan produk menggunakan teknik regresi sederhana namun hati-hati. Jika perlu, Anda bisa menggunakan sumber data eksternal untuk membuat asumsi tentang variabel penting yang hilang seperti pendapatan.

Kemudian jika Anda seorang vendor, model sosial-demografis akan memprediksi kelompok mana yang paling mungkin untuk membeli produk Anda.

Saya harap itu membantu :)

Ben

Benjamin Tannenbaum
sumber