Saat ini saya sedang melakukan analisis pada situs web yang mengharuskan saya membuat diagram pohon keputusan yang menunjukkan kemungkinan rute yang diambil orang ketika mereka tiba di situs web. Saya berurusan dengan data.frame
yang menunjukkan jalur semua pelanggan ke situs, mulai dari beranda. Misalnya, pelanggan dapat mengambil jalur berikut:
Homepage - pg 1
Kitchen Items page - pg 2
Pots and Pans page - pg 3
jadi pelanggan ini akan memiliki 3 halaman perjalanan. Apa yang ingin saya coba lakukan di R adalah menggabungkan semua jalur pelanggan dan dengan demikian menetapkan probabilitas kepada pelanggan mengikuti jalur tertentu di situs. Misalnya, jika saya harus memeriksa semua jalur, saya dapat menemukan bahwa 34% orang yang tiba di Beranda membuka 'Halaman barang dapur'. Apakah R memiliki fasilitas ini?
Saya telah mencari metode yang berbeda melalui paket rpart dan partykit tetapi mereka tampaknya tidak membantu.
Setiap mengarahkan ke arah yang benar untuk ini sangat dihargai!
sumber
igraph
paket tampaknya cukup komprehensif.Jawaban:
Bukan salah satu cara untuk memulai, adalah dengan memiliki matriks (katakanlah ) di mana adalah jumlah halaman. Kemudian berdasarkan elemen matriks kenaikan data mentah Anda oleh satu setiap kali Anda memiliki pengguna melompat dari halaman ke halaman . Itu membuat Anda probabilitas transisi.M n × n n M r c r cn×n Mn×n n Mrc r c
Pertanyaan pertama Anda sudah dijawab dengan ini: "Berapa persen pengguna di beranda (katakan halaman 1) yang bepergian di samping, katakanlah, Barang Dapur (katakanlah halaman 2)?"
Atau apakah ini terlalu sederhana?
sumber
Sepertinya Anda sedang mencoba membuat ulang algoritma PageRank dari Google. Sebagian besar algoritma PageRank dikembangkan menggunakan Markov Chains. Anda dapat menemukan banyak menyebutkan pengembangan metode PageRank di R.
igraph.sourceforge.net/doc/R/page.rank.htm
sumber
Dari apa yang saya lihat di sini, saya setuju bahwa igraphs / Markov Chains mungkin adalah cara untuk pergi, namun Anda pasti bisa menggunakan rpart dan / atau partykit.
Sulit bagi saya untuk memberikan jawaban sederhana dengan contoh Anda yang terbatas, tetapi saya dapat menjelaskan secara umum bagaimana Anda akan melakukannya.
Anda ingin melihat di mana semua pengguna Anda berada, dan meringkasnya menjadi string misalnya
Anda kemudian dapat mengelompokkan pengguna Anda ke dalam kategori, mengatakan yang berakhir di halaman "beli sekarang", dan yang tidak. Maka Anda bisa mulai memprediksi hasil terminal itu. Dalam contoh ini, mungkin Anda akan mengetahui bahwa orang-orang yang melakukan perbandingan toko paling banyak / tidak membeli sesuatu.
Anda juga dapat membuat lebih banyak variabel, seperti "berapa halaman sebelum halaman buynow" "berapa banyak halaman yang mereka kunjungi sebelum membeli sesuatu" atau "kapan mereka membuat akun pertama mereka", dan Anda dapat menambahkan metrik tersebut ke analisis Anda.
Ada banyak cara berbeda yang bisa Anda tempuh, dan ini mulai menjawab pertanyaan yang berbeda, tetapi poin saya adalah bahwa Anda dapat menggunakan pohon dan untuk beberapa masalah mungkin ini merupakan rute wawasan yang lebih cepat dan lebih sederhana.
Ngomong-ngomong, Anda perlu membuat faktor variabel non-numerik dengan menggunakan
factor
atauas.factor
, jika Anda akan menggunakan party. Party memiliki beberapa sketsa bagus untuk Anda mulai.sumber