Katakanlah kita diberi masalah berikut:
Prediksi klien mana yang paling mungkin berhenti membeli di toko kami dalam 3 bulan ke depan.
Untuk setiap klien kami tahu bulan ketika seseorang mulai membeli di toko kami dan kami juga memiliki banyak fitur perilaku dalam agregat bulanan. Klien 'tertua' telah membeli selama lima puluh bulan; mari kita tunjukkan waktu sejak klien mulai membeli dengan ( ). Dapat diasumsikan bahwa jumlah klien sangat besar. Jika seorang klien berhenti membeli selama tiga bulan dan kemudian kembali, maka ia diperlakukan sebagai pelanggan baru sehingga suatu peristiwa (stop buying) dapat terjadi hanya sekali.
Dua solusi muncul di pikiran saya:
Regresi logistik - Untuk setiap klien dan setiap bulan (mungkin kecuali 3 bulan terakhir), kita dapat mengatakan apakah klien berhenti membeli atau tidak, sehingga kita dapat melakukan sampel bergulir dengan satu pengamatan per klien dan bulan. Kita dapat menggunakan jumlah bulan sejak awal sebagai variabel kategorikal untuk mendapatkan beberapa fungsi bahaya dasar yang setara.
Extended Cox model - Masalah ini dapat juga dimodelkan menggunakan model Cox yang diperluas. Tampaknya masalah ini lebih cocok untuk analisis kelangsungan hidup.
Pertanyaan: Apa kelebihan analisis survival dalam masalah serupa? Analisis kelangsungan hidup diciptakan untuk beberapa alasan, jadi pasti ada beberapa keuntungan serius.
Pengetahuan saya dalam analisis survival tidak terlalu dalam dan saya pikir sebagian besar keuntungan potensial dari model Cox juga dapat dicapai dengan menggunakan regresi logistik.
- Setara model Cox bertingkat dapat diperoleh dengan menggunakan interaksi dan variabel bertingkat .
- Model Interaksi Cox dapat diperoleh dengan menyelam populasi ke beberapa sub-populasi dan memperkirakan LR untuk setiap sub-populasi.
Satu-satunya keuntungan yang saya lihat adalah bahwa model Cox lebih fleksibel; misalnya, kita dapat dengan mudah menghitung probabilitas bahwa klien akan berhenti membeli dalam 6 bulan.
coxph
dan mendapatkan estimasi risiko cukup banyak dan banyak.Analisis survival memperhitungkan fakta bahwa setiap klien memiliki waktu masuknya sendiri ke dalam penelitian. Oleh karena itu fakta bahwa periode tindak lanjut bervariasi antar klien bukan masalah.
Catatan : di sini adalah makalah yang menunjukkan bahwa, di bawah beberapa kendala, baik model logistik dan Cox saling terkait.
sumber
Literatur pemasaran menyarankan Pareto / NBD di sini atau serupa. Anda pada dasarnya menganggap pembelian - saat mereka membeli - mengikuti distribusi binomial negatif. Tetapi Anda harus memodelkan waktu ketika pelanggan berhenti. Itu bagian yang lain.
Pete Fader dan Bruce Hardie memiliki beberapa makalah tentang ini, bersama dengan Abe.
Ada beberapa pendekatan sederhana untuk Pareto / NBD, bahkan hanya menghitung berbagai kertas Fader dan Hardie. JANGAN gunakan pendekatan yang lebih sederhana di mana diasumsikan probabilitas berhenti adalah konstan pada setiap titik waktu - itu berarti pelanggan Anda yang lebih besar lebih cenderung keluar lebih cepat. Ini model yang lebih sederhana untuk dipasangkan, tetapi salah.
Saya belum memasukkan salah satu dari ini sementara waktu; maaf sedikit tidak spesifik.
Berikut referensi ke makalah Abe, yang menampilkan kembali masalah ini sebagai hierarki Bayes. . Jika saya bekerja di bidang ini lagi, saya pikir saya akan menguji pendekatan ini.
sumber