Model Cox vs regresi logistik

15

Katakanlah kita diberi masalah berikut:

Prediksi klien mana yang paling mungkin berhenti membeli di toko kami dalam 3 bulan ke depan.
Untuk setiap klien kami tahu bulan ketika seseorang mulai membeli di toko kami dan kami juga memiliki banyak fitur perilaku dalam agregat bulanan. Klien 'tertua' telah membeli selama lima puluh bulan; mari kita tunjukkan waktu sejak klien mulai membeli dengan t ( ). Dapat diasumsikan bahwa jumlah klien sangat besar. Jika seorang klien berhenti membeli selama tiga bulan dan kemudian kembali, maka ia diperlakukan sebagai pelanggan baru sehingga suatu peristiwa (stop buying) dapat terjadi hanya sekali.t[0,50]

Dua solusi muncul di pikiran saya:

Regresi logistik - Untuk setiap klien dan setiap bulan (mungkin kecuali 3 bulan terakhir), kita dapat mengatakan apakah klien berhenti membeli atau tidak, sehingga kita dapat melakukan sampel bergulir dengan satu pengamatan per klien dan bulan. Kita dapat menggunakan jumlah bulan sejak awal sebagai variabel kategorikal untuk mendapatkan beberapa fungsi bahaya dasar yang setara.

Extended Cox model - Masalah ini dapat juga dimodelkan menggunakan model Cox yang diperluas. Tampaknya masalah ini lebih cocok untuk analisis kelangsungan hidup.

Pertanyaan: Apa kelebihan analisis survival dalam masalah serupa? Analisis kelangsungan hidup diciptakan untuk beberapa alasan, jadi pasti ada beberapa keuntungan serius.

Pengetahuan saya dalam analisis survival tidak terlalu dalam dan saya pikir sebagian besar keuntungan potensial dari model Cox juga dapat dicapai dengan menggunakan regresi logistik.

  • Setara model Cox bertingkat dapat diperoleh dengan menggunakan interaksi dan variabel bertingkat . t
  • Model Interaksi Cox dapat diperoleh dengan menyelam populasi ke beberapa sub-populasi dan memperkirakan LR untuk setiap sub-populasi.

Satu-satunya keuntungan yang saya lihat adalah bahwa model Cox lebih fleksibel; misalnya, kita dapat dengan mudah menghitung probabilitas bahwa klien akan berhenti membeli dalam 6 bulan.

Tomek Tarczynski
sumber

Jawaban:

10

Masalah dengan model Cox adalah ia tidak memprediksi apa-apa. "Mencegat" (fungsi bahaya garis dasar) dalam model Cox sebenarnya tidak pernah diperkirakan. Regresi logistik dapat digunakan untuk memprediksi risiko atau probabilitas untuk beberapa peristiwa, dalam hal ini: apakah subjek datang untuk membeli sesuatu pada bulan tertentu.

Masalah dengan asumsi di balik regresi logistik biasa adalah bahwa Anda memperlakukan setiap orang-bulan pengamatan sebagai independen, terlepas dari apakah itu orang yang sama atau bulan yang sama di mana pengamatan terjadi. Ini bisa berbahaya karena beberapa item dibeli dalam interval dua bulan, jadi orang secara berurutan melakukan pengamatan berkorelasi negatif . Bergantian, seorang pelanggan dapat dipertahankan atau hilang oleh pengalaman baik atau buruk, memimpin orang berturut-turut berdasarkan pengamatan berbulan-bulan berkorelasi positif .

Saya pikir awal yang baik untuk masalah prediksi ini adalah mengambil pendekatan perkiraan di mana kita dapat menggunakan informasi sebelumnya untuk menginformasikan prediksi kami tentang bisnis bulan depan. Awal yang sederhana untuk masalah ini adalah menyesuaikan efek yang tertinggal, atau indikator apakah suatu subjek telah tiba di bulan lalu , sebagai prediktor apakah mereka akan tiba bulan ini .

AdamO
sumber
2
Tidak bisakah regresi logistik bertingkat digunakan di sini untuk menyelesaikan masalah independensi? Level 2 akan menjadi klien dan level 1 akan menjadi langkah yang diulang dari waktu ke waktu.
Forinstance
1
@ AdamO, intersep dapat diperkirakan, dan dikombinasikan dengan prediksi bahaya sebagian individu, kita dapat membuat kurva kelangsungan hidup individu. Saya tidak yakin mengapa Anda berpikir model Cox dapat memprediksi "tidak ada".
Cam.Davidson.Pilon
δ
Untuk tujuan prediksi, saya merasa ini bukan pemblokir. Bukan hal yang aneh untuk menggabungkan beberapa perkiraan untuk membuat prediksi tunggal, dan (sayangnya dan saya tidak menganjurkannya) interval prediksi tidak umum digunakan atau tersedia.
Cam.Davidson.Pilon
@ Cam.Davidson.Pilon Saya tidak mengatakan prediksi risiko tidak dapat diperoleh dari data survival, saya mengatakan model Cox tidak memprediksi risiko. Langkah-langkah antara menelepon coxphdan mendapatkan estimasi risiko cukup banyak dan banyak.
AdamO
3

TjjPr(Tj>3)j3

Analisis survival memperhitungkan fakta bahwa setiap klien memiliki waktu masuknya sendiri ke dalam penelitian. Oleh karena itu fakta bahwa periode tindak lanjut bervariasi antar klien bukan masalah.

j


Catatan : di sini adalah makalah yang menunjukkan bahwa, di bawah beberapa kendala, baik model logistik dan Cox saling terkait.

okram
sumber
Terima kasih atas jawabannya. Jika SA menangani sensor dengan benar maka itu menyiratkan bahwa solusi LR tidak menangani sensor dengan benar. Bagaimana hasilnya? Saya masih tidak dapat meyakinkan myselft bahwa SA lebih baik untuk target waktu yang tetap. Bisakah saya menemukan artikel ini di suatu tempat secara gratis?
Tomek Tarczynski
Y=0
Email saya adalah: [email protected] Terima kasih banyak!
Tomek Tarczynski
@TomekTarczynski: diterima?
ocram
Ya terima kasih lagi! Saya akan punya waktu besok untuk membacanya dengan lebih cermat. Saya hanya men-skimnya dan jika saya mengerti dengan benar, itu mengatasi masalah yang sedikit berbeda. Menggunakan analogi toko, membandingkan LR dan COX dengan masalah "Berapa probabilitas bahwa klien tidak akan menjadi klien lagi setelah beberapa bulan sejak awal?"
Tomek Tarczynski
2

Literatur pemasaran menyarankan Pareto / NBD di sini atau serupa. Anda pada dasarnya menganggap pembelian - saat mereka membeli - mengikuti distribusi binomial negatif. Tetapi Anda harus memodelkan waktu ketika pelanggan berhenti. Itu bagian yang lain.

Pete Fader dan Bruce Hardie memiliki beberapa makalah tentang ini, bersama dengan Abe.

Ada beberapa pendekatan sederhana untuk Pareto / NBD, bahkan hanya menghitung berbagai kertas Fader dan Hardie. JANGAN gunakan pendekatan yang lebih sederhana di mana diasumsikan probabilitas berhenti adalah konstan pada setiap titik waktu - itu berarti pelanggan Anda yang lebih besar lebih cenderung keluar lebih cepat. Ini model yang lebih sederhana untuk dipasangkan, tetapi salah.

Saya belum memasukkan salah satu dari ini sementara waktu; maaf sedikit tidak spesifik.

Berikut referensi ke makalah Abe, yang menampilkan kembali masalah ini sebagai hierarki Bayes. . Jika saya bekerja di bidang ini lagi, saya pikir saya akan menguji pendekatan ini.

zbicyclist
sumber