Pemodelan pelanggan churn - Pembelajaran mesin versus model bahaya / kelangsungan hidup

9

Apakah mereka rasional (teoretis, substansial, statistik) untuk memilih pembelajaran mesin atau model bahaya saat memodelkan pelanggan churn (atau lebih umum, kejadian peristiwa)?

majom
sumber
1
Keduanya - mengapa Anda berpikir mereka baik-atau?
EngrStudent
Berikut ini adalah contoh dari pembelajaran mesin dan analisis kelangsungan hidup ieeexplore.ieee.org/xpl/articleDetails.jsp?arnumber=1603631 pasti lebih banyak. IIRC ada beberapa pekerjaan yang dilakukan pada analisis survival berdasarkan data microarray menggunakan pendekatan tipe pembelajaran mesin (misalnya regularisasi L1).
Dikran Marsupial
Profesor Tibshirani adalah contoh kontra yang bagus untuk gagasan "Model pembelajaran mesin dan bahaya terpisah".
Cliff AB
3
Jika Anda dengan model pembelajaran mesin berarti mendefinisikannya sebagai prediksi biner, saya akan mengatakan bahwa jika Anda memiliki banyak data dan definisi churn yang sangat jelas / kueri Anda adalah kueri biner maka biner adalah cara yang harus dilakukan. Ini biasanya tidak demikian maka Anda ingin memprediksi bahaya. Maaf jika mempromosikan diri sendiri tetapi saya menulis artikel ini untuk menjawab pertanyaan yang saya miliki setahun yang lalu. Anda juga dapat dengan mudah membuat model bahaya sebagai masalah pembelajaran mesin sehingga ini merupakan dikotomi palsu seperti disebutkan.
ragulpr

Jawaban:

9

Saya pikir pertanyaan Anda dapat didefinisikan lebih lanjut. Perbedaan pertama untuk model churn adalah antara membuat

(1) model biner (atau multi-kelas jika ada beberapa jenis churn) untuk memperkirakan probabilitas pelanggan yang berputar dalam atau dengan titik masa depan tertentu (misalnya 3 bulan ke depan)

(2) model tipe bertahan hidup yang membuat perkiraan risiko gesekan setiap periode (katakanlah setiap bulan untuk tahun berikutnya)

Mana dari keduanya yang benar untuk situasi Anda tergantung pada penggunaan model. Jika Anda benar-benar ingin memahami risiko gesekan dari waktu ke waktu dan mungkin memahami bagaimana (mungkin bervariasi waktu) variabel berinteraksi dengan waktu maka model kelangsungan hidup sesuai. Untuk banyak model pelanggan, saya lebih suka menggunakan model hazard waktu diskrit untuk tujuan ini karena waktu seringkali diskrit dalam database dan estimasi bahaya adalah kemungkinan kejadian tersebut. Regresi Cox adalah pilihan populer lainnya tetapi waktu diperlakukan sebagai kontinu (atau melalui penyesuaian untuk ikatan) tetapi bahaya secara teknis bukan merupakan probabilitas.

Untuk sebagian besar model churn, di mana perusahaan tertarik untuk menargetkan x% pelanggan yang paling berisiko dan database diberi skor setiap kali kampanye penargetan diluncurkan, opsi biner (atau multi-kelas) biasanya apa yang dibutuhkan.

Pilihan kedua adalah bagaimana memperkirakan model. Apakah Anda menggunakan model statistik tradisional seperti regresi logistik untuk model biner (multi-kelas) atau algoritma pembelajaran mesin (misalnya hutan acak). Pilihan didasarkan pada yang memberikan model paling akurat dan tingkat interpretabilitas apa yang diperlukan. Untuk model hazard waktu diskrit, regresi logistik biasanya digunakan dengan splines untuk memperkenalkan efek waktu non-linear. Ini juga dapat dilakukan dengan jaringan saraf dan banyak jenis algoritma ML lainnya karena pengaturannya hanya diawasi pembelajaran dengan kumpulan data "orang-periode". Selanjutnya, regresi cox dapat disesuaikan dengan algoritma tradisional seperti SAS proc phreg atau R coxph (). Algoritma pembelajaran mesin GBM juga cocok dengan regresi cox dengan fungsi kerugian yang dipilih. Seperti yang telah disebutkan,

B_Miner
sumber
5
(+1) Meskipun saya pikir itu tergantung pada lebih banyak hal daripada yang Anda sebutkan. Probabilitas churn yang diprediksi dalam waktu 3 bulan dapat membacakan model survival, & jika itu model yang baik yang mungkin merupakan estimasi yang lebih baik daripada model dari model yang hanya cocok untuk hasil biner churn setelah atau sebelum 3 bulan.
Scortchi
1
Bagaimana seseorang dapat memprediksi probabilitas churn dalam waktu tiga bulan menggunakan hutan acak, regresi logistik atau model C5.0? Apakah ini mungkin?
Seanosapien
@Seanosapien, Anda dapat mengambil dataset churn Anda dengan informasi tentang kapan setiap pengguna churn, dan untuk setiap pengguna menetapkan 1 jika mereka churn sebelum 3 bulan, dan 0 jika mereka tidak churn sebelum 3 bulan. Kemudian Anda dapat memasukkan misalnya model regresi logistik pada data biner dan menetapkan probabilitas untuk pengguna baru berdasarkan model fit
Kdawg
@Kawg Terima kasih. Saya telah berhasil menemukan cara untuk merekayasa dataset ke model dengan mengingat churn.
Seanosapien
-2

Pertama-tama saya akan menjelaskan di mana tepatnya Anda membuat perbedaan antara pembelajaran mesin dan model bahaya. Dari pemahaman saya literatur ml membedakan antara model parametrik dan non-parametrik (antara lain).

Dan kedua, untuk apa Anda membutuhkan model itu? Apakah itu untuk penelitian ilmiah atau yang lainnya? Dalam hal apapun memilih model yang sesuai untuk menggambarkan data Anda, pertama-tama tergantung pada apa yang Anda butuhkan untuk model itu.

Untuk pertanyaan Anda: Itu tergantung pada seberapa banyak Anda tahu tentang proses menghasilkan data.

Jika misalnya Anda mengambil flip atau die roll koin yang terkenal, Anda memiliki ide yang sangat bagus tentang proses yang menghasilkan hasil yang diharapkan dari suatu percobaan.

Dalam hal ini Anda benar-benar ingin menggunakan estimasi parametrik (bayesian atau frequentist) karena mereka akan memberi Anda estimasi yang sangat baik dari parameter yang tidak diketahui. Selanjutnya model ini sangat dipahami dengan baik, yang memiliki banyak keunggulan.

Jika Anda tidak mengetahui proses pembuatan data, atau Anda tidak yakin akan hal itu, Anda tidak punya banyak pilihan, perlu memperkirakan parameter yang menggambarkan data dari data itu sendiri. Jika Anda memutuskan untuk pendekatan semacam itu, Anda harus menerima bahwa model-model ini memiliki kelemahan (tergantung pada model spesifik, dll.)

Dari pemahaman saya semakin sedikit Anda tahu tentang suatu proses, semakin banyak Anda perlu memperkirakan dari data itu sendiri, yang pasti akan datang pada harga.

Vincent
sumber