Apakah mereka rasional (teoretis, substansial, statistik) untuk memilih pembelajaran mesin atau model bahaya saat memodelkan pelanggan churn (atau lebih umum, kejadian peristiwa)?
9
Apakah mereka rasional (teoretis, substansial, statistik) untuk memilih pembelajaran mesin atau model bahaya saat memodelkan pelanggan churn (atau lebih umum, kejadian peristiwa)?
Jawaban:
Saya pikir pertanyaan Anda dapat didefinisikan lebih lanjut. Perbedaan pertama untuk model churn adalah antara membuat
(1) model biner (atau multi-kelas jika ada beberapa jenis churn) untuk memperkirakan probabilitas pelanggan yang berputar dalam atau dengan titik masa depan tertentu (misalnya 3 bulan ke depan)
(2) model tipe bertahan hidup yang membuat perkiraan risiko gesekan setiap periode (katakanlah setiap bulan untuk tahun berikutnya)
Mana dari keduanya yang benar untuk situasi Anda tergantung pada penggunaan model. Jika Anda benar-benar ingin memahami risiko gesekan dari waktu ke waktu dan mungkin memahami bagaimana (mungkin bervariasi waktu) variabel berinteraksi dengan waktu maka model kelangsungan hidup sesuai. Untuk banyak model pelanggan, saya lebih suka menggunakan model hazard waktu diskrit untuk tujuan ini karena waktu seringkali diskrit dalam database dan estimasi bahaya adalah kemungkinan kejadian tersebut. Regresi Cox adalah pilihan populer lainnya tetapi waktu diperlakukan sebagai kontinu (atau melalui penyesuaian untuk ikatan) tetapi bahaya secara teknis bukan merupakan probabilitas.
Untuk sebagian besar model churn, di mana perusahaan tertarik untuk menargetkan x% pelanggan yang paling berisiko dan database diberi skor setiap kali kampanye penargetan diluncurkan, opsi biner (atau multi-kelas) biasanya apa yang dibutuhkan.
Pilihan kedua adalah bagaimana memperkirakan model. Apakah Anda menggunakan model statistik tradisional seperti regresi logistik untuk model biner (multi-kelas) atau algoritma pembelajaran mesin (misalnya hutan acak). Pilihan didasarkan pada yang memberikan model paling akurat dan tingkat interpretabilitas apa yang diperlukan. Untuk model hazard waktu diskrit, regresi logistik biasanya digunakan dengan splines untuk memperkenalkan efek waktu non-linear. Ini juga dapat dilakukan dengan jaringan saraf dan banyak jenis algoritma ML lainnya karena pengaturannya hanya diawasi pembelajaran dengan kumpulan data "orang-periode". Selanjutnya, regresi cox dapat disesuaikan dengan algoritma tradisional seperti SAS proc phreg atau R coxph (). Algoritma pembelajaran mesin GBM juga cocok dengan regresi cox dengan fungsi kerugian yang dipilih. Seperti yang telah disebutkan,
sumber
Pertama-tama saya akan menjelaskan di mana tepatnya Anda membuat perbedaan antara pembelajaran mesin dan model bahaya. Dari pemahaman saya literatur ml membedakan antara model parametrik dan non-parametrik (antara lain).
Dan kedua, untuk apa Anda membutuhkan model itu? Apakah itu untuk penelitian ilmiah atau yang lainnya? Dalam hal apapun memilih model yang sesuai untuk menggambarkan data Anda, pertama-tama tergantung pada apa yang Anda butuhkan untuk model itu.
Untuk pertanyaan Anda: Itu tergantung pada seberapa banyak Anda tahu tentang proses menghasilkan data.
Jika misalnya Anda mengambil flip atau die roll koin yang terkenal, Anda memiliki ide yang sangat bagus tentang proses yang menghasilkan hasil yang diharapkan dari suatu percobaan.
Dalam hal ini Anda benar-benar ingin menggunakan estimasi parametrik (bayesian atau frequentist) karena mereka akan memberi Anda estimasi yang sangat baik dari parameter yang tidak diketahui. Selanjutnya model ini sangat dipahami dengan baik, yang memiliki banyak keunggulan.
Jika Anda tidak mengetahui proses pembuatan data, atau Anda tidak yakin akan hal itu, Anda tidak punya banyak pilihan, perlu memperkirakan parameter yang menggambarkan data dari data itu sendiri. Jika Anda memutuskan untuk pendekatan semacam itu, Anda harus menerima bahwa model-model ini memiliki kelemahan (tergantung pada model spesifik, dll.)
Dari pemahaman saya semakin sedikit Anda tahu tentang suatu proses, semakin banyak Anda perlu memperkirakan dari data itu sendiri, yang pasti akan datang pada harga.
sumber