Saya memiliki set data termasuk satu set pelanggan di berbagai kota di California, waktu panggilan untuk setiap pelanggan, dan status panggilan (Benar jika pelanggan menjawab panggilan dan Salah jika pelanggan tidak menjawab).
Saya harus menemukan waktu yang tepat untuk menelepon pelanggan di masa depan sehingga kemungkinan menjawab panggilan tinggi. Jadi, apa strategi terbaik untuk masalah ini? Haruskah saya menganggapnya sebagai masalah klasifikasi yang jam (0,1,2, ... 23) adalah kelas? Atau haruskah saya menganggapnya sebagai tugas regresi yang waktu adalah variabel kontinu? Bagaimana saya bisa memastikan bahwa kemungkinan menjawab panggilan akan tinggi?
Bantuan apa pun akan dihargai. Akan lebih bagus jika Anda merujuk saya ke masalah yang sama.
Di bawah ini adalah snapshot data.
sumber
Jawaban:
Anda mungkin benar-benar menghadapi masalah jika Anda memodelkan ini sebagai masalah regresi tanpa transformasi yang sesuai. Misalnya, kita tahu bahwa sebagian besar panggilan mungkin dijawab pada siang hari dan kurang pada malam hari dan dini hari. Regresi linier akan mengalami kesulitan karena hubungannya cenderung melengkung, bukan linier. Untuk alasan yang sama, memperlakukan ini sebagai tugas klasifikasi dengan regresi logistik juga akan bermasalah.
Seperti yang disarankan oleh responden lain, klasifikasi ulang data Anda menjadi periode waktu akan membantu, dan saya sarankan Anda mencoba sesuatu seperti pohon keputusan atau hutan acak terlebih dahulu.
Itu semua mengatakan, ini mungkin menjadi kasus untuk statistik deskriptif sederhana. Jika Anda merencanakan proporsi panggilan yang dijawab berdasarkan waktu (dibagi berdasarkan kota atau demografis lainnya), apakah ada waktu terbaik yang jelas ? Jika demikian, mengapa menyulitkan hal-hal dengan model?
sumber
Anda dapat mencoba yang berikut ini:
Selain itu, saya sarankan menambahkan fitur tambahan seperti pekerjaan, jenis kelamin, dll. Karena fitur yang tercantum dalam tabel (kota, dll.) Terlalu ambigu dan tidak memberikan banyak informasi untuk dibedakan di antara pelanggan.
Diedit sesuai saran dalam komentar:
Saat menggunakan model, setiap lead akan diklasifikasikan sebagai prefers_morning = ya / tidak, prefers_noon = ya / tidak dan prefers_evening = ya / tidak. Berdasarkan pada waktu hari itu, misalnya di pagi hari, agen pusat panggilan (atau perangkat lunak) dapat mengambil dan memanggil arahan yang diklasifikasikan dalam set preferensi pagi. Ketika tengah hari, perangkat lunak panggilan mengambil formulir daftar disukai siang, dan sebagainya.
sumber
Saya akan menggunakan regresi logistik - Anda akan membutuhkan sampel di mana mereka tidak mengambil. Kemudian saya akan memperlakukan jam sebagai musiman dummy regressor (23 jam sebagai variabel dummy dan membiarkan satu mengalir ke intersepsi).
Jika Anda tidak memperlakukannya sebagai regresor dummy musiman, Anda harus melakukan semacam transformasi, karena hubungannya tidak akan linier.
Seseorang sebelumnya menyarankan penggantian sore hari, dll sebagai variabel kategori. Itu adalah ide yang buruk karena Anda memiliki detail dan Anda kehilangan detail di sana. Itu akan memiliki efek yang mirip dengan memanfaatkan binning optimal untuk membuat hubungan linier, tetapi saya masih tidak berpikir itu akan berhasil. Coba pembuat boneka musiman.
sumber