Menggunakan alat pembelajaran mesin standar pada data yang disensor kiri

11

Saya sedang mengembangkan aplikasi peramalan yang tujuannya adalah untuk memungkinkan importir meramalkan permintaan untuk produk-produknya dari jaringan pelanggan distributornya. Angka penjualan adalah proksi permintaan yang cukup bagus, selama ada persediaan yang cukup untuk memenuhi permintaan. Namun, ketika persediaan ditarik ke nol (situasi yang kami cari untuk membantu pelanggan kami menghindari), kami tidak tahu seberapa banyak kami melewatkan target. Berapa banyak penjualan yang akan dilakukan pelanggan, apakah mereka memiliki persediaan yang cukup? Pendekatan ML berbasis regresi standar yang menggunakan Penjualan sebagai variabel target sederhana akan menghasilkan perkiraan hubungan yang tidak konsisten antara waktu, variabel deskriptif saya, dan permintaan.

Pemodelan Tobit adalah cara paling jelas untuk mendekati masalah: http://en.wikipedia.org/wiki/Tobit_model . Saya bertanya-tanya tentang adaptasi ML hutan acak, GBMS, SVM, dan jaringan saraf yang juga menjelaskan struktur data yang disensor kidal.

Singkatnya, bagaimana cara menerapkan alat pembelajaran mesin pada data regresi sensor kiri untuk mendapatkan perkiraan konsisten hubungan antara variabel dependen dan independen saya? Preferensi pertama adalah solusi yang tersedia dalam R, diikuti oleh Python.

Bersulang,

Harun

Harun
sumber
3
Senang melihat jawaban wrt scikit-belajar.
tobip
Dalam R Anda dapat menggunakan cran.r-project.org/web/packages/censReg/censReg.pdf . Saya kedua @tobip tentang scikit-belajar dengan Python
Adrian

Jawaban:

1

Singkatnya, bagaimana cara menerapkan alat pembelajaran mesin pada data regresi sensor kiri untuk mendapatkan perkiraan konsisten hubungan antara variabel dependen dan independen saya?

Jika Anda dapat menulis kemungkinan dan membalik tanda ke minus maka Anda memiliki fungsi kehilangan diri sendiri yang dapat digunakan untuk banyak model pembelajaran mesin. Dalam meningkatkan gradien ini biasanya direferensikan sebagai model meningkatkan . Lihat misalnya, Meningkatkan Algoritma: Regularisasi, Prediksi dan Pemasangan Model .

Sebagai contoh dengan model Tobit, lihat Gradient Tree Boosted Model Tobit untuk makalah Prediksi Default . Metode ini harus tersedia dengan cabang scikit-learn yang disebutkan dalam makalah.

Ide yang sama digunakan untuk data yang disensor benar dalam misalnya, gbmdan mboostpaket dalam R untuk data yang disensor benar.

Gagasan di atas dapat diterapkan dengan metode lain (misalnya, jaringan saraf). Namun, sangat mudah dengan meningkatkan Gradient karena Anda hanya perlu dapat menghitung gradien dari fungsi kerugian (kemungkinan log negatif). Kemudian Anda bisa menerapkan metode apa pun yang Anda suka agar sesuai dengan gradien negatif dengan kerugian .L.2

Benjamin Christoffersen
sumber