Baru-baru ini saya sedang mengerjakan masalah untuk melakukan beberapa analisis biaya pengeluaran saya untuk beberapa sumber daya tertentu. Saya biasanya membuat beberapa keputusan manual dari analisis dan rencana yang sesuai.
Saya memiliki kumpulan data besar dalam format excel dan dengan ratusan kolom, mendefinisikan penggunaan sumber daya dalam berbagai kerangka waktu dan jenis (berbagai penggunaan rinci lainnya). Saya juga memiliki informasi tentang data 4 tahun sebelumnya dan penggunaan sumber daya aktual serta biaya yang dikeluarkan.
Saya berharap untuk melatih NN untuk memprediksi biaya saya sebelumnya dan merencanakan bahkan sebelum saya dapat secara manual melakukan analisis biaya.
Tetapi masalah terbesar yang saya hadapi adalah kebutuhan untuk mengidentifikasi fitur untuk analisis tersebut. Saya berharap ada beberapa cara untuk mengidentifikasi fitur dari kumpulan data.
PS - Saya punya ide tentang PCA dan beberapa teknik pengurangan set fitur lainnya, apa yang saya lihat adalah cara untuk mengidentifikasi mereka di tempat pertama.
sumber
Itu pertanyaan yang bagus dan mungkin salah satu tugas paling sulit di ML.
Anda memiliki beberapa opsi:
Semoga itu bisa membantu
sumber
Adalah bijaksana untuk mempertimbangkan tidak hanya korelasi pengikatan sumber daya dengan biaya, tetapi juga pengembalian biaya pengikatan sumber daya. Tantangan khasnya adalah bahwa pengembalian itu hampir selalu bersifat kumulatif atau tertunda. Kasus akumulasi adalah ketika sumber daya adalah penyetelan terus menerus atau perbaikan dari proses yang tidak ada yang memperlambat generasi pendapatan. Kasus keterlambatan adalah ketika sumber daya penelitian menimbulkan biaya tanpa dampak pendapatan selama periode waktu tertentu, tetapi generasi pendapatan yang dimulai jika penelitian memberikan hasil yang produktif mungkin merupakan faktor substansial di atas total biaya hasil yang disampaikan.
Alasan data pengeluaran dengan sendirinya dapat menyebabkan maladaptif pembelajaran jaringan adalah karena jaringan yang dilatih untuk mengurangi, misalnya, biaya pemasaran akan nol mereka. Itu biasanya akan menyebabkan tren penjualan yang menurun sampai bisnis terlipat. Tanpa menyertakan pengembalian dalam informasi pelatihan, pembelajaran yang bermanfaat tidak dapat terjadi.
MLP dasar (multi-layer perceptron) tidak akan mempelajari karakteristik temporal data, aspek akumulasi dan penundaan. Anda akan membutuhkan jaringan stateful. Jenis jaringan yang paling berhasil secara konsisten untuk jenis pembelajaran ini pada penulisan ini adalah jenis jaringan LSTM (memori jangka pendek) atau salah satu varian turunannya. Data pendapatan dan keseimbangan harus digunakan bersama dengan data pengeluaran untuk melatih jaringan untuk memprediksi hasil bisnis untuk setiap urutan pengikatan sumber daya yang diusulkan (rencana anggaran terperinci lengkap).
Fungsi kerugian harus menyeimbangkan jangka pendek dengan tujuan keuangan jangka menengah dan panjang. Kas negatif yang tersedia harus menghasilkan peningkatan yang nyata dalam fungsi kerugian sehingga penghindaran risiko dasar terhadap reputasi dan biaya kredit dipelajari.
Kolom mana dalam data Anda yang memiliki korelasi kuat dengan pengembalian investasi sulit ditentukan sebelumnya. Anda dapat segera mengecualikan kolom yang sesuai dengan salah satu kriteria berikut.
Data dapat dikurangi dengan cara lain
RBM (mesin Boltzmann terbatas) dapat mengekstraksi fitur dari data dan PCA dapat menerangi kolom konten informasi yang rendah, tetapi signifikansi kolom dalam hal korelasinya dengan pendapatan tidak akan diidentifikasi menggunakan perangkat ini dalam bentuk dasarnya.
sumber