Bagaimana cara memilih fitur data yang relevan?

11

Baru-baru ini saya sedang mengerjakan masalah untuk melakukan beberapa analisis biaya pengeluaran saya untuk beberapa sumber daya tertentu. Saya biasanya membuat beberapa keputusan manual dari analisis dan rencana yang sesuai.

Saya memiliki kumpulan data besar dalam format excel dan dengan ratusan kolom, mendefinisikan penggunaan sumber daya dalam berbagai kerangka waktu dan jenis (berbagai penggunaan rinci lainnya). Saya juga memiliki informasi tentang data 4 tahun sebelumnya dan penggunaan sumber daya aktual serta biaya yang dikeluarkan.

Saya berharap untuk melatih NN untuk memprediksi biaya saya sebelumnya dan merencanakan bahkan sebelum saya dapat secara manual melakukan analisis biaya.

Tetapi masalah terbesar yang saya hadapi adalah kebutuhan untuk mengidentifikasi fitur untuk analisis tersebut. Saya berharap ada beberapa cara untuk mengidentifikasi fitur dari kumpulan data.

PS - Saya punya ide tentang PCA dan beberapa teknik pengurangan set fitur lainnya, apa yang saya lihat adalah cara untuk mengidentifikasi mereka di tempat pertama.

Karan Chopra
sumber

Jawaban:

1

Karena Anda memiliki semua data dalam sebuah tabel, hal yang relatif sederhana untuk dilakukan adalah mempertimbangkan setiap kolom secara independen, dan kemudian melihat apakah variabel output (biaya yang dikeluarkan) memiliki korelasi dengan itu.

Jika kolom tidak memiliki (atau korelasi yang sangat rendah) dengan variabel output, maka anggap itu tidak penting. Yang membuat potongan kemudian dipertimbangkan lebih lanjut.

Ini jelas tidak jauh berbeda dari bagaimana algoritma pohon keputusan akan bekerja (seperti ID3).

Amrinder Arora
sumber
0

tidak ada aturan yang sulit dan cepat untuk pemilihan fitur, Anda harus memeriksa set data secara manual dan mencoba teknik berbeda untuk rekayasa fitur. Dan tidak ada aturan bahwa Anda harus menerapkan jaringan saraf untuk ini, jaringan saraf memakan waktu lama untuk dilatih, sebaliknya Anda dapat bereksperimen dengan metode berbasis pohon keputusan (hutan acak) karena data Anda tetap dalam struktur tabel.

riemann77
sumber
terima kasih atas masukannya, 1. Saya setuju NN bukan cara terbaik untuk menguji hipotesis, tapi saya kira menggunakan NN kita dapat mencapai hubungan yang lebih luas di antara fitur-fitur, untuk mendapatkan hasil yang lebih baik (dalam banyak kasus). 2. Masalah yang saya hadapi adalah memilih fitur, yang sebenarnya akan menentukan pola untuk masalah saya, juga cara menentukan bobot fitur.
Karan Chopra
0

Itu pertanyaan yang bagus dan mungkin salah satu tugas paling sulit di ML.

Anda memiliki beberapa opsi:

  1. Anda dapat menggunakan algoritme pembobotan (mis. Chi-squared) untuk memahami fitur mana yang paling berkontribusi terhadap output Anda
  2. Anda dapat menggunakan algoritma ML lainnya untuk mengklasifikasikan apakah suatu fitur berkontribusi terhadap prediksi Anda atau tidak
  3. Anda dapat menggunakan algoritma ML lainnya (selain NN) yang secara inheren memberi Anda bobot fitur (misalnya Hutan Acak)

Semoga itu bisa membantu

Ragy Ibrahim
sumber
0

Adalah bijaksana untuk mempertimbangkan tidak hanya korelasi pengikatan sumber daya dengan biaya, tetapi juga pengembalian biaya pengikatan sumber daya. Tantangan khasnya adalah bahwa pengembalian itu hampir selalu bersifat kumulatif atau tertunda. Kasus akumulasi adalah ketika sumber daya adalah penyetelan terus menerus atau perbaikan dari proses yang tidak ada yang memperlambat generasi pendapatan. Kasus keterlambatan adalah ketika sumber daya penelitian menimbulkan biaya tanpa dampak pendapatan selama periode waktu tertentu, tetapi generasi pendapatan yang dimulai jika penelitian memberikan hasil yang produktif mungkin merupakan faktor substansial di atas total biaya hasil yang disampaikan.

Alasan data pengeluaran dengan sendirinya dapat menyebabkan maladaptif pembelajaran jaringan adalah karena jaringan yang dilatih untuk mengurangi, misalnya, biaya pemasaran akan nol mereka. Itu biasanya akan menyebabkan tren penjualan yang menurun sampai bisnis terlipat. Tanpa menyertakan pengembalian dalam informasi pelatihan, pembelajaran yang bermanfaat tidak dapat terjadi.

MLP dasar (multi-layer perceptron) tidak akan mempelajari karakteristik temporal data, aspek akumulasi dan penundaan. Anda akan membutuhkan jaringan stateful. Jenis jaringan yang paling berhasil secara konsisten untuk jenis pembelajaran ini pada penulisan ini adalah jenis jaringan LSTM (memori jangka pendek) atau salah satu varian turunannya. Data pendapatan dan keseimbangan harus digunakan bersama dengan data pengeluaran untuk melatih jaringan untuk memprediksi hasil bisnis untuk setiap urutan pengikatan sumber daya yang diusulkan (rencana anggaran terperinci lengkap).

Fungsi kerugian harus menyeimbangkan jangka pendek dengan tujuan keuangan jangka menengah dan panjang. Kas negatif yang tersedia harus menghasilkan peningkatan yang nyata dalam fungsi kerugian sehingga penghindaran risiko dasar terhadap reputasi dan biaya kredit dipelajari.

Kolom mana dalam data Anda yang memiliki korelasi kuat dengan pengembalian investasi sulit ditentukan sebelumnya. Anda dapat segera mengecualikan kolom yang sesuai dengan salah satu kriteria berikut.

  • Selalu kosong
  • Konstanta lain, yang memiliki nilai yang sama untuk setiap baris
  • Yang selalu bisa berasal dari kolom lain

Data dapat dikurangi dengan cara lain

  • Menggambarkan data sepenuhnya dengan mengkarakterisasi tren dengan cara sederhana
  • Menggunakan indeks untuk menentukan string panjang dengan akurasi 100% dengan menetapkan setiap string nomor
  • Kompresi
  • Sebaliknya mengurangi redundansi dalam data

RBM (mesin Boltzmann terbatas) dapat mengekstraksi fitur dari data dan PCA dapat menerangi kolom konten informasi yang rendah, tetapi signifikansi kolom dalam hal korelasinya dengan pendapatan tidak akan diidentifikasi menggunakan perangkat ini dalam bentuk dasarnya.

Douglas Daseeco
sumber