Saya sudah berkali-kali menganalisis dataset yang saya tidak bisa melakukan klasifikasi apa pun. Untuk melihat apakah saya bisa mendapatkan classifier, saya biasanya menggunakan langkah-langkah berikut:
- Buat plot kotak label terhadap nilai numerik.
- Kurangi dimensionalitas menjadi 2 atau 3 untuk melihat apakah kelas dapat dipisahkan, kadang-kadang juga mencoba LDA.
- Dengan paksa mencoba menyesuaikan SVM dan Hutan Acak dan melihat fitur-penting untuk melihat apakah fitur masuk akal atau tidak.
- Cobalah untuk mengubah keseimbangan kelas dan teknik seperti under-sampling dan over-sampling untuk memeriksa apakah ketidakseimbangan kelas mungkin menjadi masalah.
Ada banyak pendekatan lain yang bisa saya pikirkan, tetapi belum mencoba. Terkadang saya tahu bahwa fitur-fitur ini tidak baik dan sama sekali tidak terkait dengan label yang kami coba prediksi. Saya kemudian menggunakan intuisi bisnis untuk mengakhiri latihan, menyimpulkan bahwa kita membutuhkan fitur yang lebih baik atau label yang sama sekali berbeda.
Pertanyaan saya adalah bagaimana laporan Data Scientist bahwa klasifikasi tidak dapat dilakukan dengan fitur-fitur ini. Apakah ada cara statistik untuk melaporkan ini atau menyesuaikan data dalam algoritma yang berbeda terlebih dahulu dan melihat metrik validasi adalah pilihan terbaik?
Jawaban:
Itu tergantung pada data Anda. Ada sesuatu yang disebut tingkat kesalahan manusia. Misalkan tugas-tugas seperti membaca buku cetak, manusia tidak kesulitan membaca dan mungkin tidak terjadi kesalahan kecuali karena kualitas cetak yang buruk. Dalam kasus-kasus seperti membaca naskah tulisan tangan, mungkin banyak terjadi tidak memahami semua kata jika font penulis aneh untuk pembaca. Dalam situasi pertama kesalahan tingkat manusia terlalu rendah dan algoritma pembelajaran dapat memiliki kinerja yang sama tetapi contoh kedua menggambarkan fakta bahwa dalam beberapa situasi kesalahan tingkat manusia sangat tinggi dan dengan cara biasa (jika Anda menggunakan yang sama fitur sebagai manusia) algoritma pembelajaran Anda akan memiliki begitu banyak rasio kesalahan.
Dalam pembelajaran statistik, ada sesuatu yang disebut
Bayes Error
, setiap kali distribusi kelas tumpang tindih, rasio kesalahannya besar. tanpa mengubah fitur, kesalahan Bayes dari distribusi saat ini adalah kinerja terbaik dan tidak dapat dikurangi sama sekali.Saya juga menyarankan Anda membaca di sini . Masalah dengan sejumlah besar kesalahan Bayes dengan fitur yang ditunjuk dianggap tidak dapat diklasifikasikan dalam ruang fitur tersebut. Sebagai contoh lain Anda dapat mengira Anda ingin mengklasifikasikan mobil dengan lampu menyala. Jika Anda mencoba melakukan itu di pagi hari, Anda sendiri mungkin memiliki banyak kesalahan dan jika Anda menggunakan gambar yang sama untuk melatih algoritma pembelajaran, itu mungkin juga terjadi.
Saya juga menyarankan Anda untuk tidak mengubah distribusi kelas Anda. Dalam kasus seperti itu, hasil dari classifier di dekat batas akan sepenuhnya acak. Distribusi data untuk melatih algoritme pembelajaran mesin Anda tidak boleh diubah dan harus seperti dalam kondisi nyata.
sumber
Ambil elemen sampel dari satu kelas dan elemen sampel dari kelas lain. Mungkinkah kedua elemen ini memiliki vektor fitur yang sama persis? Jika itu dapat pernah terjadi maka dua kelas tidak sepenuhnya seperable menggunakan vektor fitur Anda saat ini (sejak keputusan klasifikasi didasarkan sepenuhnya dalam vektor fitur untuk elemen tertentu).
Di sisi lain, jika * setiap "elemen dalam satu kelas memiliki elemen yang sesuai di kelas lain sehingga kedua elemen memiliki vektor fitur yang sama, maka dua kelas tidak dapat dibedakan menggunakan vektor fitur Anda saat ini.
Selain itu, jika kondisi itu hanya berlaku untuk beberapa elemen Anda dan bukan elemen lainnya, maka Anda berada di antara keduanya, dan Anda dapat menggunakannya sebagai dasar untuk mengukur seberapa baik Anda bisa berharap classifier untuk melakukan menggunakan set fitur Anda saat ini.
Semua evaluasi ini dapat digunakan untuk memperdebatkan tingkat yang berbeda-beda sehingga Anda perlu mengekstraksi lebih banyak fitur.
sumber