1) Bagaimana saya bisa mengubah ambang klasifikasi (saya pikir itu adalah 0,5 secara default) di RandomForest di sklearn?
2) bagaimana saya bisa mengambil sampel dalam sklearn?
3) Saya mendapatkan hasil berikut dari pengelompokkan RandomForest: [[1635 1297] [520 3624]]
precision recall f1-score support
class 0 0.76 0.56 0.64 2932
class 1 0.74 0.87 0.80 4144
rata-rata / total 0,75 0,74 0,73 7076
pertama, data tidak seimbang (30% dari kelas-0 dan 70% dari kelas-1). Jadi, saya pikir classifier lebih cenderung bias untuk kelas-1 yang berarti memindahkan beberapa dari kelas-0 ke kelas-1 (ada 1297 kesalahan klasifikasi untuk kelas-0 tetapi 520 klasifikasi kesalahan untuk kelas-1). Bagaimana saya bisa memperbaikinya? apakah downsampling dapat membantu? atau mengubah ambang klasifikasi?
Pembaruan: kelas-0 memiliki 40% populasi sementara kelas-1 adalah 60%. Namun, pergeseran dari kelas-0 ke kelas-1 (1297) tinggi sementara saya ingin ini menjadi rendah.
sumber
sample_weight
param (satu bobot per parameter) yang sangat fleksibel dan memungkinkan untuk disimulasikanclass_weight
(satu berat per kelas target).y
? Mengapa Anda berbedaY
dany
?