Saya memiliki kumpulan data dengan variabel kontinu dan variabel target biner (0 dan 1).
Saya perlu menentukan variabel kontinu (untuk regresi logistik) sehubungan dengan variabel target dan dengan batasan bahwa frekuensi pengamatan dalam setiap interval harus seimbang. Saya mencoba algoritma pembelajaran mesin seperti Chi Merge, pohon keputusan. Chi merge memberi saya interval dengan angka yang sangat tidak seimbang di setiap interval (interval dengan 3 pengamatan dan satu lagi dengan 1000). Pohon keputusan sulit ditafsirkan.
Saya sampai pada kesimpulan bahwa diskritisasi yang optimal harus memaksimalkan statistik antara variabel diskritisasi dan variabel target dan harus memiliki interval berisi kira-kira jumlah pengamatan yang sama.
Apakah ada algoritma untuk menyelesaikan ini?
Ini terlihat seperti dalam R (def adalah variabel target dan x variabel yang akan didiskritisasi). Saya menghitung Tschuprow's untuk mengevaluasi "korelasi" antara variabel yang ditransformasikan dan target karena statistik cenderung meningkat dengan jumlah interval. Saya tidak yakin apakah ini cara yang benar.χ 2
Apakah ada cara lain untuk mengevaluasi jika diskritisasi saya optimal selain dari Tschuprow (meningkat ketika jumlah kelas menurun)?
chitest <- function(x){
interv <- cut(x, c(0, 1.6,1.9, 2.3, 2.9, max(x)), include.lowest = TRUE)
X2 <- chisq.test(df.train$def,as.numeric(interv))$statistic
#Tschuprow
Tschup <- sqrt((X2)/(nrow(df.train)*sqrt((6-1)*(2-1))))
print(list(Chi2=X2,freq=table(interv),def=sum.def,Tschuprow=Tschup))
}
Jawaban:
Ada banyak cara yang mungkin untuk menentukan variabel kontinu: lihat [Garcia 2013]
Di halaman 739 saya bisa melihat setidaknya 5 metode berdasarkan chi-square. Optimalitas diskritisasi sebenarnya tergantung pada tugas yang ingin Anda gunakan dalam variabel diskritisasi. Dalam kasus Anda, regresi logistik. Dan seperti dibahas dalam Garcia2013, menemukan diskritisasi optimal yang diberikan tugas adalah NP-complete.
Ada banyak heuristik. Dalam tulisan ini mereka membahas setidaknya 50 dari mereka. Mengingat latar belakang pembelajaran mesin saya (saya kira orang-orang dalam statistik lebih suka hal-hal lain) saya sering bias terhadap metode Fayyad dan Minimum Deskripsi Panjang (MDL) Iran. Saya melihatnya tersedia dalam diskresi paket R
Seperti yang Anda katakan, Chi-square bias terhadap jumlah interval yang tinggi dan banyak statistik lainnya (seperti perolehan informasi yang digunakan dalam metode MDL). Namun, MDL mencoba menemukan pertukaran yang baik antara perolehan informasi dari variabel yang didiskritisasi dengan kelas dan kompleksitas (jumlah interval) dari variabel yang didiskritisasi. Cobalah.
sumber