Bagaimana cara mencari dan mengevaluasi diskritisasi optimal untuk variabel kontinu dengan kriteria ?

9

Saya memiliki kumpulan data dengan variabel kontinu dan variabel target biner (0 dan 1).

Saya perlu menentukan variabel kontinu (untuk regresi logistik) sehubungan dengan variabel target dan dengan batasan bahwa frekuensi pengamatan dalam setiap interval harus seimbang. Saya mencoba algoritma pembelajaran mesin seperti Chi Merge, pohon keputusan. Chi merge memberi saya interval dengan angka yang sangat tidak seimbang di setiap interval (interval dengan 3 pengamatan dan satu lagi dengan 1000). Pohon keputusan sulit ditafsirkan.

Saya sampai pada kesimpulan bahwa diskritisasi yang optimal harus memaksimalkan statistik antara variabel diskritisasi dan variabel target dan harus memiliki interval berisi kira-kira jumlah pengamatan yang sama.χ2

Apakah ada algoritma untuk menyelesaikan ini?

Ini terlihat seperti dalam R (def adalah variabel target dan x variabel yang akan didiskritisasi). Saya menghitung Tschuprow's untuk mengevaluasi "korelasi" antara variabel yang ditransformasikan dan target karena statistik cenderung meningkat dengan jumlah interval. Saya tidak yakin apakah ini cara yang benar.χ 2Tχ2

Apakah ada cara lain untuk mengevaluasi jika diskritisasi saya optimal selain dari Tschuprow (meningkat ketika jumlah kelas menurun)?T

chitest <- function(x){
  interv <- cut(x, c(0, 1.6,1.9, 2.3, 2.9, max(x)), include.lowest = TRUE)
  X2 <- chisq.test(df.train$def,as.numeric(interv))$statistic
  #Tschuprow
  Tschup <- sqrt((X2)/(nrow(df.train)*sqrt((6-1)*(2-1))))
  print(list(Chi2=X2,freq=table(interv),def=sum.def,Tschuprow=Tschup))
}
Charlotte
sumber
2
Anda mungkin tahu ini; tetapi, sebagai catatan, (1) itu tidak perlu atau sering, diinginkan untuk mendiskritisasi prediktor untuk regresi logistik, & (2) menggunakan respons untuk menentukan prediktor memperkenalkan bias optimis ke dalam perkiraan kinerja prediksi model Anda, & itu Oleh karena itu penting untuk memvalidasi seluruh prosedur pemasangan (yaitu termasuk metode yang Anda gunakan untuk membentuk prediktor).
Scortchi
Ok, bagaimana saya bisa memvalidasi diskritisasi, bagaimana cara kerjanya?
Charlotte
Jika Anda menggunakan mis. Validasi silang maka dalam setiap lipatan Anda tidak hanya melakukan regresi logistik menggunakan diskritisasi "optimal" dari prediktor yang ditentukan dari keseluruhan sampel, tetapi hitung ulang diskretisasi "optimal" juga.
Scortchi

Jawaban:

8

Ada banyak cara yang mungkin untuk menentukan variabel kontinu: lihat [Garcia 2013]

Di halaman 739 saya bisa melihat setidaknya 5 metode berdasarkan chi-square. Optimalitas diskritisasi sebenarnya tergantung pada tugas yang ingin Anda gunakan dalam variabel diskritisasi. Dalam kasus Anda, regresi logistik. Dan seperti dibahas dalam Garcia2013, menemukan diskritisasi optimal yang diberikan tugas adalah NP-complete.

Ada banyak heuristik. Dalam tulisan ini mereka membahas setidaknya 50 dari mereka. Mengingat latar belakang pembelajaran mesin saya (saya kira orang-orang dalam statistik lebih suka hal-hal lain) saya sering bias terhadap metode Fayyad dan Minimum Deskripsi Panjang (MDL) Iran. Saya melihatnya tersedia dalam diskresi paket R

Seperti yang Anda katakan, Chi-square bias terhadap jumlah interval yang tinggi dan banyak statistik lainnya (seperti perolehan informasi yang digunakan dalam metode MDL). Namun, MDL mencoba menemukan pertukaran yang baik antara perolehan informasi dari variabel yang didiskritisasi dengan kelas dan kompleksitas (jumlah interval) dari variabel yang didiskritisasi. Cobalah.

Simone
sumber
Tautan Garcia 2013 Anda tampaknya rusak ... maukah Anda memposting lebih detail tentang artikel ini atau menautkan kembali?
Kiran K.
2
@KiranK. Terima kasih telah memberi tahu saya. Saya memperbaiki tautannya.
Simone