Bagaimana tepatnya cara kerja pemilihan fitur Chi-square?

15

Saya tahu bahwa untuk setiap pasangan fitur-kelas, nilai statistik chi-square dihitung dan dibandingkan dengan ambang batas.

Tapi saya agak bingung. Jika ada fitur dan kelas , bagaimana cara membuat tabel kontingensi? Bagaimana cara memutuskan fitur mana yang akan disimpan dan mana yang akan dihapus?mk

Klarifikasi apa pun akan sangat dihargai. Terima kasih sebelumnya

pengguna721975
sumber
1
Adakah pemikiran / petunjuk tentang siapa ini?
user721975

Jawaban:

5

Uji chi-square adalah uji statistik independensi untuk menentukan ketergantungan dua variabel. Ini berbagi kesamaan dengan koefisien determinasi, R². Namun, uji chi-square hanya berlaku untuk data kategorikal atau nominal, sedangkan R² hanya berlaku untuk data numerik.

Dari definisi, chi-square kita dapat dengan mudah menyimpulkan penerapan teknik chi-square dalam pemilihan fitur. Misalkan Anda memiliki variabel target (yaitu, label kelas) dan beberapa fitur lainnya (variabel fitur) yang menjelaskan setiap sampel data. Sekarang, kami menghitung statistik chi-square antara setiap variabel fitur dan variabel target dan mengamati adanya hubungan antara variabel dan target. Jika variabel target tidak tergantung pada variabel fitur, kami dapat membuang variabel fitur itu. Jika mereka tergantung, variabel fitur sangat penting.

Rincian matematika dijelaskan di sini: http://nlp.stanford.edu/IR-book/html/htmledition/feature-selectionchi2-feature-selection-1.html

Untuk variabel kontinu, chi-square dapat diterapkan setelah "Binning" variabel.

Contoh dalam R, tanpa malu-malu disalin dari FSelector

# Use HouseVotes84 data from  mlbench package
library(mlbench)# For data
library(FSelector)#For method
data(HouseVotes84)

#Calculate the chi square statistics 
weights<- chi.squared(Class~., HouseVotes84)

# Print the results 
print(weights)

# Select top five variables
subset<- cutoff.k(weights, 5)

# Print the final formula that can be used in classification
f<- as.simple.formula(subset, "Class")
print(f)

Tidak terkait dengan begitu banyak dalam pemilihan fitur tetapi video di bawah ini membahas chisquare secara detail https://www.youtube.com/watch?time_continue=5&v=IrZOKSGShC8

disiplin
sumber