Apa cara terbaik untuk mempersiapkan interaksi fitur-fitur kategorikal sebelum disesuaikan dengan scikit-learn?
Dengan statsmodels
saya bisa dengan mudah mengatakan dalam gaya R smf.ols(formula = 'depvar ~ C(var1)*C(var2)', data=df).fit()
(sama di Stata dengan regress depvar i.var1##i.var2
).
Bisakah sklearn.preprocessing.PolynomialFeatures
(dalam v0.15, saat ini dev) digunakan dengan variabel kategori?
~var1*var2
baik-baik saja dalam R untuk membangun matriks RHS)dmatrix
)Gunakan Patsy .
Patsy adalah salah satu perpustakaan Python favorit saya: ia melakukan satu hal, dan hanya satu hal, benar-benar sangat baik.
sumber