Pembelajaran mesin (ML) banyak menggunakan teknik regresi linier dan logistik. Hal ini juga bergantung pada teknik rekayasa fitur ( feature transform
, kernel
, dll).
Mengapa tidak ada sekitar variable transformation
(misalnya power transformation
) yang disebutkan dalam ML? (Misalnya, saya tidak pernah mendengar tentang mengambil root atau masuk ke fitur, mereka biasanya hanya menggunakan polinomial atau RBF). Demikian juga, mengapa para pakar ML tidak peduli tentang transformasi fitur untuk variabel dependen? (Misalnya, saya tidak pernah mendengar tentang mengambil transformasi log y; mereka hanya tidak mentransformasikan y.)
Suntingan: Mungkin pertanyaannya tidak pasti, pertanyaan saya yang sebenarnya adalah "apakah transformasi daya ke variabel tidak penting dalam ML?"
sumber
Jawaban:
Buku Applied Predictive Modeling oleh Kuhn dan Johnson adalah buku pembelajaran mesin praktis yang sangat dihormati dengan bagian besar tentang transformasi variabel termasuk Box-Cox. Para penulis mengklaim bahwa banyak algoritma pembelajaran mesin bekerja lebih baik jika fitur-fiturnya memiliki distribusi simetris dan unimodal. Mengubah fitur seperti ini adalah bagian penting dari "rekayasa fitur".
sumber
Baik dari sudut pandang saya sendiri, cukup sering saya tertarik pada distribusi prediktif dari variabel respons, daripada hanya rata-rata bersyarat, dan dalam hal ini lebih baik menggunakan kemungkinan yang lebih tepat mewakili distribusi target. Sebagai contoh, saya lebih suka menggunakan model linear kernelised daripada (katakanlah) mendukung regresi vektor, karena saya bisa menggunakan kemungkinan Poisson jika saya mau. Karena banyak orang yang mempelajari mesin adalah orang Bayesian, saya curiga bahwa menggunakan kemungkinan yang berbeda akan tampak lebih elegan daripada transformasi (memilih kemungkinan yang tepat pada umumnya adalah langkah pertama).
sumber
Inilah pikiran saya selanjutnya.
Saya pikir itu karena ML sebagian besar berurusan dengan klasifikasi, dan klasifikasi tidak perlu mengubah y (y bersifat kategoris). ML biasanya berurusan dengan variabel independen besar (misalnya ribuan dalam NLP) dan regresi logistik tidak memerlukan normalitas; Saya pikir itu sebabnya mereka tidak menggunakan transformasi daya Box-Cox karena pertimbangan kecepatan. (catatan: Saya tidak terbiasa dengan transformasi kekuatan.)
sumber