Biarkan saya katakan pada awalnya bahwa saya sangat baru dalam pembelajaran mesin, dan tidak hebat dalam matematika. Saya mengerti apa yang TF-IDF lakukan, tetapi dalam buku yang saya baca ini juga mencatat hal-hal berikut (ini membahas bagaimana scikit-belajar melakukan hal-hal):
Kedua kelas [TfidfTransformer dan TfidfVectorizer] juga menerapkan normalisasi L2 setelah menghitung representasi tf-idf; dengan kata lain, mereka mengubah representasi masing-masing dokumen untuk memiliki norma Euclidean 1. Penskalaan dengan cara ini berarti bahwa panjang dokumen (jumlah kata) tidak mengubah representasi vektor.
Hanya itu yang bisa dikatakan tentang masalah ini. Apa yang saya pikirkan artinya, dan beri tahu saya jika saya salah, adalah bahwa kami menskalakan nilai sehingga jika semua kuadrat dan dijumlahkan, nilainya akan menjadi 1 (saya mengambil definisi ini dari http://kawahara.ca / cara-untuk menormalkan-vektor-ke-unit-norm-in-python / ).
Jadi idenya adalah nilai-nilai fitur menjadi proporsional satu sama lain. Saya tidak sepenuhnya yakin bagaimana itu akan membantu untuk model. Apakah ini membantu keseluruhan pengklasifikasi belajar jika beberapa contoh tidak memiliki jumlah total "fitur yang diaktifkan" yang lebih tinggi daripada yang lain?
Juga, inilah pertanyaan mendasar: Apakah normalisasi L2 ada hubungannya dengan regularisasi L2? Mungkin hanya karena keduanya melibatkan kuadrat dan menjumlahkan istilah?
Wawasan apa pun yang dapat Anda bagikan, akan sangat dihargai!
sumber