menjelaskan makna dan tujuan normalisasi L2

13

Biarkan saya katakan pada awalnya bahwa saya sangat baru dalam pembelajaran mesin, dan tidak hebat dalam matematika. Saya mengerti apa yang TF-IDF lakukan, tetapi dalam buku yang saya baca ini juga mencatat hal-hal berikut (ini membahas bagaimana scikit-belajar melakukan hal-hal):

Kedua kelas [TfidfTransformer dan TfidfVectorizer] juga menerapkan normalisasi L2 setelah menghitung representasi tf-idf; dengan kata lain, mereka mengubah representasi masing-masing dokumen untuk memiliki norma Euclidean 1. Penskalaan dengan cara ini berarti bahwa panjang dokumen (jumlah kata) tidak mengubah representasi vektor.

Hanya itu yang bisa dikatakan tentang masalah ini. Apa yang saya pikirkan artinya, dan beri tahu saya jika saya salah, adalah bahwa kami menskalakan nilai sehingga jika semua kuadrat dan dijumlahkan, nilainya akan menjadi 1 (saya mengambil definisi ini dari http://kawahara.ca / cara-untuk menormalkan-vektor-ke-unit-norm-in-python / ).

Jadi idenya adalah nilai-nilai fitur menjadi proporsional satu sama lain. Saya tidak sepenuhnya yakin bagaimana itu akan membantu untuk model. Apakah ini membantu keseluruhan pengklasifikasi belajar jika beberapa contoh tidak memiliki jumlah total "fitur yang diaktifkan" yang lebih tinggi daripada yang lain?

Juga, inilah pertanyaan mendasar: Apakah normalisasi L2 ada hubungannya dengan regularisasi L2? Mungkin hanya karena keduanya melibatkan kuadrat dan menjumlahkan istilah?

Wawasan apa pun yang dapat Anda bagikan, akan sangat dihargai!

Stephen
sumber

Jawaban:

19

kami skala nilai sehingga jika mereka semua kuadrat dan dijumlahkan, nilainya akan menjadi 1

Itu benar.

Saya tidak sepenuhnya yakin bagaimana itu akan membantu untuk model

Pertimbangkan kasus yang lebih sederhana, di mana kami hanya menghitung berapa kali setiap kata muncul di setiap dokumen. Dalam hal ini, dua dokumen mungkin tampak berbeda hanya karena panjangnya berbeda (dokumen yang lebih panjang berisi lebih banyak kata). Tapi, kami lebih tertarik pada makna dokumen, dan panjangnya tidak berkontribusi untuk ini. Normalisasi memungkinkan kita mempertimbangkan frekuensi kata relatif satu sama lain, sambil menghilangkan efek jumlah kata total.

Apakah normalisasi L2 ada hubungannya dengan regularisasi L2?

Regulator L2 beroperasi pada parameter model, sedangkan normalisasi L2 (dalam konteks yang Anda tanyakan) beroperasi pada representasi data. Mereka tidak terkait dalam arti yang berarti, di luar fakta dangkal bahwa keduanya membutuhkan komputasi norma L2 (menjumlahkan istilah kuadrat, seperti yang Anda katakan).

Tapi, perhatikan bahwa normalisasi L2 adalah operasi generik, dan dapat diterapkan dalam konteks di luar yang Anda tanyakan. Memang ada situasi di mana orang bisa menggambar hubungan antara dua konsep, tapi saya pikir itu di luar cakupan pertanyaan ini.

pengguna20160
sumber