Jadi saya ditanya pertanyaan yang mengukur L1 (yaitu, laso) dan L2 (yaitu, regresi ridge) diperkirakan. Jawabannya adalah L1 = median dan L2 = rata-rata. Apakah ada jenis alasan intuitif untuk ini? Atau harus ditentukan secara aljabar? Jika demikian, bagaimana cara saya melakukan itu?
24
Jawaban:
Ada penjelasan geometris sederhana untuk mengapa fungsi kehilangan L1 menghasilkan median.
Ingatlah bahwa kita bekerja dalam satu dimensi, jadi bayangkan sebuah garis bilangan menyebar secara horizontal. Plot setiap titik data pada garis angka. Letakkan jari Anda di suatu tempat di telepon; jari Anda akan menjadi perkiraan kandidat Anda saat ini.
Misalkan Anda menggerakkan jari Anda sedikit ke kanan, katakan unit ke kanan. Apa yang terjadi dengan total kerugian? Nah, jika jari Anda berada di antara dua titik data, dan Anda memindahkannya melintasi titik data, Anda telah meningkatkan total kerugian sebesar δδ δ untuk setiap titik data di sebelah kiri jari Anda, dan menguranginya sebesar untuk setiap titik data ke sebelah kanan jari Anda. Jadi, jika ada lebih banyak titik data di sebelah kanan jari Anda daripada di sebelah kiri, gerakkan jari Anda ke kanan mengurangi total kehilangan. Dengan kata lain, jika lebih dari setengah titik data berada di kanan jari Anda, Anda harus menggerakkan jari Anda ke kanan.δ
Ini mengarah pada Anda menggerakkan jari Anda ke tempat di mana setengah dari titik data berada di tempat itu, dan setengah di sebelah kanan. Tempat itu adalah median.
Itu L1 dan median. Sayangnya, saya tidak memiliki penjelasan yang mirip, "semua intuisi, tidak ada aljabar" untuk L2 dan mean.
sumber
Penjelasan ini adalah penjumlahan dari muratoa dan komentar Yves pada jawaban DW. Meskipun didasarkan pada kalkulus, saya menemukannya langsung dan mudah dimengerti.
Dengan asumsi kita dan ingin mendapatkan estimasi baru β berdasarkan pada mereka. Kehilangan terkecil diperoleh ketika kita menemukan β yang membuat turunan dari kerugian menjadi nol.y1,y2,...yk β β
Kerugian L1
∂L1
L2 loss
So to minimize L2 loss,
sumber
Adding to D.W.'s answer with an even more practical example (for L2 loss function as well):
Imagine a small village made of 4 houses close to each other (e.g. 10 meters). At 1 kilometer from those, you have another very isolated house. Now, you arrive in that town and want to build your own house somewhere. You want to live close to the other houses and be friend with everybody. Consider those two alternative scenarios:
You decide to be at the location where the average distance to any house is the smallest (i.e. minimizing a L1 loss function).
So the lowest average distance of 100 meters is reached by building your house in the village. More specifically, you will build your house in the middle of these 4 houses to gain a few more meters of average distance. And it turns out that this point is the "median point", that you would have obtained similarly using the median formula.
So yes, it is interesting to notice that, a bit counter-intuitively, when we minimize the sum of the distances, we don't end up being in the "middle" in the sense of the mean, but in the sense of the median. This is part of the reason why OLS, one of the most popular regression models, uses squared errors rather than absolute errors.
sumber
In addition to the already-posted answers (which have been very helpful to me!), there is a geometric explanation for the connection between the L2 norm and the mean.
To use the same notation as chefwen, the formula for L2 loss is:
We wish to find the value ofβ which minimizes L2 . Notice that this is equivalent to minimizing the following, since multiplying by k and taking the square root both preserve order:
If you consider the data vectory as a point in k -dimensional space, this formula calculates the Euclidean distance between the point y and the point β⃗ =(β,β,...,β) .
So the problem is to find the valueβ which minimizes the Euclidean distance between the points y and β⃗ . Since the possible values of β⃗ all lie on the line parallel to 1⃗ =(1,1,...,1) by definition, this is equivalent to finding the vector projection of y onto 1⃗ .
It's only really possible to visualize this whenk=2 , but here is an example where y=(2,6) . As shown, projecting onto 1⃗ yields (4,4) as we expect.
To show that this projection always yields the mean (including whenk>2 ), we can apply the formula for projection:
sumber