Regresi L1 memperkirakan median sedangkan estimasi regresi L2 berarti?

24

Jadi saya ditanya pertanyaan yang mengukur L1 (yaitu, laso) dan L2 (yaitu, regresi ridge) diperkirakan. Jawabannya adalah L1 = median dan L2 = rata-rata. Apakah ada jenis alasan intuitif untuk ini? Atau harus ditentukan secara aljabar? Jika demikian, bagaimana cara saya melakukan itu?

Bstat
sumber
4
L1 / L2 apakah Anda mengacu pada fungsi tujuan atau kendala? Jika fungsi objektif maka ya kesalahan L1 diminimalkan dengan median bersyarat dan L2 berarti bersyarat. Jika kendala (apa bubungan / laso merujuk) maka ini adalah cara yang salah untuk memikirkan hal ini. "Langkah-langkah sentral" mereka masih bertujuan untuk rata-rata bersyarat tetapi dengan hukuman berbeda pada . β
muratoa

Jawaban:

24

Ada penjelasan geometris sederhana untuk mengapa fungsi kehilangan L1 menghasilkan median.

Ingatlah bahwa kita bekerja dalam satu dimensi, jadi bayangkan sebuah garis bilangan menyebar secara horizontal. Plot setiap titik data pada garis angka. Letakkan jari Anda di suatu tempat di telepon; jari Anda akan menjadi perkiraan kandidat Anda saat ini.

Misalkan Anda menggerakkan jari Anda sedikit ke kanan, katakan unit ke kanan. Apa yang terjadi dengan total kerugian? Nah, jika jari Anda berada di antara dua titik data, dan Anda memindahkannya melintasi titik data, Anda telah meningkatkan total kerugian sebesar δδδ untuk setiap titik data di sebelah kiri jari Anda, dan menguranginya sebesar untuk setiap titik data ke sebelah kanan jari Anda. Jadi, jika ada lebih banyak titik data di sebelah kanan jari Anda daripada di sebelah kiri, gerakkan jari Anda ke kanan mengurangi total kehilangan. Dengan kata lain, jika lebih dari setengah titik data berada di kanan jari Anda, Anda harus menggerakkan jari Anda ke kanan.δ

Ini mengarah pada Anda menggerakkan jari Anda ke tempat di mana setengah dari titik data berada di tempat itu, dan setengah di sebelah kanan. Tempat itu adalah median.

Itu L1 dan median. Sayangnya, saya tidak memiliki penjelasan yang mirip, "semua intuisi, tidak ada aljabar" untuk L2 dan mean.

DW
sumber
7
Jika kita berbicara tentang perkiraan titik sederhana maka itu adalah kalkulus langsung. ddβ1ni=1n(yiβ)2=21ni=1n(yiβ)=0β=1niyi
muratoa
3
@muratoa, ya, saya tahu derivasi kalkulus, tetapi pertanyaannya meminta penjelasan khusus yang berfokus pada intuisi dan menghindari aljabar. Saya akan berasumsi bahwa penanya telah mengetahui derivasi kalkulus, tetapi sedang mencari sesuatu yang memberikan lebih banyak intuisi.
DW
Saya pikir OP menyebutkan regresi yang menunjukkan bahwa ia berbicara tentang estimasi y diberikan x yang merupakan rata-rata bersyarat menggunakan kuadrat terkecil dan median kondisional untuk kesalahan absolut rata-rata. Penjelasan yang sama harus bekerja tetapi masalahnya sedikit berbeda. Penjelasan kalkulus untuk rata-rata cukup jelas dan langsung. Mungkin penjelasan untuk mean dapat diberikan dengan cara yang mirip dengan DW untuk median. Rata-rata sampel adalah estimasi yang tidak bias untuk rata-rata populasi.
Michael R. Chernick
Saat Anda memindahkan estimasi dari sampel berarti kesalahan kuadrat rata-rata berubah karena peningkatan bias. Kesalahan kuadrat rata-rata sebenarnya meningkat sebesar d 2 ketika estimasi menambahkan d pada mean sampel sebagai estimasi kandidat. 2
Michael R. Chernick
11
Versi aljabar yang cepat dan kotor yang diberikan oleh muratoa ada untuk kasus L1. Perhatikan bahwa kecuali ketika , turunan dari | y i - β | wrt β is - s g n ( y i - β ) , yaitu - 1 jika β < y i dan + 1 jika β > y i . Jadi dβ=yi|yiβ|βsgn(yiβ)1β<yi+1β>yi , kecuali bila β adalah y i . Derivatif menghilang ketika ada jumlah yang sama dari istilah positif dan negatif di antara y i - β , yang secara kasar muncul ketika β adalah median dari y i . ddβ1ni|yiβ|=1nisgn(yiβ)βyiyiββyi
Yves
17

Penjelasan ini adalah penjumlahan dari muratoa dan komentar Yves pada jawaban DW. Meskipun didasarkan pada kalkulus, saya menemukannya langsung dan mudah dimengerti.

Dengan asumsi kita dan ingin mendapatkan estimasi baru β berdasarkan pada mereka. Kehilangan terkecil diperoleh ketika kita menemukan β yang membuat turunan dari kerugian menjadi nol.y1,y2,...ykββ

Kerugian L1

L1

L1=1ki=1k|yiβ|
L1β=1ki=1ksgn(yiβ)
sgn(yiβ)yi>βyi<βyiβ, which means β should be the median of yi.

L2 loss

L2=1ki=1k(yiβ)2
L2β=2ki=1k(yiβ)
L2β=0β=1ki=1kyi

So to minimize L2 loss, β should be the mean of yi.
chefwen
sumber
3

Adding to D.W.'s answer with an even more practical example (for L2 loss function as well):

Imagine a small village made of 4 houses close to each other (e.g. 10 meters). At 1 kilometer from those, you have another very isolated house. Now, you arrive in that town and want to build your own house somewhere. You want to live close to the other houses and be friend with everybody. Consider those two alternative scenarios:

  1. You decide to be at the location where the average distance to any house is the smallest (i.e. minimizing a L1 loss function).

    • If you put your house at the center of the village, you will be around 10 meters away from 4 houses and 1 kilometer away from one house, which gives you an average distance of about 200 meters (10+10+10+10+1000 / 5).
    • If you place your house 500 meters away from the village, you will be around 500 meters away from 5 houses, which gives you an average distance of 500 meters.
    • If you place your house next to the isolated house, you will be 1km away from the village (4 houses) and around 10 meters away from 1 house, which gives you an average distance of about 800 meters.

    So the lowest average distance of 100 meters is reached by building your house in the village. More specifically, you will build your house in the middle of these 4 houses to gain a few more meters of average distance. And it turns out that this point is the "median point", that you would have obtained similarly using the median formula.

  2. You decide to take a democratic approach. You ask each of your five future neighbors their preferred location for your new house. They all like you and want you to live close to them. So they all state their preferred location to be the spot just next to their own house. You take the average of all the voted locations of your five neighbors, and the result is "200 meters away from the village" (average of the votes: 0+0+0+0+1000/5 = 200), which is the "mean point" of the 5 houses, that you would have obtained similarly using the mean formula. And this location turns out to be exactly the same that mimimizes the sum of squared distances (i.e. L2 loss function). Let's just do the math to see it:
    • At this location, the sum of squared distances is: 200^2 + 200^2 + 200^2 + 200^2 + 800^2 = 800 000
    • If we build the house in the center of the village, our sum of squared distances would be: 0^2 + 0^2 + 0^2 + 0^2 + 1000^2 = 1 000 000
    • If we build build the house at 100 meters away from the village (like in 1), the sum of squared distances is: 100^2 + 100^2 + 100^2 + 100^2 + 900^2 = 850 000
    • If we build the house at 100 meters away from the isolated house, the sum of squared distances is: 900^2 + 900^2 + 900^2 + 900^2 + 100^2 = 3 250 000

So yes, it is interesting to notice that, a bit counter-intuitively, when we minimize the sum of the distances, we don't end up being in the "middle" in the sense of the mean, but in the sense of the median. This is part of the reason why OLS, one of the most popular regression models, uses squared errors rather than absolute errors.

Jonathan Zimmermann
sumber
1

In addition to the already-posted answers (which have been very helpful to me!), there is a geometric explanation for the connection between the L2 norm and the mean.

To use the same notation as chefwen, the formula for L2 loss is:

L2=1ki=1k(yiβ)2

We wish to find the value of β which minimizes L2. Notice that this is equivalent to minimizing the following, since multiplying by k and taking the square root both preserve order:

i=1k(yiβ)2

If you consider the data vector y as a point in k-dimensional space, this formula calculates the Euclidean distance between the point y and the point β=(β,β,...,β).

So the problem is to find the value β which minimizes the Euclidean distance between the points y and β. Since the possible values of β all lie on the line parallel to 1=(1,1,...,1) by definition, this is equivalent to finding the vector projection of y onto 1.

It's only really possible to visualize this when k=2, but here is an example where y=(2,6). As shown, projecting onto 1 yields (4,4) as we expect.

the vector y projected onto beta

To show that this projection always yields the mean (including when k>2), we can apply the formula for projection:

β=proj1y=y1|1|21β=i=1kyik
paul
sumber