Mengapa regresi linier menggunakan fungsi biaya berdasarkan jarak vertikal antara hipotesis dan titik input data?

14

Katakanlah kita memiliki input (prediktor) dan output (respons) titik data A, B, C, D, E dan kami ingin menyesuaikan garis melalui titik-titik tersebut. Ini adalah masalah sederhana untuk menggambarkan pertanyaan, tetapi dapat diperluas ke dimensi yang lebih tinggi juga.

Pernyataan masalah

masukkan deskripsi gambar di sini

Paling cocok saat ini atau hipotesis diwakili oleh garis hitam di atas. Panah biru ( ) mewakili jarak vertikal antara titik data dan paling sesuai saat ini, dengan menggambar garis vertikal dari titik sampai memotong garis.

Panah hijau ( ) digambar sedemikian rupa sehingga tegak lurus terhadap hipotesis saat ini pada titik persimpangan, dan dengan demikian mewakili jarak terkecil antara titik data dan hipotesis saat ini. Untuk titik A dan B, garis yang ditarik sedemikian rupa sehingga vertikal ke tebakan terbaik saat ini dan mirip dengan garis yang vertikal terhadap sumbu x. Untuk dua titik ini, garis biru dan hijau tumpang tindih, tetapi tidak untuk titik C, D dan E.

Prinsip kuadrat terkecil mendefinisikan fungsi biaya untuk regresi linier dengan menggambar garis vertikal melalui titik data (A, B, C, D atau E) ke perkiraan hipotesis ( ), pada setiap siklus pelatihan yang diberikan, dan diwakili oleh

CostFunction=i=1N(yihθ(xi))2

Di sini mewakili titik data, dan h θ ( x i ) mewakili yang paling cocok.(xi,yi)hθ(xi)

Jarak minimum antara titik (A, B, C, D atau E) diwakili oleh garis tegak lurus yang ditarik dari titik itu ke tebakan terbaik saat ini (panah hijau).

Tujuan dari fungsi kuadrat terkecil adalah untuk menentukan fungsi objektif yang bila diminimalkan akan menimbulkan jarak paling sedikit antara hipotesis dan semua poin yang digabungkan, tetapi tidak akan selalu meminimalkan jarak antara hipotesis dan satu titik input tunggal.

**Pertanyaan**

Mengapa kita tidak mendefinisikan Fungsi Biaya untuk regresi linier sebagai jarak terkecil antara titik input data dan hipotesis (ditentukan oleh garis tegak lurus terhadap hipotesis) melewati input datapoin, seperti yang diberikan oleh ( )?

alpha_989
sumber
5
Regresi linier sederhana mengasumsikan bahwa tidak ada kesalahan dalam nilai-nilai koordinat x pengamatan (misalnya karena mereka adalah manipulasi eksperimental). Jika ada kesalahan pada sumbu x, seseorang dapat menjelaskannya dengan meminimalkan fungsi biaya yang serupa dengan yang Anda usulkan; ini mengharuskan untuk mengatur rasio antara varians kesalahan pada sumbu x dan y. Jika rasio , jumlah ini untuk meminimalkan jarak tegak lurus antara titik dan garis (regresi ortogonal). Jika rasio 1 disebut Deeming regression=11
matteo
Lihat posting ini di PCA: cerebralmastication.com/2010/09/...
James

Jawaban:

13

Ketika Anda memiliki noise di kedua variabel dependen (kesalahan vertikal) dan variabel independen (kesalahan horizontal), fungsi objektif kuadrat terkecil dapat dimodifikasi untuk memasukkan kesalahan horizontal ini. Masalahnya bagaimana cara menimbang kedua jenis kesalahan ini. Bobot ini biasanya tergantung pada rasio varian dari dua kesalahan:

  1. Jika varians kesalahan vertikal relatif sangat besar dibandingkan dengan varians kesalahan horizontal, OLS benar.
  2. xyyβ
  3. Jika rasio varians dari kesalahan vertikal dengan varians dari kesalahan horizontal sama dengan rasio varians dari variabel dependen dan independen, kami memiliki kasus regresi "diagonal", di mana estimasi yang konsisten berubah menjadi menjadi rata-rata geometrik OLS dan penduga kuadrat kuadrat terbalik.
  4. Jika rasio varians kesalahan ini adalah satu, maka kita memiliki kasus regresi "ortogonal", di mana jumlah kesalahan kuadrat diukur sepanjang garis tegak lurus terhadap garis estimasi diminimalkan. Inilah yang ada dalam pikiran Anda.

Dalam praktiknya, kelemahan besar dari prosedur ini adalah bahwa rasio varians kesalahan biasanya tidak diketahui dan biasanya tidak dapat diperkirakan, sehingga jalur ke depan tidak jelas.

Dimitriy V. Masterov
sumber
Saya mencoba mengedit untuk mengubah "tergantung" menjadi "independen" pada kalimat pertama tetapi suntingan harus 6 karakter. Mungkin memperbarui jawaban untuk memperbaiki kesalahan ketik?
Ryan Stout
@RyanStout Terima kasih, dan selesai. Saya pikir memasukkan ruang akan membantu Anda.
Dimitriy V. Masterov
Sekarang saya agak bingung: bukankah kesalahan vertikal kesalahan dalam variabel dependen (y) dan kesalahan horizontal dalam variabel independen (x)?
Ryan Stout
@RyanStout Saya mengacaukannya lagi
Dimitriy V. Masterov
9

i=1N(yihθ(xi))2
i=1Nminx,y[(yihθ(x))2+(xix)2]
hθ(x)
Moormanly
sumber
Itu poin yang bagus. Saya sedang memikirkan bagaimana cara menghitung Fungsi Biaya secara umum.
alpha_989
Saya tidak selalu yakin bagaimana mengevaluasi jarak antara titik dan bidang / permukaan non-linier, tetapi untuk mengevaluasi jarak antara titik dan permukaan / bidang linier, kita mungkin tidak perlu minimalisasi bersarang: mathinsight.org/distance_point_plane
alpha_989
Kedua, ketika kita menggunakan regresi, tujuan kita adalah untuk mengevaluasi bobot untuk menemukan yang paling cocok. Dari apa yang saya pahami, selama perhitungan yang sebenarnya, kami jarang mengevaluasi fungsi biaya, tetapi beberapa turunan dari fungsi biaya?
alpha_989
1
@whuber. Saya melihat. Setelah kami menetapkan arti kedua istilah tersebut, saya setuju bahwa masalah yang dipecahkan berbeda (ada atau tidak ada kemungkinan ada kesalahan dalam x). Saya tidak berpikir bahwa Anda akan mendapatkan persetujuan luas dari orang-orang berpengetahuan tentang arti istilah-istilah itu, tetapi itu adalah poin samping.
stokastik
1
@ Stochastic Saya setuju mungkin ada ketidakjelasan tentang konsep "fitting curve," tetapi konsep regresi yang saya gunakan muncul dalam tulisan oleh otoritas terbaik.
whuber
2

Versi yang terlalu disederhanakan adalah bahwa X dianggap tidak memiliki kesalahan. Jadi, jika Anda melihat titik E dalam plot Anda misalnya, diasumsikan bahwa koordinat X-nya akurat. Biasanya ini adalah kasus ketika kita dapat mengontrol X, dengan kata lain ketika kita dapat mengaturnya ke nilai tertentu. Dalam hal itu, satu-satunya kesalahan yang dapat ada adalah dalam arah Y, dan itulah sebabnya fungsi kesalahan / biaya hanya mencakup arah Y.

Kapan pun bukan itu masalahnya, setiap kali kita tidak mengontrol X dan X dapat memiliki kesalahan, orang memasukkan arah X dalam fungsi kesalahan dalam sesuatu yang disebut tipe II atau regresi model II, dan variannya. Mungkin sulit untuk melakukan ini jika X dan Y memiliki skala yang berbeda, jadi Anda harus berpikir tentang normalisasi dan semacamnya.

CHP
sumber
1

Dengan risiko prosaic, alasan untuk fungsi kesalahan adalah bahwa interpretasi standar adalah bahwa x diberikan dan seseorang berusaha untuk menggambarkan (atau memprediksi) komponen y. Jadi tidak ada kesalahan di 'x'. Misalnya Anda dapat mencoba dan memahami (atau memprediksi) harga penutupan saham besok berdasarkan harga penutupan hari ini. Demikian pula seseorang dapat mencoba dan memahami suhu rata-rata besok dalam hal suhu rata-rata saat ini. Jelas contoh-contoh ini berpikiran sederhana, tetapi itulah idenya. Kebetulan sesuatu yang kebanyakan orang tidak sadari, tetapi saya pikir jelas dari contoh Anda, adalah bahwa jika seseorang mundur y terhadap x garis regresi tidak harus memiliki kemiripan tertentu dengan regresi x terhadap y. Regresi orthogonal adalah istilah untuk regresi di mana seseorang mencoba menemukan garis yang meminimalkan jarak titik dari garis. Sebagai contoh jika seseorang mencoba memahami hubungan antara harga saham IBM dan harga saham AAPL, itu akan menjadi metode yang tepat.

meh
sumber
1

Anda benar bahwa, ketika memasang garis melalui titik, jarak orthogonal adalah fungsi kerugian paling alami yang dapat diterapkan pada garis arbitrer (perhatikan bahwa jarak y menjadi tidak berarti untuk garis yang tegak lurus terhadap sumbu x). Masalah ini dikenal dengan sejumlah nama, misalnya "regresi ortogonal", atau (istilah yang paling sering digunakan, AFAIK) "Analisis Komponen Utama" (PCA). Untuk diskusi tentang masalah ini dalam dimensi acak, lihat

Späth: "Kotak terkecil Orthogonal yang pas dengan manifold linier." Numerische Mathematik 48, hlm. 441-445, 1986

Seperti yang sudah ditunjukkan oleh @aginensky, ide di balik Regresi Linier bukanlah untuk menyesuaikan garis melalui poin, tetapi untuk memprediksi nilai y untuk nilai x yang diberikan. Itu sebabnya hanya jarak dalam y yang digunakan, yang merupakan akurasi prediksi.

x(t)pii=1Nt

Wang, Pottmann, Liu: "Menyesuaikan kurva B-spline untuk menunjukkan awan dengan minimisasi jarak kuadrat berbasis kurvatur." Transaksi ACM pada Grafik 25.2, hlm. 214-238, 2006

cdalitz
sumber