Apa perbedaan antara regresi linier pada y dengan x dan x dengan y?

97

Koefisien korelasi Pearson dari x dan y adalah sama, baik Anda menghitung pearson (x, y) atau pearson (y, x). Ini menunjukkan bahwa melakukan regresi linier dari y diberikan x atau x diberikan y harus sama, tetapi saya tidak berpikir itu masalahnya.

Dapatkah seseorang menjelaskan ketika hubungannya tidak simetris, dan bagaimana hubungannya dengan koefisien korelasi Pearson (yang saya selalu anggap sebagai ringkasan garis yang paling cocok)?

user9097
sumber
1
Setiap matriks korelasi akan simetris karena . Saya mendorong Anda untuk menghitung matematika untuk melihat bahwa ini memang benar. Jika Anda tahu hubungan antara dan (atau variabel apa saja yang menarik) tidak simetris a priori , mungkin bermanfaat bagi Anda untuk melihat metode analisis lain. cov(x,y)=cov(y,x)xy
Phillip Cloud
14
Poin menarik dibuat pada pertanyaan terkait, Pengaruh switching switching dan variabel penjelas dalam regresi linier sederhana .
chl

Jawaban:

159

Cara terbaik untuk memikirkan hal ini adalah dengan membayangkan sebaran titik dengan pada sumbu vertikal dan diwakili oleh sumbu horizontal. Diberikan kerangka kerja ini, Anda melihat awan poin, yang mungkin melingkar samar-samar, atau dapat memanjang menjadi elips. Apa yang Anda coba lakukan dalam regresi adalah menemukan apa yang disebut 'garis paling cocok'. Namun, sementara ini tampaknya mudah, kita perlu mencari tahu apa yang kita maksud dengan 'terbaik', dan itu berarti kita harus mendefinisikan apa yang akan menjadi garis yang baik, atau untuk satu baris lebih baik dari yang lain, dll. Secara khusus , kita harus menetapkan fungsi kerugianxyx. Fungsi kerugian memberi kita cara untuk mengatakan betapa 'buruk' sesuatu itu, dan dengan demikian, ketika kita meminimalkan itu, kita membuat garis kita 'sebaik' mungkin, atau menemukan garis 'terbaik'.

Secara tradisional, ketika kami melakukan analisis regresi, kami menemukan perkiraan kemiringan dan mencegat untuk meminimalkan jumlah kesalahan kuadrat . Ini didefinisikan sebagai berikut:

SSE=i=1N(yi(β^0+β^1xi))2

Dalam hal sebar kami, ini berarti kami meminimalkan (jumlah kuadrat) jarak vertikal antara titik data yang diamati dan garis.

masukkan deskripsi gambar di sini

Di sisi lain, masuk akal untuk mundur ke , tetapi dalam hal ini, kita akan menempatkan pada sumbu vertikal, dan seterusnya. Jika kita membiarkan plot kita apa adanya (dengan pada sumbu horizontal), mundur ke (sekali lagi, menggunakan versi yang sedikit disesuaikan dari persamaan di atas dengan dan beralih ) berarti bahwa kita akan meminimalkan jumlah jarak horizontaly x x x y x yxyxxxyxyantara titik data yang diamati dan garis. Ini terdengar sangat mirip, tetapi tidak persis sama. (Cara untuk mengenali ini adalah dengan melakukan kedua-duanya, dan kemudian secara aljabar mengubah satu set estimasi parameter menjadi persyaratan yang lain. Membandingkan model pertama dengan versi yang disusun ulang dari model kedua, menjadi mudah untuk melihat bahwa mereka tidak sama.)

masukkan deskripsi gambar di sini

Perhatikan bahwa tidak ada cara yang akan menghasilkan garis yang sama dengan yang kita gambar secara intuitif jika seseorang memberi kita selembar kertas grafik dengan titik-titik yang tersusun di atasnya. Dalam hal ini, kita akan menggambar garis lurus melalui pusat, tetapi meminimalkan jarak vertikal menghasilkan garis yang sedikit lebih datar (yaitu, dengan kemiringan dangkal), sedangkan meminimalkan jarak horizontal menghasilkan garis yang sedikit lebih curam .

Korelasi simetris; berkorelasi dengan seperti dengan . Korelasi momen-produk Pearson dapat dipahami dalam konteks regresi. Koefisien korelasi, , adalah kemiringan garis regresi ketika kedua variabel telah distandarisasi terlebih dahulu. Artinya, Anda pertama mengurangi rata-rata dari setiap pengamatan, dan kemudian membagi perbedaan dengan standar deviasi. Awan titik data sekarang akan dipusatkan pada titik asal, dan kemiringan akan sama apakah Anda mundur ke , atau key y x r y x x yxyyxryxxy (tapi perhatikan komentar oleh @DilipSarwate di bawah).

masukkan deskripsi gambar di sini

Sekarang, mengapa ini penting? Menggunakan fungsi kerugian tradisional kami, kami mengatakan bahwa semua kesalahan hanya ada di salah satu variabel (yaitu, ). Yaitu, kita mengatakan bahwa diukur tanpa kesalahan dan merupakan himpunan nilai yang kita pedulikan, tetapi memiliki kesalahan pengambilan sampelx yyxy. Ini sangat berbeda dengan mengatakan yang sebaliknya. Ini penting dalam episode sejarah yang menarik: Pada akhir 70-an dan awal 80-an di AS, kasus dibuat bahwa ada diskriminasi terhadap perempuan di tempat kerja, dan ini didukung dengan analisis regresi yang menunjukkan bahwa perempuan dengan latar belakang yang sama (misalnya , kualifikasi, pengalaman, dll.) dibayar, rata-rata, kurang dari pria. Para kritikus (atau hanya orang-orang yang ekstra teliti) beralasan bahwa jika ini benar, perempuan yang dibayar setara dengan laki-laki harus lebih berkualitas, tetapi ketika diperiksa, ditemukan bahwa meskipun hasilnya 'signifikan' ketika menilai satu cara, mereka tidak 'signifikan' ketika diperiksa dengan cara lain, yang membuat semua orang terlibat dalam kegelisahan. Lihat di sini untuk kertas terkenal yang mencoba untuk membersihkan masalah ini.


(Diperbarui jauh kemudian) Berikut cara lain untuk memikirkan hal ini yang mendekati topik melalui rumus alih-alih secara visual:

Rumus untuk kemiringan garis regresi sederhana adalah konsekuensi dari fungsi kerugian yang telah diadopsi. Jika Anda menggunakan fungsi standar Ordinary Least Squares (disebutkan di atas), Anda bisa mendapatkan rumus untuk kemiringan yang Anda lihat di setiap buku teks pengantar. Formula ini dapat disajikan dalam berbagai bentuk; salah satunya saya sebut formula 'intuitif' untuk lereng. Pertimbangkan formulir ini untuk kedua situasi di mana Anda mundur pada , dan di mana Anda mundur pada : yxxy

β^1=Cov(x,y)Var(x)y on x                              β^1=Cov(y,x)Var(y)x on y
Sekarang, saya harap ini jelas bahwa ini tidak akan sama kecuali sama dengan . Jika varians yang sama (misalnya, karena Anda standar variabel pertama), maka begitu adalah standar deviasi, dan dengan demikian varians akan baik juga sama . Dalam hal ini, akan sama dengan Pearson , yang sama-sama berdasarkan prinsip komutatif : Var(x)Var(y)SD(x)SD(y)β^1r
r=Cov(x,y)SD(x)SD(y)correlating x with y                           r=Cov(y,x)SD(y)SD(x)correlating y with x
gung
sumber
2
+1 untuk menyebutkan meminimalkan fungsi kerugian. Alternatif untuk jarak vertikal atau horizontal termasuk menggunakan jarak tegak lurus ke garis atau area persegi panjang, yang masing-masing menghasilkan garis regresi yang berbeda.
Henry
7
Saya tidak berpikir bahwa pernyataan "kemiringan akan sama apakah Anda mundur ke , atau ke ." benar jika konvensi adalah untuk merencanakan pada sumbu horizontal dan pada sumbu vertikal. Dalam hal ini, lereng adalah timbal balik satu sama lain. Jika kita mengikuti konvensi variabel independen pada sumbu horizontal dan variabel dependen pada sumbu vertikal, maka ya, kemiringannya sama. Tetapi dengan konvensi ini, penjelasan jarak vertikal versus jarak horizontal tidak berlaku; itu selalu jarak vertikal poin dari garis. yxxyxy
Dilip Sarwate
4
@DilipSarwate, apa yang Anda katakan itu benar. Maksud saya dalam menggunakan istilah "vertikal" & "horizontal" adalah untuk membuat secara visual jelas gagasan bahwa kesalahan dipahami sebagai kesalahan pengambilan sampel dalamy , atau kesalahan pengambilan sampel dalam . Jika kita memplot pada sumbu vertikal dan mundur ke , jarak yang diperkecil akan vertikal, tetapi kesalahan yang diperkecil masih akan menjadi kesalahan pengambilan sampel dalam . Mungkin jawaban saya tidak cukup jelas; Saya dapat mengeditnya, jika saya bisa memikirkan cara yang lebih baik. x x x y xxxxyx
gung
1
Bisakah Anda mengatakan bahwa dalam hal korelasi jarak ortogonal antara titik dan garis sedang diminimalkan? (Maksud saya garis pergi dari titik ke garis "regresi" dan berdiri secara ortogonal di atasnya).
vonjd
1
Korelasi Pearson tidak cocok dengan garis, @vonjd. Ternyata itu setara dengan kemiringan garis kuadrat terkecil pas ketika data distandarisasi terlebih dahulu. Komponen utama 1, ketika hanya ada 2 variabel & data terstandarisasi dulu, adalah semacam garis pas yang meminimalkan jarak ortogonal. HTH
gung
12

Saya akan menggambarkan jawabannya dengan beberapa Rkode dan keluaran.

Pertama, kami membangun distribusi normal acak y,, dengan rata-rata 5 dan SD 1:

y <- rnorm(1000, mean=5, sd=1)

Selanjutnya, saya sengaja membuat distribusi normal acak kedua x, yang hanya 5x nilai yuntuk masing-masing y:

x <- y*5

Dengan desain, kami memiliki korelasi sempurna antara xdan y:

cor(x,y)
[1] 1
cor(y,x)
[1] 1

Namun, ketika kita melakukan regresi, kita mencari fungsi yang berhubungan xdan yhasil dari koefisien regresi tergantung pada mana yang kita gunakan sebagai variabel dependen, dan yang kita gunakan sebagai variabel independen. Dalam hal ini, kami tidak cocok dengan intersep karena kami membuat xfungsi ytanpa variasi acak:

lm(y~x-1)
Call:
lm(formula = y ~ x - 1)

Coefficients:
  x  
0.2

lm(x ~ y-1)
Call:
lm(formula = x ~ y - 1)

Coefficients:
y  
5  

Jadi regresi memberitahu kita itu y=0.2xdan itu x=5y, yang tentu saja setara. Koefisien korelasi hanya menunjukkan kepada kita bahwa ada kecocokan yang tepat dalam tingkat perubahan unit antara xdan y, sehingga (misalnya) peningkatan 1 unit yselalu menghasilkan kenaikan 0,2 unit x.

Michelle
sumber
6

Wawasan bahwa karena korelasi Pearson adalah sama apakah kita melakukan regresi x terhadap y, atau y terhadap x adalah yang baik, kita harus mendapatkan regresi linier yang sama adalah yang baik. Ini hanya sedikit salah, dan kita dapat menggunakannya untuk memahami apa yang sebenarnya terjadi.

Ini adalah persamaan untuk sebuah garis, yang kami coba dapatkan dari regresi kami

masukkan deskripsi gambar di sini

Persamaan untuk kemiringan garis itu didorong oleh korelasi Pearson

masukkan deskripsi gambar di sini

Ini adalah persamaan untuk korelasi Pearson. Itu sama apakah kita mundur x melawan y atau y terhadap x

masukkan deskripsi gambar di sini

Namun ketika kita melihat kembali persamaan kedua untuk kemiringan, kita melihat bahwa korelasi Pearson bukan satu-satunya istilah dalam persamaan itu. Jika kita menghitung y terhadap x, kita juga memiliki standar deviasi sampel y dibagi dengan standar deviasi sampel x. Jika kita menghitung regresi x terhadap y kita perlu membalikkan kedua istilah itu.

Cukup kutu buku
sumber
4

Pada pertanyaan seperti ini mudah terjebak pada masalah teknis, jadi saya ingin memfokuskan secara khusus pada pertanyaan dalam judul utas yang menanyakan: Apa perbedaan antara regresi linier pada y dengan x dan x dengan y ?

Pertimbangkan sejenak model ekonometrik (disederhanakan) dari teori human capital (tautannya menuju ke artikel oleh Peraih Nobel Gary Becker). Katakanlah kita menentukan model bentuk berikut: Model ini dapat diartikan sebagai hubungan sebab akibat antara upah dan pendidikan. Yang penting, kausalitas dalam konteks ini berarti arah kausalitas mengalir dari pendidikan ke upah dan bukan sebaliknya. Ini tersirat dalam cara model telah dirumuskan; variabel dependennya adalah upah dan variabel independennya adalah tahun pendidikan.

wages=b0+b1 years of education+error

Sekarang, jika kita membuat pembalikan persamaan ekonometrik (yaitu, ubah y pada x ke x pada y), sedemikian sehingga model menjadi kemudian tersirat dalam perumusan persamaan ekonometrik adalah bahwa kita mengatakan bahwa arah kausalitas berjalan dari upah ke pendidikan.

years of education=b0+b1 wages+error

Saya yakin Anda dapat memikirkan lebih banyak contoh seperti ini (di luar bidang ekonomi juga), tetapi seperti yang Anda lihat, interpretasi model dapat berubah cukup signifikan ketika kita beralih dari kemunduran y pada x ke x pada y.

Jadi, untuk menjawab pertanyaan: Apa perbedaan antara regresi linier pada y dengan x dan x dengan y? , kita dapat mengatakan bahwa interpretasi persamaan regresi berubah ketika kita mundur x pada y bukan y pada x. Kita tidak boleh mengabaikan hal ini karena model yang memiliki interpretasi suara dapat dengan cepat berubah menjadi model yang sedikit atau tidak masuk akal.

Graeme Walsh
sumber
3

Ada fenomena yang sangat menarik tentang topik ini. Setelah bertukar x dan y, meskipun koefisien regresi berubah, tetapi t-statistik / F-statistik dan tingkat signifikansi untuk koefisien tidak berubah. Ini juga benar bahkan dalam regresi berganda, di mana kami bertukar y dengan salah satu variabel independen.

Hal ini disebabkan oleh hubungan yang rumit antara F-statistik dan koefisien korelasi (parsial). Hubungan itu benar-benar menyentuh inti teori model linier. Ada detail lebih lanjut tentang kesimpulan ini di buku catatan saya: Mengapa pertukaran y dan x tidak berpengaruh pada p

Prekop
sumber
Anda mungkin menemukan utas berikut ini menarik / membingungkan: Menukar X dan Y dalam regresi yang berisi prediktor pengelompokan .
gung
2
Artikel "Mengapa pertukaran y dan x tidak berpengaruh pada p" tidak ada lagi di sini. Apakah Anda akan menambahkannya kembali?
JetLag
1

Memperluas pada jawaban luar biasa @ gung:

Dalam regresi linier sederhana, nilai absolut Pearson dapat dilihat sebagai rata-rata geometrik dari dua lereng yang kita peroleh jika kita kemunduran pada dan pada , masing-masing: Kita dapat memperoleh secara langsung menggunakan atau ryxxy

β^1yonxβ^1xony=Cov(x,y)Var(x)Cov(y,x)Var(y)=|Cov(x,y)|SD(x)SD(y)=|r|
r
r=sign(β^1yonx)β^1yonxβ^1xony
r=sign(β^1xony)β^1yonxβ^1xony

Menariknya, oleh ketidaksetaraan AM-GM , berikut bahwa nilai absolut dari mean aritmetik dari dua koefisien kemiringan lebih besar dari (atau sama dengan) nilai absolut dari Pearson : r

|12(β^1yonx+β^1xony)|β^1yonxβ^1xony=|r|

statmerkur
sumber
1

Relasinya tidak simetris karena kami menyelesaikan dua masalah optimasi yang berbeda. dapat ditulis sebagai menyelesaikan masalah berikut:  Doing regression of y given x

minbE(YbX)2

sedangkan untuk : , yang dapat ditulis ulang sebagai:doing regression of x given y

minbE(XbY)2

minb1b2E(YbX)2

Penting juga untuk dicatat bahwa, dua masalah yang tampak berbeda mungkin memiliki solusi yang sama.

SiXUlm
sumber
1
Meskipun ini benar - dan terima kasih atas pengamatan ini - Anda membiarkan pembaca Anda menggantung: dapatkah Anda menjelaskan mengapa solusi untuk dua masalah yang tampak berbeda ini tentu berbeda?
Whuber
1
Anda benar. Sebenarnya saya memikirkannya tetapi tidak dapat menemukan cara yang sederhana (dan kurang matematis) untuk menjelaskan mengapa dua solusi tentu berbeda, itu sebabnya saya mencoba membuat dua masalah ini mungkin. Di sini, saya hanya mencoba memberikan sudut pandang yang berbeda. look
SiXUlm
bagaimana garis terakhir setara dengan garis tengah? Jika Anda mengalikan 1 / b ^ 2 Anda mendapatkan E (X - Y / b) ^ 2 bukan E (X - Yb) ^ 2
Austin Shin
@ AustinShin sebenarnya saya sedikit curang di sini. Di baris tengah, saya mengambil , lalu mengubah variabel: , yang kemudian memberi saya baris terakhir. b : = 1 / bbb:=1/b
SiXUlm
+1: Anda telah dengan jelas menyatakan pendapat Anda sekarang!
whuber
0

Memang benar bahwa untuk regresi bivariat sederhana, koefisien korelasi linier dan R-square akan sama untuk kedua persamaan. Tetapi kemiringannya adalah r Sy / Sx atau r Sx / Sy, yang bukan merupakan balasan satu sama lain, kecuali r = 1.

pengguna175531
sumber
1
"... or " ... Atau lebih ringkas, "... kecuali "r 2 = 11r2=1
Glen_b
-7

Ide dasar regresi mungkin adalah 'sebab dan akibat' atau 'independen dan tergantung'. Praktek normal menempatkan variabel independen dalam sumbu X dan variabel dependen dalam sumbu Y, diwakili oleh Y = mX + c. Apakah kemiringan akan disebut sebagai m (X pada Y) atau (Y pada X) dan regresi sebagai: (X pada Y) atau (Y pada X). Ini ditangani dengan dua cara, yang tidak baik dan perlu diklarifikasi. Pemodel sering menggunakan Scatter Plots, untuk menilai apakah Seri Simulasi cocok dengan Seri yang Teramati; dan penggunaan garis regresi tidak dapat dihindari. di sini tidak ada klausul kausatif. Pergi oleh kebutuhan ini, pertanyaan bisu yang diajukan oleh utas berdiri. Atau sederhananya, tolong jelaskan bagaimana memanggil analisis regresi normal: X pada Y; atau Y pada X ?, melampaui jawaban kausatif. Ini bukan jawaban untuk utas utama; tapi pertanyaan paralel.

M. Ranjit kumar
sumber
6
-1 Selain tidak koheren, jawaban ini menghilangkan ide kunci yang dengan cakap dijelaskan dalam jawaban terbaik: model probabilitas variasi dalam data menentukan apakah regresi bermakna dan menentukan variabel mana yang dapat dianggap sebagai variabel dependen.
Whuber
Responden ini mungkin mengulangi satu interpretasi dari pertanyaan judul yang diakui agak tidak jelas, dalam hal pelabelan adat. Untuk masalah bentuk y = mx + b, apakah orang biasanya menggambarkan hubungan sebagai "y diregresikan pada x" (ya) atau sebagai "x diregresikan pada y" (tidak)? Pertanyaan terminologi dijawab di stats.stackexchange.com/questions/207425/… .
InColorado