Koefisien korelasi Pearson dari x dan y adalah sama, baik Anda menghitung pearson (x, y) atau pearson (y, x). Ini menunjukkan bahwa melakukan regresi linier dari y diberikan x atau x diberikan y harus sama, tetapi saya tidak berpikir itu masalahnya.
Dapatkah seseorang menjelaskan ketika hubungannya tidak simetris, dan bagaimana hubungannya dengan koefisien korelasi Pearson (yang saya selalu anggap sebagai ringkasan garis yang paling cocok)?
regression
correlation
linear-model
pearson-r
user9097
sumber
sumber
Jawaban:
Cara terbaik untuk memikirkan hal ini adalah dengan membayangkan sebaran titik dengan pada sumbu vertikal dan diwakili oleh sumbu horizontal. Diberikan kerangka kerja ini, Anda melihat awan poin, yang mungkin melingkar samar-samar, atau dapat memanjang menjadi elips. Apa yang Anda coba lakukan dalam regresi adalah menemukan apa yang disebut 'garis paling cocok'. Namun, sementara ini tampaknya mudah, kita perlu mencari tahu apa yang kita maksud dengan 'terbaik', dan itu berarti kita harus mendefinisikan apa yang akan menjadi garis yang baik, atau untuk satu baris lebih baik dari yang lain, dll. Secara khusus , kita harus menetapkan fungsi kerugianxy x . Fungsi kerugian memberi kita cara untuk mengatakan betapa 'buruk' sesuatu itu, dan dengan demikian, ketika kita meminimalkan itu, kita membuat garis kita 'sebaik' mungkin, atau menemukan garis 'terbaik'.
Secara tradisional, ketika kami melakukan analisis regresi, kami menemukan perkiraan kemiringan dan mencegat untuk meminimalkan jumlah kesalahan kuadrat . Ini didefinisikan sebagai berikut:
Dalam hal sebar kami, ini berarti kami meminimalkan (jumlah kuadrat) jarak vertikal antara titik data yang diamati dan garis.
Di sisi lain, masuk akal untuk mundur ke , tetapi dalam hal ini, kita akan menempatkan pada sumbu vertikal, dan seterusnya. Jika kita membiarkan plot kita apa adanya (dengan pada sumbu horizontal), mundur ke (sekali lagi, menggunakan versi yang sedikit disesuaikan dari persamaan di atas dengan dan beralih ) berarti bahwa kita akan meminimalkan jumlah jarak horizontaly x x x y x yx y x x x y x y antara titik data yang diamati dan garis. Ini terdengar sangat mirip, tetapi tidak persis sama. (Cara untuk mengenali ini adalah dengan melakukan kedua-duanya, dan kemudian secara aljabar mengubah satu set estimasi parameter menjadi persyaratan yang lain. Membandingkan model pertama dengan versi yang disusun ulang dari model kedua, menjadi mudah untuk melihat bahwa mereka tidak sama.)
Perhatikan bahwa tidak ada cara yang akan menghasilkan garis yang sama dengan yang kita gambar secara intuitif jika seseorang memberi kita selembar kertas grafik dengan titik-titik yang tersusun di atasnya. Dalam hal ini, kita akan menggambar garis lurus melalui pusat, tetapi meminimalkan jarak vertikal menghasilkan garis yang sedikit lebih datar (yaitu, dengan kemiringan dangkal), sedangkan meminimalkan jarak horizontal menghasilkan garis yang sedikit lebih curam .
Korelasi simetris; berkorelasi dengan seperti dengan . Korelasi momen-produk Pearson dapat dipahami dalam konteks regresi. Koefisien korelasi, , adalah kemiringan garis regresi ketika kedua variabel telah distandarisasi terlebih dahulu. Artinya, Anda pertama mengurangi rata-rata dari setiap pengamatan, dan kemudian membagi perbedaan dengan standar deviasi. Awan titik data sekarang akan dipusatkan pada titik asal, dan kemiringan akan sama apakah Anda mundur ke , atau key y x r y x x yx y y x r y x x y (tapi perhatikan komentar oleh @DilipSarwate di bawah).
Sekarang, mengapa ini penting? Menggunakan fungsi kerugian tradisional kami, kami mengatakan bahwa semua kesalahan hanya ada di salah satu variabel (yaitu, ). Yaitu, kita mengatakan bahwa diukur tanpa kesalahan dan merupakan himpunan nilai yang kita pedulikan, tetapi memiliki kesalahan pengambilan sampelx yy x y . Ini sangat berbeda dengan mengatakan yang sebaliknya. Ini penting dalam episode sejarah yang menarik: Pada akhir 70-an dan awal 80-an di AS, kasus dibuat bahwa ada diskriminasi terhadap perempuan di tempat kerja, dan ini didukung dengan analisis regresi yang menunjukkan bahwa perempuan dengan latar belakang yang sama (misalnya , kualifikasi, pengalaman, dll.) dibayar, rata-rata, kurang dari pria. Para kritikus (atau hanya orang-orang yang ekstra teliti) beralasan bahwa jika ini benar, perempuan yang dibayar setara dengan laki-laki harus lebih berkualitas, tetapi ketika diperiksa, ditemukan bahwa meskipun hasilnya 'signifikan' ketika menilai satu cara, mereka tidak 'signifikan' ketika diperiksa dengan cara lain, yang membuat semua orang terlibat dalam kegelisahan. Lihat di sini untuk kertas terkenal yang mencoba untuk membersihkan masalah ini.
(Diperbarui jauh kemudian) Berikut cara lain untuk memikirkan hal ini yang mendekati topik melalui rumus alih-alih secara visual:
Rumus untuk kemiringan garis regresi sederhana adalah konsekuensi dari fungsi kerugian yang telah diadopsi. Jika Anda menggunakan fungsi standar Ordinary Least Squares (disebutkan di atas), Anda bisa mendapatkan rumus untuk kemiringan yang Anda lihat di setiap buku teks pengantar. Formula ini dapat disajikan dalam berbagai bentuk; salah satunya saya sebut formula 'intuitif' untuk lereng. Pertimbangkan formulir ini untuk kedua situasi di mana Anda mundur pada , dan di mana Anda mundur pada :y x x y
sumber
Saya akan menggambarkan jawabannya dengan beberapa
R
kode dan keluaran.Pertama, kami membangun distribusi normal acak
y
,, dengan rata-rata 5 dan SD 1:Selanjutnya, saya sengaja membuat distribusi normal acak kedua
x
, yang hanya 5x nilaiy
untuk masing-masingy
:Dengan desain, kami memiliki korelasi sempurna antara
x
dany
:Namun, ketika kita melakukan regresi, kita mencari fungsi yang berhubungan
x
dany
hasil dari koefisien regresi tergantung pada mana yang kita gunakan sebagai variabel dependen, dan yang kita gunakan sebagai variabel independen. Dalam hal ini, kami tidak cocok dengan intersep karena kami membuatx
fungsiy
tanpa variasi acak:Jadi regresi memberitahu kita itu
y=0.2x
dan itux=5y
, yang tentu saja setara. Koefisien korelasi hanya menunjukkan kepada kita bahwa ada kecocokan yang tepat dalam tingkat perubahan unit antarax
dany
, sehingga (misalnya) peningkatan 1 unity
selalu menghasilkan kenaikan 0,2 unitx
.sumber
Wawasan bahwa karena korelasi Pearson adalah sama apakah kita melakukan regresi x terhadap y, atau y terhadap x adalah yang baik, kita harus mendapatkan regresi linier yang sama adalah yang baik. Ini hanya sedikit salah, dan kita dapat menggunakannya untuk memahami apa yang sebenarnya terjadi.
Ini adalah persamaan untuk sebuah garis, yang kami coba dapatkan dari regresi kami
Persamaan untuk kemiringan garis itu didorong oleh korelasi Pearson
Ini adalah persamaan untuk korelasi Pearson. Itu sama apakah kita mundur x melawan y atau y terhadap x
Namun ketika kita melihat kembali persamaan kedua untuk kemiringan, kita melihat bahwa korelasi Pearson bukan satu-satunya istilah dalam persamaan itu. Jika kita menghitung y terhadap x, kita juga memiliki standar deviasi sampel y dibagi dengan standar deviasi sampel x. Jika kita menghitung regresi x terhadap y kita perlu membalikkan kedua istilah itu.
sumber
Pada pertanyaan seperti ini mudah terjebak pada masalah teknis, jadi saya ingin memfokuskan secara khusus pada pertanyaan dalam judul utas yang menanyakan: Apa perbedaan antara regresi linier pada y dengan x dan x dengan y ?
Pertimbangkan sejenak model ekonometrik (disederhanakan) dari teori human capital (tautannya menuju ke artikel oleh Peraih Nobel Gary Becker). Katakanlah kita menentukan model bentuk berikut: Model ini dapat diartikan sebagai hubungan sebab akibat antara upah dan pendidikan. Yang penting, kausalitas dalam konteks ini berarti arah kausalitas mengalir dari pendidikan ke upah dan bukan sebaliknya. Ini tersirat dalam cara model telah dirumuskan; variabel dependennya adalah upah dan variabel independennya adalah tahun pendidikan.
Sekarang, jika kita membuat pembalikan persamaan ekonometrik (yaitu, ubah y pada x ke x pada y), sedemikian sehingga model menjadi kemudian tersirat dalam perumusan persamaan ekonometrik adalah bahwa kita mengatakan bahwa arah kausalitas berjalan dari upah ke pendidikan.
Saya yakin Anda dapat memikirkan lebih banyak contoh seperti ini (di luar bidang ekonomi juga), tetapi seperti yang Anda lihat, interpretasi model dapat berubah cukup signifikan ketika kita beralih dari kemunduran y pada x ke x pada y.
Jadi, untuk menjawab pertanyaan: Apa perbedaan antara regresi linier pada y dengan x dan x dengan y? , kita dapat mengatakan bahwa interpretasi persamaan regresi berubah ketika kita mundur x pada y bukan y pada x. Kita tidak boleh mengabaikan hal ini karena model yang memiliki interpretasi suara dapat dengan cepat berubah menjadi model yang sedikit atau tidak masuk akal.
sumber
Ada fenomena yang sangat menarik tentang topik ini. Setelah bertukar x dan y, meskipun koefisien regresi berubah, tetapi t-statistik / F-statistik dan tingkat signifikansi untuk koefisien tidak berubah. Ini juga benar bahkan dalam regresi berganda, di mana kami bertukar y dengan salah satu variabel independen.
Hal ini disebabkan oleh hubungan yang rumit antara F-statistik dan koefisien korelasi (parsial). Hubungan itu benar-benar menyentuh inti teori model linier. Ada detail lebih lanjut tentang kesimpulan ini di buku catatan saya: Mengapa pertukaran y dan x tidak berpengaruh pada p
sumber
Memperluas pada jawaban luar biasa @ gung:
Dalam regresi linier sederhana, nilai absolut Pearson dapat dilihat sebagai rata-rata geometrik dari dua lereng yang kita peroleh jika kita kemunduran pada dan pada , masing-masing: Kita dapat memperoleh secara langsung menggunakan ataur y x x y β^1yonx⋅β^1xony−−−−−−−−−−−−√=Cov(x,y)Var(x)⋅Cov(y,x)Var(y)−−−−−−−−−−−−−−−−−√=|Cov(x,y)|SD(x)⋅SD(y)=|r| r
r=sign(β^1yonx)⋅β^1yonx⋅β^1xony−−−−−−−−−−−−√ r=sign(β^1xony)⋅β^1yonx⋅β^1xony−−−−−−−−−−−−√
Menariknya, oleh ketidaksetaraan AM-GM , berikut bahwa nilai absolut dari mean aritmetik dari dua koefisien kemiringan lebih besar dari (atau sama dengan) nilai absolut dari Pearson :r |12⋅(β^1yonx+β^1xony)|≥β^1yonx⋅β^1xony−−−−−−−−−−−−√=|r|
sumber
Relasinya tidak simetris karena kami menyelesaikan dua masalah optimasi yang berbeda. dapat ditulis sebagai menyelesaikan masalah berikut: Doing regression of y given x minbE(Y−bX)2
sedangkan untuk : , yang dapat ditulis ulang sebagai:doing regression of x given y minbE(X−bY)2
Penting juga untuk dicatat bahwa, dua masalah yang tampak berbeda mungkin memiliki solusi yang sama.
sumber
Memang benar bahwa untuk regresi bivariat sederhana, koefisien korelasi linier dan R-square akan sama untuk kedua persamaan. Tetapi kemiringannya adalah r Sy / Sx atau r Sx / Sy, yang bukan merupakan balasan satu sama lain, kecuali r = 1.
sumber
Ide dasar regresi mungkin adalah 'sebab dan akibat' atau 'independen dan tergantung'. Praktek normal menempatkan variabel independen dalam sumbu X dan variabel dependen dalam sumbu Y, diwakili oleh Y = mX + c. Apakah kemiringan akan disebut sebagai m (X pada Y) atau (Y pada X) dan regresi sebagai: (X pada Y) atau (Y pada X). Ini ditangani dengan dua cara, yang tidak baik dan perlu diklarifikasi. Pemodel sering menggunakan Scatter Plots, untuk menilai apakah Seri Simulasi cocok dengan Seri yang Teramati; dan penggunaan garis regresi tidak dapat dihindari. di sini tidak ada klausul kausatif. Pergi oleh kebutuhan ini, pertanyaan bisu yang diajukan oleh utas berdiri. Atau sederhananya, tolong jelaskan bagaimana memanggil analisis regresi normal: X pada Y; atau Y pada X ?, melampaui jawaban kausatif. Ini bukan jawaban untuk utas utama; tapi pertanyaan paralel.
sumber