Mengapa kuadrat

12

Ini mungkin pertanyaan dasar, tapi saya bertanya-tanya mengapa nilai dalam model regresi dapat dikuadratkan untuk memberikan gambaran varian yang dijelaskan?R

Saya mengerti bahwa koefisien dapat memberikan kekuatan suatu hubungan, tetapi saya tidak mengerti bagaimana hanya mengkuadratkan nilai ini memberikan ukuran perbedaan yang dijelaskan.R

Adakah penjelasan mudah tentang ini?

Terima kasih banyak telah membantu dengan ini!

David
sumber
Apakah Anda mencari sesuatu yang intuitif atau lebih matematis? Apakah Anda melihat melalui beberapa pertanyaan lain pada dan koefisien korelasi di situs ini? R2
kardinal
1
Dua pertanyaan terkait ada di sini dan di sini , misalnya. Jika Anda bermain-main dengan persamaan di sana, Anda akan dapat memperoleh kesetaraan matematika. Tetapi, tidak satu pun yang secara khusus membantu dari sudut pandang intuisi.
kardinal
Saya melihat ini sebaliknya. R square yang didefinisikan sebagai 1 -residual varians / total variance dan kemudian R adalah akar kuadrat postive dari itu. Kebetulan ketika kita memiliki regresi linier sederhana, R square berkurang menjadi kuadrat dari koefisien korelasi.
Michael R. Chernick
@Michael, Anda tidak diragukan lagi bermaksud mengatakan akar kuadrat yang ditandatangani dengan tepat daripada yang positif .
kardinal
1
@ cardinal, saya memiliki kesan yang sama - (atau r ) mengacu pada koefisien korelasi sampel dan akan terkejut melihat referensi yang banyak digunakan yang menggunakan itu untuk merujuk pada nilai absolut dari korelasi sampelRr
Makro

Jawaban:

15

Tangan-wavingly, korelasi dapat dianggap sebagai ukuran sudut antara dua vektor, yang tergantung vektor Y dan vektor independen X . Jika sudut antara vektor adalah θ , korelasi R adalah cos ( θ ) . Bagian Y yang dijelaskan oleh X adalah panjang | | Y | | cos ( θ ) dan sejajar dengan X (atau proyeksi Y pada X ). Bagian yang tidak dijelaskan panjangnyaRYXθRcos(θ)YX||Y||cos(θ)XYX dan orthogonal untuk X . Dalam hal varian, kita memiliki σ 2 Y = σ 2 Y cos 2 ( θ ) + σ 2 Y sin 2 ( θ ) di mana istilah pertama di sebelah kanan adalah varian yang dijelaskan dan yang kedua adalah varian yang tidak dapat dijelaskan. Fraksi yang dijelaskan demikian R 2 , tidak R .||Y||sin(θ)X

σY2=σY2cos2(θ)+σY2sin2(θ)
R2R
Dilip Sarwate
sumber
2
(+1) Tidak terlalu banyak handwaving yang terjadi di sini. Sudut pandang geometris adalah yang paling intuitif, menurut saya. Mungkin ada figur open-source berkualitas tinggi di luar sana yang menggambarkan hal-hal dengan tepat seperti ini.
kardinal
cor(y,y^)2R2
1
Ini tidak menjawab pertanyaan tetapi menunjukkan bagaimana R kuadrat disebut sebagai kuadrat dari koefisien korelasi tanpa referensi ke R. Jadi sumber mengkonfirmasi atau menyangkal klaim saya mungkin sulit ditemukan. Ini dari sebuah artikel tentang koefisien determinasi di Wikipedia:
Michael R. Chernick
Sebagai koefisien korelasi kuadrat Demikian pula, setelah regresi kuadrat terkecil dengan model konstan + linier (yaitu, regresi linier sederhana), R2 sama dengan kuadrat dari koefisien korelasi antara nilai data yang diamati dan yang dimodelkan (diprediksi).
Michael R. Chernick
Dalam kondisi umum, nilai R2 kadang-kadang dihitung sebagai kuadrat dari koefisien korelasi antara nilai data asli dan model. Dalam hal ini, nilainya tidak secara langsung mengukur seberapa baik nilai-nilai yang dimodelkan, melainkan ukuran seberapa baik prediktor dapat dibangun dari nilai-nilai yang dimodelkan (dengan membuat prediktor yang direvisi dari bentuk α + βƒi). Menurut Everitt (2002, hal. 78), penggunaan ini secara khusus definisi istilah "koefisien determinasi": kuadrat korelasi antara dua variabel (umum).
Michael R. Chernick