Saya membaca beberapa catatan kuliah oleh Cosma Shalizi (khususnya, bagian 2.1.1 dari kuliah kedua ), dan diingatkan bahwa Anda bisa mendapatkan sangat rendah bahkan ketika Anda memiliki model yang sepenuhnya linier.
Mengutip contoh Shalizi: misalkan Anda memiliki model , di mana dikenal. Kemudian dan jumlah varian yang dijelaskan adalah ^ 2 \ Var [X] , jadi R ^ 2 = \ frac {a ^ 2 \ Var [x]} {a ^ 2 \ Var [X] + \ Var [\ epsilon]} . Ini pergi ke 0 sebagai \ Var [X] \ rightarrow 0 dan ke 1 sebagai \ Var [X] \ rightarrow \ infty .aa 2 V a r [ X ] R 2 = a 2 V a r [ x ] Var[X]→0Var[X]→∞
Sebaliknya, Anda bisa mendapatkan bahkan ketika model Anda terasa non-linear. (Adakah yang punya contoh yang bagus begitu saja?)
Jadi kapan statistik yang berguna, dan kapan harus diabaikan?
sumber
Jawaban:
Untuk menjawab pertanyaan pertama , pertimbangkan modelnya
dengan iid dengan rerata nol dan terbatas. Ketika kisaran (dianggap sebagai tetap atau acak) meningkat, pergi ke 1. Namun demikian, jika varian kecil (sekitar 1 atau kurang), data "terasa non-linear." Dalam plot, .X R 2 ε v a r ( ε ) = 1ε X R2 ε var(ε)=1
Kebetulan, cara mudah untuk mendapatkan adalah dengan mengiris variabel independen menjadi rentang sempit. Regresi (menggunakan model yang persis sama ) dalam setiap rentang akan memiliki rendah bahkan ketika regresi penuh berdasarkan semua data memiliki . Merenungkan situasi ini adalah latihan yang informatif dan persiapan yang baik untuk pertanyaan kedua.R 2 R 2R2 R2 R2
Kedua plot berikut menggunakan data yang sama. The untuk regresi penuh 0.86. The untuk iris (lebar 1/2 dari -5/2 ke 5/2) adalah 0,16, 0,18, 0,07, 0,14, 0,08, 0,17, 0,20, 0,12, 0,01 , 0,00, membaca dari kiri ke kanan. Jika ada, cocok menjadi lebih baik dalam situasi irisan karena 10 garis terpisah dapat lebih dekat dengan data dalam rentang sempit mereka. Meskipun untuk semua irisan jauh di bawah penuh , baik kekuatan hubungan, yang linearitas , atau memang setiap aspek dari data (kecuali kisaran yang digunakan untuk regresi) telah berubah.R 2 R 2 R 2 XR2 R2 R2 R2 X
(Orang mungkin keberatan bahwa prosedur pemotongan ini mengubah distribusi Itu benar, tetapi bagaimanapun sesuai dengan penggunaan paling umum dalam pemodelan efek tetap dan mengungkapkan sejauh mana memberitahu kita tentang varians dalam situasi efek-acak. Secara khusus, ketika dibatasi bervariasi dalam interval yang lebih kecil dari kisaran alami, biasanya akan turun.)R 2 R 2 X X R 2X R2 R2 X X R2
Masalah mendasar dengan adalah bahwa hal itu tergantung pada terlalu banyak hal (bahkan ketika disesuaikan dalam regresi berganda), tetapi sebagian besar terutama pada varians dari variabel independen dan varians dari residual. Biasanya itu tidak memberitahu kita apa - apa tentang "linearitas" atau "kekuatan hubungan" atau bahkan "kebaikan cocok" untuk membandingkan urutan model.R2
Sebagian besar waktu Anda dapat menemukan statistik yang lebih baik daripada . Untuk pemilihan model, Anda dapat melihat ke AIC dan BIC; untuk menyatakan kecukupan suatu model, lihatlah varian dari residual.R2
Ini akhirnya membawa kita ke pertanyaan kedua . Satu situasi di mana mungkin digunakan adalah ketika variabel independen diatur ke nilai standar, pada dasarnya mengendalikan efek varians mereka. Maka adalah benar-benar proksi untuk varian dari residual, sesuai standar. 1 - R 2R2 1−R2
sumber
Contoh Anda hanya berlaku ketika variabel harus dalam model . Ini tentu tidak berlaku ketika seseorang menggunakan estimasi kuadrat terkecil yang biasa. Untuk melihat ini, diketahui bahwa jika kami memperkirakan oleh kuadrat dalam contoh Anda, kita mendapatkan:aX a
s 2 X =1
Sekarang istilah kedua selalu kurang dari (sama dengan dalam batas) sehingga kita mendapatkan batas atas untuk kontribusi ke dari variabel :1 1 R2 X
Jadi, kecuali juga, kita sebenarnya akan melihat sebagai (karena pembilangnya menjadi nol, tetapi penyebutnya menjadi ). Selain itu, kita mungkin mendapatkan konvergen ke sesuatu di antara dan tergantung pada seberapa cepat kedua istilah itu berbeda. Sekarang istilah di atas umumnya akan berbeda lebih cepat dari jika harus dalam model, dan lebih lambat jika tidak seharusnya dalam model. Dalam kedua kasus berjalan ke arah yang benar.(1N∑Ni=1XiYi)2→∞ R2→0 s2X→∞ Var[ϵ]>0 R2 0 1 s2X X X R2
Dan juga perhatikan bahwa untuk setiap set data yang terbatas (yaitu yang asli) kita tidak akan pernah memiliki kecuali semua kesalahan adalah nol. Ini pada dasarnya menunjukkan bahwa adalah ukuran relatif, bukan mutlak. Karena kecuali sebenarnya sama dengan , kita selalu dapat menemukan model pemasangan yang lebih baik. Ini mungkin merupakan aspek "berbahaya" dari karena ia diskalakan menjadi antara dan , sepertinya kita bisa menyelipkannya dalam arti absolut.R2=1 R2 R2 1 R2 0 1
Mungkin lebih berguna untuk melihat seberapa cepat turun saat Anda menambahkan variabel ke dalam model. Dan yang terakhir, namun tidak kalah pentingnya, ini tidak boleh diabaikan dalam pemilihan variabel, karena secara efektif merupakan statistik yang cukup untuk pemilihan variabel - ini berisi semua informasi tentang pemilihan variabel yang ada dalam data. Satu-satunya hal yang diperlukan adalah memilih penurunan yang sesuai dengan "fitting the error" - yang biasanya tergantung pada ukuran sampel dan jumlah variabel.R2 R2 R2
sumber
Jika saya bisa menambahkan contoh kapan berbahaya. Bertahun-tahun yang lalu saya mengerjakan beberapa data biometrik dan menjadi muda dan bodoh saya senang ketika saya menemukan beberapa nilai signifikan secara statistik untuk regresi mewah saya yang telah saya bangun menggunakan fungsi bertahap. Baru setelah melihat ke belakang setelah presentasi saya kepada audiens internasional yang besar, saya menyadari bahwa dengan adanya variasi data yang sangat besar - dikombinasikan dengan kemungkinan representasi sampel yang buruk sehubungan dengan populasi, dari 0,02 sama sekali tidak berarti. bahkan jika itu "signifikan secara statistik" ...R2 R2 R2
Mereka yang bekerja dengan statistik perlu memahami data!
sumber
Bila Anda memiliki satu prediktor adalah persis diartikan sebagai proporsi variasi yang dapat dijelaskan oleh linear hubungan dengan . Interpretasi ini harus diingat ketika melihat nilai .R2 Y X R2
Anda bisa mendapatkan dari hubungan non-linear hanya ketika hubungan itu dekat dengan linear. Misalnya, misalkan mana dan . Jika Anda melakukan perhitunganR2 Y=eX+ε X∼Uniform(2,3) ε∼N(0,1)
Anda akan menemukannya sekitar (saya hanya memperkirakan ini dengan simulasi) meskipun hubungan itu jelas tidak linier. Alasannya adalah bahwa terlihat banyak sekali seperti fungsi linier selama interval ..914 eX (2,3)
sumber
Satu situasi yang Anda ingin hindari adalah regresi berganda, di mana menambahkan variabel prediktor yang tidak relevan ke model dalam beberapa kasus dapat meningkatkan . Ini dapat diatasi dengan menggunakan nilai disesuaikan sebagai gantinya, dihitung sebagaiR2 R2 R2
npR¯2=1−(1−R2)n−1n−p−1 mana adalah jumlah sampel data, dan adalah jumlah regresi yang tidak menghitung istilah konstan .n p
sumber
Contoh yang baik untuk dengan fungsi nonlinier adalah fungsi kuadrat terbatas pada interval . Dengan 0 noise tidak akan memiliki kuadrat 1 jika Anda memiliki 3 poin atau lebih karena mereka tidak akan cocok dengan sempurna pada garis lurus. Tetapi jika poin desain yang tersebar merata pada yang Anda mendapatkan akan tinggi mungkin mengejutkan jadi. Ini mungkin tidak terjadi jika Anda memiliki banyak poin di dekat 0 dan banyak di dekat 1 dengan sedikit atau tidak ada sama sekali di tengah.R2 y=x2 [0,1] R2 [0,1] R2
Dalam situasi regresi berganda ada masalah overfitting. Tambahkan variabel dan akan selalu meningkat. disesuaikan memperbaiki hal ini karena memperhitungkan jumlah parameter.R2 R2
sumber