Apakah

233

Saya membaca beberapa catatan kuliah oleh Cosma Shalizi (khususnya, bagian 2.1.1 dari kuliah kedua ), dan diingatkan bahwa Anda bisa mendapatkan sangat rendah bahkan ketika Anda memiliki model yang sepenuhnya linier.R2

Mengutip contoh Shalizi: misalkan Anda memiliki model , di mana dikenal. Kemudian dan jumlah varian yang dijelaskan adalah ^ 2 \ Var [X] , jadi R ^ 2 = \ frac {a ^ 2 \ Var [x]} {a ^ 2 \ Var [X] + \ Var [\ epsilon]} . Ini pergi ke 0 sebagai \ Var [X] \ rightarrow 0 dan ke 1 sebagai \ Var [X] \ rightarrow \ infty .aY=aX+ϵaa 2 V a r [ X ] R 2 = a 2 V a r [ x ]Var[Y]=a2Var[x]+Var[ϵ]a2Var[X] Var[X]0Var[X]R2=a2Var[x]a2Var[X]+Var[ϵ]Var[X]0Var[X]

Sebaliknya, Anda bisa mendapatkan R2 bahkan ketika model Anda terasa non-linear. (Adakah yang punya contoh yang bagus begitu saja?)

Jadi kapan R2 statistik yang berguna, dan kapan harus diabaikan?

raegtin
sumber
5
Harap perhatikan utas komentar terkait dalam pertanyaan baru
whuber
36
Saya tidak memiliki statistik untuk ditambahkan ke jawaban yang sangat baik yang diberikan (terutama yang oleh @whuber) tapi saya pikir jawaban yang tepat adalah "R-squared: Berguna dan berbahaya". Seperti hampir semua statistik.
Peter Flom
32
Jawaban untuk pertanyaan ini adalah: "Ya"
Fomite
Lihat stats.stackexchange.com/a/265924/99274 untuk jawaban lain.
Carl
Contoh dari skrip tidak terlalu berguna kecuali Anda dapat memberi tahu kami apa itu? Jika adalah konstanta juga, maka argumen Anda salah, karena itu Namun, jika tidak konstan , tolong plot terhadap untuk dan katakan padaku ini linear ........ϵ ϵ Var ( a X + b ) = a 2 Var ( X ) ϵ Y X Var ( X )Var(aX+ϵ)ϵϵVar(aX+b)=a2Var(X)ϵYXVar(X)
Dan

Jawaban:

264

Untuk menjawab pertanyaan pertama , pertimbangkan modelnya

Y=X+sin(X)+ε

dengan iid dengan rerata nol dan terbatas. Ketika kisaran (dianggap sebagai tetap atau acak) meningkat, pergi ke 1. Namun demikian, jika varian kecil (sekitar 1 atau kurang), data "terasa non-linear." Dalam plot, .X R 2 ε v a r ( ε ) = 1εXR2εvar(ε)=1

Jangkauan pendek X

Kisaran X yang lebih luas

Kebetulan, cara mudah untuk mendapatkan adalah dengan mengiris variabel independen menjadi rentang sempit. Regresi (menggunakan model yang persis sama ) dalam setiap rentang akan memiliki rendah bahkan ketika regresi penuh berdasarkan semua data memiliki . Merenungkan situasi ini adalah latihan yang informatif dan persiapan yang baik untuk pertanyaan kedua.R 2 R 2R2R2R2

Kedua plot berikut menggunakan data yang sama. The untuk regresi penuh 0.86. The untuk iris (lebar 1/2 dari -5/2 ke 5/2) adalah 0,16, 0,18, 0,07, 0,14, 0,08, 0,17, 0,20, 0,12, 0,01 , 0,00, membaca dari kiri ke kanan. Jika ada, cocok menjadi lebih baik dalam situasi irisan karena 10 garis terpisah dapat lebih dekat dengan data dalam rentang sempit mereka. Meskipun untuk semua irisan jauh di bawah penuh , baik kekuatan hubungan, yang linearitas , atau memang setiap aspek dari data (kecuali kisaran yang digunakan untuk regresi) telah berubah.R 2 R 2 R 2 XR2R2R2R2X

Point cloud dengan regresi penuh

Irisan point cloud dengan 10 regresi

(Orang mungkin keberatan bahwa prosedur pemotongan ini mengubah distribusi Itu benar, tetapi bagaimanapun sesuai dengan penggunaan paling umum dalam pemodelan efek tetap dan mengungkapkan sejauh mana memberitahu kita tentang varians dalam situasi efek-acak. Secara khusus, ketika dibatasi bervariasi dalam interval yang lebih kecil dari kisaran alami, biasanya akan turun.)R 2 R 2 X X R 2XR2R2XXR2

Masalah mendasar dengan adalah bahwa hal itu tergantung pada terlalu banyak hal (bahkan ketika disesuaikan dalam regresi berganda), tetapi sebagian besar terutama pada varians dari variabel independen dan varians dari residual. Biasanya itu tidak memberitahu kita apa - apa tentang "linearitas" atau "kekuatan hubungan" atau bahkan "kebaikan cocok" untuk membandingkan urutan model.R2

Sebagian besar waktu Anda dapat menemukan statistik yang lebih baik daripada . Untuk pemilihan model, Anda dapat melihat ke AIC dan BIC; untuk menyatakan kecukupan suatu model, lihatlah varian dari residual. R2

Ini akhirnya membawa kita ke pertanyaan kedua . Satu situasi di mana mungkin digunakan adalah ketika variabel independen diatur ke nilai standar, pada dasarnya mengendalikan efek varians mereka. Maka adalah benar-benar proksi untuk varian dari residual, sesuai standar. 1 - R 2R21R2

whuber
sumber
26
Sungguh jawaban yang luar biasa teliti dan responsif dari @whuber
Peter Flom
Tidakkah AIC dan BIC secara eksplisit menyesuaikan jumlah parameter yang diestimasi? Jika demikian, melakukan perbandingan dengan R ^ 2 yang tidak disesuaikan tampaknya tidak adil. Jadi saya bertanya, apakah kritik Anda disesuaikan R ^ 2? Sepertinya jika Anda dihukum karena 'mengiris' yang disesuaikan R ^ 2 akan dapat kembali untuk memberi tahu Anda tentang kebaikan model.
russellpierce
7
@dr Kritik saya berlaku sempurna untuk disesuaikan . Satu-satunya kasus di mana ada banyak perbedaan antara dan disesuaikan adalah ketika Anda menggunakan banyak parameter dibandingkan dengan data. Dalam contoh slicing ada hampir 1.000 titik data dan slicing hanya menambahkan 18 parameter; penyesuaian ke bahkan tidak akan mempengaruhi tempat desimal kedua, kecuali mungkin di segmen akhir di mana hanya ada beberapa lusin titik data: dan itu akan menurunkan mereka, sebenarnya memperkuat argumen. R 2 R 2 R 2R2R2R2R2
whuber
5
Jawaban atas pertanyaan dalam komentar pertama Anda harus bergantung pada tujuan Anda dan ada beberapa cara untuk menafsirkan "menguji hubungan linier." Pertama, Anda ingin menguji apakah koefisiennya nol. Lain adalah, Anda ingin tahu apakah ada bukti nonlinier. (dengan sendirinya) tidak terlalu berguna untuk keduanya, walaupun kita tahu bahwa dengan banyak data berarti scatterplotnya terlihat linier - seperti yang kedua atau contoh @ makro. Untuk setiap tujuan ada tes yang sesuai dan nilai-p terkait. R 2R2R2
whuber
4
Untuk pertanyaan kedua Anda, kita harus bertanya-tanya apa yang mungkin dimaksud dengan kecocokan linear "terbaik". Satu kandidat akan cocok yang meminimalkan jumlah sisa kuadrat. Anda bisa menggunakan dengan aman sebagai proksi untuk ini, tetapi mengapa tidak memeriksa akar kuadrat rata-rata (disesuaikan) sendiri? Ini statistik yang lebih berguna. R2
whuber
47

Contoh Anda hanya berlaku ketika variabel harus dalam model . Ini tentu tidak berlaku ketika seseorang menggunakan estimasi kuadrat terkecil yang biasa. Untuk melihat ini, diketahui bahwa jika kami memperkirakan oleh kuadrat dalam contoh Anda, kita mendapatkan:aX a

s 2 X =1

a^=1Ni=1NXiYi1Ni=1NXi2=1Ni=1NXiYisX2+X¯2
Di mana adalah varian (sampel) dari dan adalah mean (sampel) darisX2=1Ni=1N(XiX¯)2XX¯=1Ni=1NXiX

a^2Var[X]=a^2sX2=(1Ni=1NXiYi)2sX2(sX2sX2+X¯2)2

Sekarang istilah kedua selalu kurang dari (sama dengan dalam batas) sehingga kita mendapatkan batas atas untuk kontribusi ke dari variabel :11R2X

a^2Var[X](1Ni=1NXiYi)2sX2

Jadi, kecuali juga, kita sebenarnya akan melihat sebagai (karena pembilangnya menjadi nol, tetapi penyebutnya menjadi ). Selain itu, kita mungkin mendapatkan konvergen ke sesuatu di antara dan tergantung pada seberapa cepat kedua istilah itu berbeda. Sekarang istilah di atas umumnya akan berbeda lebih cepat dari jika harus dalam model, dan lebih lambat jika tidak seharusnya dalam model. Dalam kedua kasus berjalan ke arah yang benar.(1Ni=1NXiYi)2R20sX2Var[ϵ]>0R201sX2XXR2

Dan juga perhatikan bahwa untuk setiap set data yang terbatas (yaitu yang asli) kita tidak akan pernah memiliki kecuali semua kesalahan adalah nol. Ini pada dasarnya menunjukkan bahwa adalah ukuran relatif, bukan mutlak. Karena kecuali sebenarnya sama dengan , kita selalu dapat menemukan model pemasangan yang lebih baik. Ini mungkin merupakan aspek "berbahaya" dari karena ia diskalakan menjadi antara dan , sepertinya kita bisa menyelipkannya dalam arti absolut.R2=1R2R21R201

Mungkin lebih berguna untuk melihat seberapa cepat turun saat Anda menambahkan variabel ke dalam model. Dan yang terakhir, namun tidak kalah pentingnya, ini tidak boleh diabaikan dalam pemilihan variabel, karena secara efektif merupakan statistik yang cukup untuk pemilihan variabel - ini berisi semua informasi tentang pemilihan variabel yang ada dalam data. Satu-satunya hal yang diperlukan adalah memilih penurunan yang sesuai dengan "fitting the error" - yang biasanya tergantung pada ukuran sampel dan jumlah variabel.R2R2R2

probabilityislogic
sumber
4
+1 Banyak poin bagus. Perhitungan menambahkan wawasan kuantitatif ke balasan sebelumnya.
whuber
27

Jika saya bisa menambahkan contoh kapan berbahaya. Bertahun-tahun yang lalu saya mengerjakan beberapa data biometrik dan menjadi muda dan bodoh saya senang ketika saya menemukan beberapa nilai signifikan secara statistik untuk regresi mewah saya yang telah saya bangun menggunakan fungsi bertahap. Baru setelah melihat ke belakang setelah presentasi saya kepada audiens internasional yang besar, saya menyadari bahwa dengan adanya variasi data yang sangat besar - dikombinasikan dengan kemungkinan representasi sampel yang buruk sehubungan dengan populasi, dari 0,02 sama sekali tidak berarti. bahkan jika itu "signifikan secara statistik" ...R2R2R2

Mereka yang bekerja dengan statistik perlu memahami data!

Sean
sumber
15
Tidak ada statistik yang berbahaya jika Anda mengerti artinya. Contoh Sean tidak ada hubungannya dengan R square, itu adalah masalah umum terpikat dengan signifikansi statistik. Ketika kami melakukan pengujian statistik dalam praktiknya kami hanya tertarik pada perbedaan yang berarti. Dua populasi tidak pernah memiliki distribusi yang identik. Jika mereka hampir sederajat, kami tidak peduli. Dengan ukuran sampel yang sangat besar, kami dapat mendeteksi perbedaan kecil yang tidak penting. Itulah sebabnya dalam konsultasi penelitian medis saya, saya menekankan perbedaan antara signifikansi klinis dan statistik.
Michael Chernick
11
Awalnya klien saya sering menipis bahwa signifikansi statistik adalah tujuan dari penelitian ini. Mereka perlu ditunjukkan bahwa bukan itu masalahnya.
Michael Chernick
signifikan secara statistik pada 0,02 hanya berarti bahwa Anda memiliki data yang cukup untuk mengklaim bahwa bukan 0. Tetapi mendekati 0. Jadi sangat sedikit hubungan antara variabel independen dan variabel dependen. R2R2
Michael Chernick
1
Sepenuhnya setuju Michael. Sedikit pengetahuan tentang statistik bisa berbahaya! :) Berdasarkan wawasan itu bertahun-tahun yang lalu, saya bekerja keras untuk tidak mengulangi kesalahan bodoh itu dengan melakukan banyak studi untuk lebih memahami apa arti statistik sesungguhnya. Gelar master dan PhD dalam statistik dan saya masih berpikir saya masih harus menempuh jalan panjang dengan studi saya!
Sean
Terima kasih, Sean. Saya menghargai komentar dan kerendahan hati Anda.
Michael Chernick
16

Bila Anda memiliki satu prediktor adalah persis diartikan sebagai proporsi variasi yang dapat dijelaskan oleh linear hubungan dengan . Interpretasi ini harus diingat ketika melihat nilai .R2YXR2

Anda bisa mendapatkan dari hubungan non-linear hanya ketika hubungan itu dekat dengan linear. Misalnya, misalkan mana dan . Jika Anda melakukan perhitunganR2Y=eX+εXUniform(2,3)εN(0,1)

R2=cor(X,eX+ε)2

Anda akan menemukannya sekitar (saya hanya memperkirakan ini dengan simulasi) meskipun hubungan itu jelas tidak linier. Alasannya adalah bahwa terlihat banyak sekali seperti fungsi linier selama interval ..914eX(2,3)

Makro
sumber
1
Untuk komentar di bawah ini oleh Erik dan Makro, saya tidak berpikir ada yang mengeluarkannya untuk saya dan mungkin lebih baik untuk memiliki satu jawaban gabungan daripada tiga jawaban yang terpisah tetapi mengapa itu penting sampai-sampai begitu banyak diskusi berpusat pada bagaimana Anda menulis sesuatu dan di mana Anda menulisnya alih-alih berfokus pada apa yang dikatakan?
Michael Chernick
8
@MichaelChernick, saya tidak berpikir ada "begitu banyak" diskusi tentang bagaimana seseorang menulis sesuatu. Pedoman yang telah kami coba untuk membantu Anda lebih sesuai dengan "jika semua orang melakukannya, situs ini akan sangat tidak teratur dan sulit untuk diikuti". Mungkin terlihat seperti ada banyak diskusi tentang hal-hal ini, tetapi itu mungkin hanya karena Anda telah menjadi peserta yang sangat aktif sejak Anda bergabung, yang sangat bagus, karena Anda jelas membawa banyak hal ke meja. Jika Anda ingin berbicara lebih banyak tentang ini, pertimbangkan memulai utas pada meta daripada diskusi komentar di bawah jawaban saya yang tidak berhubungan :)
Makro
apa yang terjadi jika ada yang mendukung distribusi seragam dalam contoh Anda?
Qbik
Karena saya telah memperoleh pengalaman di situs ini, saya harus setuju dengan Makro bahwa penting untuk ringkas dan konsolidasi.
Michael Chernick
15

Satu situasi yang Anda ingin hindari adalah regresi berganda, di mana menambahkan variabel prediktor yang tidak relevan ke model dalam beberapa kasus dapat meningkatkan . Ini dapat diatasi dengan menggunakan nilai disesuaikan sebagai gantinya, dihitung sebagaiR2R2R2

npR¯2=1(1R2)n1np1 mana adalah jumlah sampel data, dan adalah jumlah regresi yang tidak menghitung istilah konstan .np

jedfrancis
sumber
21
Perhatikan bahwa menambahkan variabel yang tidak relevan dijamin akan meningkatkan (tidak hanya dalam "beberapa kasus") kecuali variabel-variabel tersebut sepenuhnya collinear dengan variabel yang ada. R2
whuber
6
  1. Contoh yang baik untuk dengan fungsi nonlinier adalah fungsi kuadrat terbatas pada interval . Dengan 0 noise tidak akan memiliki kuadrat 1 jika Anda memiliki 3 poin atau lebih karena mereka tidak akan cocok dengan sempurna pada garis lurus. Tetapi jika poin desain yang tersebar merata pada yang Anda mendapatkan akan tinggi mungkin mengejutkan jadi. Ini mungkin tidak terjadi jika Anda memiliki banyak poin di dekat 0 dan banyak di dekat 1 dengan sedikit atau tidak ada sama sekali di tengah.R2y=x2[0,1]R2[0,1]R2

  2. R2 akan menjadi miskin dalam kasus linier sempurna jika istilah noise memiliki varians yang besar. Jadi, Anda dapat mengambil model yang secara teknis merupakan model linier sempurna tetapi biarkan varians dalam e cenderung tak terhingga dan Anda akan memiliki menjadi 0. Meskipun kekurangannya R square tidak mengukur persentase varians dijelaskan oleh data dan itu memang mengukur goodness of fit. tinggi berarti kecocokan yang baik tetapi kita masih harus berhati-hati tentang kecocokan yang disebabkan oleh terlalu banyak parameter untuk ukuran kumpulan data yang kita miliki.Y=x+ϵR2R2

  3. Dalam situasi regresi berganda ada masalah overfitting. Tambahkan variabel dan akan selalu meningkat. disesuaikan memperbaiki hal ini karena memperhitungkan jumlah parameter.R2R2

Michael Chernick
sumber