Apa hubungan antara R-squared dan p-value dalam suatu regresi?

17

tl; dr - untuk regresi OLS, apakah R-kuadrat yang lebih tinggi juga menyiratkan nilai-P yang lebih tinggi? Khusus untuk variabel penjelas tunggal (Y = a + bX + e) ​​tetapi juga tertarik untuk mengetahui beberapa variabel penjelas (Y = a + b1X + ... bnX + e).

Konteks - Saya melakukan regresi OLS pada berbagai variabel dan saya mencoba mengembangkan bentuk fungsional penjelas terbaik dengan menghasilkan tabel yang berisi nilai R-squared antara linear, logaritmik, dll., Transformasi setiap variabel penjelas (independen) dan variabel respon (tergantung). Ini terlihat seperti:

Nama variabel - bentuk linear - - ln (variabel) - exp (variabel) - ... dll

Variabel 1 ------- R-kuadrat ---- R-kuadrat ---- R-kuadrat -
... dll ...

Saya bertanya-tanya apakah R-squared sesuai atau apakah nilai-P akan lebih baik. Agaknya ada beberapa hubungan, karena hubungan yang lebih signifikan akan menyiratkan kekuatan penjelas yang lebih tinggi, tetapi tidak yakin apakah itu benar dengan cara yang ketat.

pertanyaan statistik ekonometrik
sumber
5
Yang juga menarik: Apakah R ^ 2 bermanfaat atau berbahaya? .
whuber

Jawaban:

15

Jawabannya adalah tidak, tidak ada hubungan reguler antara dan nilai p regresi keseluruhan, karena R 2 sangat tergantung pada varians dari variabel independen seperti halnya pada varians dari residual (yang berbanding terbalik proporsional), dan Anda bebas untuk mengubah varians dari variabel independen dengan jumlah sewenang-wenang.R2R2

Sebagai contoh, mempertimbangkan setiap set data multivariat dengan i mengindeks kasus dan anggaplah bahwa seperangkat nilai-nilai dari variabel independen pertama, { x i 1 } , memiliki maksimum unik x ∗ yang dipisahkan dari nilai tertinggi kedua dengan jumlah positif ϵ . Menerapkan transformasi non-linear dari variabel pertama yang mengirim semua nilai kurang dari((xi1,xi2,,xip,yi))i{xi1}xϵ ke kisaran [ 0 , 1 ] dan mengirimkan x sendiri ke beberapa nilai besar M 1 . Untuk setiap M sepertiini, ini dapat dilakukan dengan transformasi Box-Cox yang sesuai (diskalakan) x a ( ( x - x 0 ) λ - 1 ) / ( λ - 1 ) ) , misalnya, jadi kita tidak berbicara tentang sesuatu yang aneh atau "patologis." Kemudian, sebagai Mxϵ/2[0,1]xM1Mxa((xx0)λ1)/(λ1))Mtumbuh besar secara sewenang-wenang, mendekati 1 sedekat yang Anda inginkan, terlepas dari seberapa buruk kecocokannya, karena varian residual akan dibatasi sementara varians dari variabel independen pertama secara proporsional tidak sebanding dengan M 2 .R21M2


Sebagai gantinya Anda harus menggunakan uji goodness of fit (di antara teknik lainnya) untuk memilih model yang sesuai dalam eksplorasi Anda: Anda harus khawatir tentang linearitas kecocokan dan homoseksualitas residual. Dan jangan mengambil nilai-p dari regresi yang dihasilkan atas kepercayaan: nilai-nilai itu akan menjadi hampir tidak berarti setelah Anda menjalani latihan ini, karena interpretasi mereka mengasumsikan pilihan untuk mengekspresikan variabel independen tidak bergantung pada nilai-nilai dari variabel dependen sama sekali, yang sangat tidak terjadi di sini.

whuber
sumber
10

Jawaban ini tidak secara langsung berhubungan dengan pertanyaan utama; tidak lebih dari beberapa informasi tambahan yang terlalu panjang untuk dikomentari.

Saya menunjukkan ini karena econometricstatsquestion tidak diragukan lagi akan menemukan informasi ini, atau sesuatu seperti itu di beberapa titik (yang menyatakan bahwa dan R 2 yang terkait) dan heran jika informasi yang diberikan dalam jawaban lain di sini adalah salah - itu tidak salah - tapi saya pikir membayar lebih jelas tentang apa yang terjadi.FR2

Ada hubungan di bawah seperangkat keadaan tertentu; jika Anda memegang jumlah observasi dan jumlah prediktor tetap untuk model tertentu, sebenarnya monoton di R 2 , karenaFR2

F=R2/(k1)(1R2)/(Nk)

(Jika Anda membagi pembilang dan penyebut dengan , dan menarik konstanta dalam k , Anda dapat melihat bahwa 1 / F 1 / R 2 - 1 jika Anda memegang N dan k konstan.)R2k1/F1/R21Nk

Sejak untuk tetap df dan p-nilai yang monoton terkait, R 2 dan p -nilai juga monoton terkait.FR2p

Tetapi ubah hampir semua hal tentang model, dan hubungan itu tidak berlaku pada keadaan yang berubah.

Misalnya, menambahkan titik membuat lebih besar dan menghapus satu membuatnya lebih kecil tetapi melakukan salah satu dapat meningkatkan atau mengurangi R 2 , sehingga sepertinya F dan R 2 tidak selalu bergerak bersama jika Anda menambah atau menghapus data. Menambahkan variabel menurun ( N - k ) / ( k - 1 ) tetapi meningkatkan R 2 (dan sebaliknya), jadi sekali lagi, R 2 tidak selalu terkait dengan(Nk)/(k1)R2FR2 (Nk)/(k1)R2R2 ketika Anda melakukan itu.F

Jelas, sekali Anda membandingkan dan p -values di model dengan karakteristik yang berbeda, hubungan ini tidak selalu memegang, seperti whuber terbukti dalam kasus transformasi nonlinear.R2p

Glen_b -Reinstate Monica
sumber
Saya tidak setuju dengan Anda, tetapi sepertinya Anda menjawab pertanyaan yang berbeda dari saya. Butuh beberapa bacaan, tetapi saya menyimpulkan bahwa pertanyaan itu bertanya tentang hubungan apa, jika ada, berlaku antara dan R 2 ketika (caeteris paribus) variabel independen berubah secara nonlinier. Hanya ketika variabel-variabel itu dibiarkan tidak berubah - atau, paling banyak, berubah secara linear di antara mereka sendiri - kita bisa mengatakan apa saja tentang hubungan semacam itu. Itu adalah bagian dari pengertian di mana saya pikir kualifikasi Anda "untuk model yang diberikan" harus dipahami. pR2
whuber
Saya menjawab pertanyaan yang berbeda; dan saya percaya interpretasi Anda tentang maknanya benar. Saya lebih khawatir bahwa masalah seperti yang saya ajukan akan menyebabkan kebingungan jika tidak dijelaskan. Semua poin Anda pegang, untuk pemahaman saya. (Sekarang saya prihatin, pada kenyataannya, bahwa mungkin jawaban saya tidak berfungsi untuk mengklarifikasi, seperti yang saya harapkan, tetapi hanya membingungkan masalah ini. Apakah Anda pikir ada modifikasi yang cocok yang akan membantunya? Haruskah saya menghapusnya?)
Glen_b -Reinstate Monica
Aku benci melihatnya dihapus, Glen. Jika Anda bermaksud melakukan perubahan, pertimbangkan untuk secara lebih eksplisit menunjukkan aspek mana dari masalah ini yang Anda tulis ( misalnya , apa yang sebenarnya Anda maksudkan dengan "model yang diberikan" dan apa yang ada dalam pikiran Anda tentang model dengan "karakteristik yang berbeda"). Ini adalah semangat (kolaboratif, bukan kritis) di mana saya memberikan komentar saya.
whuber
I didn't feel criticized by you - you seemed to be clarifying and nothing more - but the need for it highlights an inadequacy in the answer I had been concerned about before you commented. The vagueness of 'different characteristics' are because it's a pretty general thing - vary much of anything (I even give examples of something as simple as removing a point or adding a variable to illustrate how little one needs to change) can make that monotonic relationship evaporate. I'll think about what more I might say.
Glen_b -Reinstate Monica
+1 for the edit: these are valuable comments and it's especially useful to see the formula for F appear.
whuber
3

"for OLS regression, does a higher R-squared also imply a higher P-value? Specifically for a single explanatory variable (Y = a + bX + e) "

Specifically for a single explanatory variable, given the sample size, the answer is yes. As Glen_b has explained, there is a direct relationship between R2 and the test statistic (be it a F or t). For instance, as explained in this other question (High R2 squared and high p-value for simple linear regression) for the simple linear regression with one covariate (and a constant), the relationship between t and R2 is:

|t|=R2(1R2)(n2)

So in this case, once you fix n, the higher the R2 the higher the t statistic and the lower the p-value.

"but would also be interested to know for n multiple explanatory variables (Y = a + b1X + ... bnX + e)."

The answer is the same, but instead of looking at one variable only, we now look at all variables together -- hence the F statistic, as Glen_b has shown. And here you have to fix both n and the number of parameters. Or, to put it better, fix the degrees of freedom.

Context - I'm performing OLS regression on a range of variables and am trying to develop the best explanatory functional form (...)

Ok, so this is actually a different problem. If you are looking at the best explanatory functional form, you should also take a look at cross-validation techniques. Even if R2 is the quantity of interest for your problem (it usually isn't), finding the best fit in-sample can be very misleading -- you usually want your findings to generalize out of sample, and proper cross-validation can help you not overfit your data too much.

And here I'm guessing that you want "predictive" power (since you say you want to find "the best explanatory functional form"). If you want to do causal inference, for instance, then the R2 or other predictive performance metrics are of little help without more structural/substantive knowledge of the problem.

Carlos Cinelli
sumber