tl; dr - untuk regresi OLS, apakah R-kuadrat yang lebih tinggi juga menyiratkan nilai-P yang lebih tinggi? Khusus untuk variabel penjelas tunggal (Y = a + bX + e) tetapi juga tertarik untuk mengetahui beberapa variabel penjelas (Y = a + b1X + ... bnX + e).
Konteks - Saya melakukan regresi OLS pada berbagai variabel dan saya mencoba mengembangkan bentuk fungsional penjelas terbaik dengan menghasilkan tabel yang berisi nilai R-squared antara linear, logaritmik, dll., Transformasi setiap variabel penjelas (independen) dan variabel respon (tergantung). Ini terlihat seperti:
Nama variabel - bentuk linear - - ln (variabel) - exp (variabel) - ... dll
Variabel 1 ------- R-kuadrat ---- R-kuadrat ---- R-kuadrat -
... dll ...
Saya bertanya-tanya apakah R-squared sesuai atau apakah nilai-P akan lebih baik. Agaknya ada beberapa hubungan, karena hubungan yang lebih signifikan akan menyiratkan kekuatan penjelas yang lebih tinggi, tetapi tidak yakin apakah itu benar dengan cara yang ketat.
sumber
Jawaban:
Jawabannya adalah tidak, tidak ada hubungan reguler antara dan nilai p regresi keseluruhan, karena R 2 sangat tergantung pada varians dari variabel independen seperti halnya pada varians dari residual (yang berbanding terbalik proporsional), dan Anda bebas untuk mengubah varians dari variabel independen dengan jumlah sewenang-wenang.R2 R2
Sebagai contoh, mempertimbangkan setiap set data multivariat dengan i mengindeks kasus dan anggaplah bahwa seperangkat nilai-nilai dari variabel independen pertama, { x i 1 } , memiliki maksimum unik x ∗ yang dipisahkan dari nilai tertinggi kedua dengan jumlah positif ϵ . Menerapkan transformasi non-linear dari variabel pertama yang mengirim semua nilai kurang dari((xi1,xi2,…,xip,yi)) i {xi1} x∗ ϵ ke kisaran [ 0 , 1 ] dan mengirimkan x ∗ sendiri ke beberapa nilai besar M ≫ 1 . Untuk setiap M sepertiini, ini dapat dilakukan dengan transformasi Box-Cox yang sesuai (diskalakan) x → a ( ( x - x 0 ) λ - 1 ) / ( λ - 1 ) ) , misalnya, jadi kita tidak berbicara tentang sesuatu yang aneh atau "patologis." Kemudian, sebagai Mx∗−ϵ/2 [0,1] x∗ M≫1 M x→a((x−x0)λ−1)/(λ−1)) M tumbuh besar secara sewenang-wenang, mendekati 1 sedekat yang Anda inginkan, terlepas dari seberapa buruk kecocokannya, karena varian residual akan dibatasi sementara varians dari variabel independen pertama secara proporsional tidak sebanding dengan M 2 .R2 1 M2
Sebagai gantinya Anda harus menggunakan uji goodness of fit (di antara teknik lainnya) untuk memilih model yang sesuai dalam eksplorasi Anda: Anda harus khawatir tentang linearitas kecocokan dan homoseksualitas residual. Dan jangan mengambil nilai-p dari regresi yang dihasilkan atas kepercayaan: nilai-nilai itu akan menjadi hampir tidak berarti setelah Anda menjalani latihan ini, karena interpretasi mereka mengasumsikan pilihan untuk mengekspresikan variabel independen tidak bergantung pada nilai-nilai dari variabel dependen sama sekali, yang sangat tidak terjadi di sini.
sumber
Jawaban ini tidak secara langsung berhubungan dengan pertanyaan utama; tidak lebih dari beberapa informasi tambahan yang terlalu panjang untuk dikomentari.
Saya menunjukkan ini karena econometricstatsquestion tidak diragukan lagi akan menemukan informasi ini, atau sesuatu seperti itu di beberapa titik (yang menyatakan bahwa dan R 2 yang terkait) dan heran jika informasi yang diberikan dalam jawaban lain di sini adalah salah - itu tidak salah - tapi saya pikir membayar lebih jelas tentang apa yang terjadi.F R2
Ada hubungan di bawah seperangkat keadaan tertentu; jika Anda memegang jumlah observasi dan jumlah prediktor tetap untuk model tertentu, sebenarnya monoton di R 2 , karenaF R2
(Jika Anda membagi pembilang dan penyebut dengan , dan menarik konstanta dalam k , Anda dapat melihat bahwa 1 / F ∝ 1 / R 2 - 1 jika Anda memegang N dan k konstan.)R2 k 1/F∝1/R2−1 N k
Sejak untuk tetap df dan p-nilai yang monoton terkait, R 2 dan p -nilai juga monoton terkait.F R2 p
Tetapi ubah hampir semua hal tentang model, dan hubungan itu tidak berlaku pada keadaan yang berubah.
Misalnya, menambahkan titik membuat lebih besar dan menghapus satu membuatnya lebih kecil tetapi melakukan salah satu dapat meningkatkan atau mengurangi R 2 , sehingga sepertinya F dan R 2 tidak selalu bergerak bersama jika Anda menambah atau menghapus data. Menambahkan variabel menurun ( N - k ) / ( k - 1 ) tetapi meningkatkan R 2 (dan sebaliknya), jadi sekali lagi, R 2 tidak selalu terkait dengan(N−k)/(k−1) R2 F R2 (N−k)/(k−1) R2 R2 ketika Anda melakukan itu.F
Jelas, sekali Anda membandingkan dan p -values di model dengan karakteristik yang berbeda, hubungan ini tidak selalu memegang, seperti whuber terbukti dalam kasus transformasi nonlinear.R2 p
sumber
Specifically for a single explanatory variable, given the sample size, the answer is yes. As Glen_b has explained, there is a direct relationship betweenR2 and the test statistic (be it a F or t ). For instance, as explained in this other question (High R2 squared and high p -value for simple linear regression) for the simple linear regression with one covariate (and a constant), the relationship between t and R2 is:
So in this case, once you fixn , the higher the R2 the higher the t statistic and the lower the p-value.
The answer is the same, but instead of looking at one variable only, we now look at all variables together -- hence theF statistic, as Glen_b has shown. And here you have to fix both n and the number of parameters. Or, to put it better, fix the degrees of freedom.
Ok, so this is actually a different problem. If you are looking at the best explanatory functional form, you should also take a look at cross-validation techniques. Even ifR2 is the quantity of interest for your problem (it usually isn't), finding the best fit in-sample can be very misleading -- you usually want your findings to generalize out of sample, and proper cross-validation can help you not overfit your data too much.
And here I'm guessing that you want "predictive" power (since you say you want to find "the best explanatory functional form"). If you want to do causal inference, for instance, then theR2 or other predictive performance metrics are of little help without more structural/substantive knowledge of the problem.
sumber