Mengapa R-kuadrat saya sangat rendah ketika t-statistik saya sangat besar?

17

Saya menjalankan regresi dengan 4 variabel, dan semuanya sangat signifikan secara statistik, dengan nilai T 7,9,26 dan 31 (saya katakan karena tampaknya tidak relevan untuk memasukkan desimal) yang sangat tinggi dan jelas signifikan. Tapi kemudian R2 hanya 0,2284. Apakah saya salah menafsirkan nilai t di sini untuk berarti sesuatu yang bukan? Reaksi pertama saya saat melihat nilai-nilai t adalah bahwa R2 akan cukup tinggi, tapi mungkin itu adalah tinggi R2 ?

Kyle
sumber
1
Saya yakin Anda ncukup besar, bukan?
Glen_b -Reinstate Monica
@ Glen_b ya, sekitar 6000.
Kyle
10
Kemudian t statistik besar yang terkait dengan kecil R2sama sekali tidak biasa. Karena kesalahan standar berkurang ,t-ratios akan meningkat1/nt , sedangkanR2akan cenderung tetap konstan dengan meningkatnyan. Mengapa Anda peduli apaR2itu? Mengapa Anda peduli apa rasionya? nR2nR2
Glen_b -Reinstate Monica

Jawaban:

45

The t -values dan R2 digunakan untuk menilai hal yang sangat berbeda. Nilai- t digunakan untuk menilai keakuratan estimasi βi , tetapi R2 mengukur jumlah variasi dalam variabel respons yang dijelaskan oleh kovariat Anda. Misalkan Anda memperkirakan model regresi dengan n pengamatan,

Yi=β0+β1X1i+...+βkXki+ϵi

dimana ϵii.i.dN(0,σ2) , i=1,...,n .

Nilai- t besar (dalam nilai absolut) mengarahkan Anda untuk menolak hipotesis nol bahwa βi=0 . Ini berarti Anda dapat yakin bahwa Anda telah memperkirakan tanda koefisien dengan benar. Juga, jika |t|> 4 dan Anda memiliki n>5 , maka 0 tidak berada dalam interval kepercayaan 99% untuk koefisien. Nilai- t untuk koefisien βi adalah selisih antara estimasi βi^ dan 0 yang dinormalisasi dengan standar kesalahan se{βi^} .

t=βi^se{βi^}

yang hanyalah perkiraan dibagi dengan ukuran variabilitasnya. Jika Anda memiliki dataset yang cukup besar, Anda akan selalu memiliki nilai- t signifikan secara statistik (besar) . Ini tidak berarti bahwa kovariat Anda menjelaskan banyak variasi dalam variabel respons.

Seperti yang disebutkan @Stat, R2 mengukur jumlah variasi dalam variabel respons Anda yang dijelaskan oleh variabel dependen Anda. Untuk informasi lebih lanjut tentang R2 , buka wikipedia . Dalam kasus Anda, tampaknya Anda memiliki set data yang cukup besar untuk memperkirakan βi secara akurat , tetapi kovariat Anda melakukan pekerjaan yang buruk dalam menjelaskan dan \ atau memprediksi nilai respons.

caburke
sumber
1
(+1) Jelas dari awal bahwa ini adalah penjelasan informatif yang dipertimbangkan dengan baik.
whuber
Jawaban bagus. Saya menemukan istilah "signifikansi praktis" dan "signifikansi statistik" sering membantu dalam memikirkan masalah ini.
Aaron - Pasang kembali Monica
3
Ada juga transformasi sederhana antara dua statistik: R2=t2t2+df
Jeff
6

Untuk mengatakan hal yang sama dengan caburke tetapi lebih sederhana, Anda sangat percaya bahwa respons rata-rata yang disebabkan oleh variabel Anda tidak nol. Tetapi ada banyak hal lain yang tidak Anda miliki dalam regresi yang menyebabkan respons melompat-lompat.

generic_user
sumber
0

Mungkinkah meskipun prediktor Anda cenderung linier dalam hal variabel respons Anda (kemiringan secara signifikan berbeda dari nol), yang membuat nilai t signifikan, tetapi R kuadrat rendah karena kesalahannya besar, yang berarti bahwa variabilitas dalam data Anda besar dan dengan demikian model regresi Anda tidak cocok (prediksi tidak seakurat)?

Hanya 2 sen saya.

Perhaps this post can help: http://blog.minitab.com/blog/adventures-in-statistics/how-to-interpret-a-regression-model-with-low-r-squared-and-low-p-values

mel
sumber
0

Several answers given are close but still wrong.

"The t-values are used to judge the accurary of your estimate of the βi's" is the one that concerns me the most.

The T-value is merely an indication of the likelihood of random occurrence. Large means unlikely. Small means very likely. Positive and Negative don't matter to the likelihood interpretation.

"R2 measures the amount of variation in your response variable explained by your covariates" is correct.

(I would have commented but am not allowed by this platform yet.)

Kevin
sumber
2
You seem to write about t-values as if they were p-values.
whuber
-4

The only way to deal with a small R squared, check the following:

  1. Is your sample size large enough? If yes, do step 2. but if no, increase your sample size.
  2. How many covariates did you use for your model estimation? If more than 1 as in your case, deal with the problem of multicolinearity of the covariates or simply, run the regression again and this time without the constant which is known as beta zero.

  3. However, if the problem still persists, then do a stepwise regression and select the model with a high R squared. But which I cannot recommend to you because it brings about bias in the covariates

katleho
sumber