Interpretasi output R's lm ()

234

Halaman bantuan di R menganggap saya tahu apa arti angka-angka itu, tetapi saya tidak tahu. Saya mencoba untuk benar-benar memahami setiap angka di sini. Saya hanya akan memposting output dan mengomentari apa yang saya temukan. Mungkin ada (akan) kesalahan, karena saya hanya akan menulis apa yang saya asumsikan. Terutama saya ingin tahu apa artinya nilai-t dalam koefisien, dan mengapa mereka mencetak kesalahan standar residual.

Call:
lm(formula = iris$Sepal.Width ~ iris$Petal.Width)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.09907 -0.23626 -0.01064  0.23345  1.17532 

Ini adalah ringkasan 5-poin dari residu (rata-rata selalu 0, kan?). Angka-angka dapat digunakan (saya kira di sini) untuk dengan cepat melihat apakah ada outlier besar. Anda juga dapat melihatnya di sini jika residu jauh dari terdistribusi normal (seharusnya terdistribusi normal).

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)       3.30843    0.06210  53.278  < 2e-16 ***
iris$Petal.Width -0.20936    0.04374  -4.786 4.07e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Taksir , dihitung dengan regresi kuadrat terkecil. Juga, kesalahan standar adalah . Saya ingin tahu bagaimana ini dihitung. Saya tidak tahu dari mana nilai-t dan nilai-p yang sesuai berasal. Saya tahu harus didistribusikan secara normal, tetapi bagaimana nilai-t dihitung?βi^σβiβ^

Residual standard error: 0.407 on 148 degrees of freedom

1npϵTϵ , saya kira. Tetapi mengapa kita menghitungnya, dan apa isinya?

Multiple R-squared: 0.134,  Adjusted R-squared: 0.1282 

R2=sy^2sy2 , yaitu . Rasio mendekati 1 jika poin terletak pada garis lurus, dan 0 jika mereka acak. Apa yang disesuaikan dengan R-squared?i=1n(yi^y¯)2i=1n(yiy¯)2

F-statistic: 22.91 on 1 and 148 DF,  p-value: 4.073e-06 

F dan p untuk seluruh model, tidak hanya untuk single seperti sebelumnya. Nilai F adalah . Semakin besar ia tumbuh, semakin kecil kemungkinannya bahwa tidak memiliki efek sama sekali.βisy^2ϵiβ

Alexander Engelhardt
sumber
residu tidak begitu menyimpang dari normalitas, mengapa Anda berpikir begitu?
nico
@nico: Saya pikir @Alexx Hardt berbicara secara hipotetis. Yaitu sekali dapat menggunakan ringkasan nomor lima untuk melihat apakah residu menyimpang dari normal
Gavin Simpson
@ Gavin Simpson: Anda benar, saya salah membaca kalimat. Abaikan komentar saya sebelumnya.
nico
9
Minor quibble: Anda tidak bisa mengatakan apa-apa tentang normalitas atau non-normalitas berdasarkan 5 kuantil itu saja. Yang bisa Anda katakan berdasarkan pada ringkasan itu adalah apakah residu yang diperkirakan sekitar simetris di sekitar nol. Anda dapat membagi kuantil yang dilaporkan dengan estimasi kesalahan standar residual dan membandingkan nilai-nilai ini dengan masing-masing kuantil N (0,1), tetapi melihat plot QQ mungkin lebih masuk akal.
Fabian
5
Satu catatan di sini: model bukan , melainkan . dijelaskan dengan benar dalam jawaban di bawah ini, tetapi tidak secara eksplisit menyebutkan bahwa ia salah dikarakteristikkan dalam pertanyaan, sehingga seseorang mungkin tidak melihat perbedaan tersebut. FSSmodel/SSerrorMSmodel/MSerrorF
gung

Jawaban:

203

Ringkasan lima poin

ya, idenya adalah untuk memberikan ringkasan distribusi yang cepat. Seharusnya kira-kira simetris tentang rata-rata, median harus mendekati 0, nilai 1Q dan 3Q idealnya kira-kira nilai yang hampir sama.

Koefisien danβi^s

Setiap koefisien dalam model adalah variabel acak Gaussian (Normal). The adalah estimasi mean dari distribusi variabel acak, dan standard error adalah akar kuadrat dari varians dari distribusi itu. Ini adalah ukuran dari ketidakpastian dalam estimasi .βi^βi^

Anda dapat melihat bagaimana ini dihitung (baik rumus matematika yang digunakan) di Wikipedia . Perhatikan bahwa program statistik apa pun yang menghargai diri sendiri tidak akan menggunakan persamaan matematika standar untuk menghitung karena melakukannya di komputer dapat menyebabkan hilangnya presisi dalam perhitungan.βi^

t -statistik

The statistik adalah perkiraan ( ) dibagi dengan kesalahan standar mereka ( ), misalnya . Dengan asumsi Anda memiliki model yang sama dalam objek dengan Q Anda:tβi^σi^ti=βi^σi^mod

> mod <- lm(Sepal.Width ~ Petal.Width, data = iris)

maka nilai laporan R dihitung sebagai:t

> tstats <- coef(mod) / sqrt(diag(vcov(mod)))
(Intercept) Petal.Width 
  53.277950   -4.786461 

Di mana coef(mod)adalah , dan memberikan akar kuadrat dari elemen-elemen diagonal dari matriks kovarians dari parameter model, yang merupakan kesalahan standar dari parameter ( ).βi^sqrt(diag(vcov(mod)))σi^

Nilai-p adalah probabilitas untuk mencapai asebesar atau lebih besar dari nilai t mutlak yang diamati jika hipotesis nol ( ) benar, di mana adalah . Mereka dihitung sebagai (menggunakan dari atas):|t|H0H0βi=0tstats

> 2 * pt(abs(tstats), df = df.residual(mod), lower.tail = FALSE)
 (Intercept)  Petal.Width 
1.835999e-98 4.073229e-06

Jadi kami menghitung probabilitas ekor atas untuk mencapai nilai kami lakukan dari distribusi dengan derajat kebebasan yang sama dengan derajat sisa kebebasan model. Ini merupakan probabilitas mencapai nilai lebih besar dari nilai absolut dari diamati . Ini dikalikan dengan 2, karena tentu saja dapat besar juga ke arah negatif.ttttt

Kesalahan standar residual

Kesalahan standar residual adalah perkiraan parameter . Asumsi dalam kuadrat terkecil biasa adalah bahwa residu secara individual dijelaskan oleh distribusi Gaussian (normal) dengan rata-rata 0 dan standar deviasi . The berkaitan dengan asumsi varians konstan; setiap residual memiliki varian yang sama dan varian itu sama dengan .σσσσ2

DisesuaikanR2

Adjusted dihitung sebagai:R2

1(1R2)n1np1

disesuaikan adalah hal yang sama dengan , tetapi disesuaikan untuk kompleksitas (yaitu jumlah parameter) dari model. Diberikan model dengan parameter tunggal, dengan tertentu , jika kita menambahkan parameter lain ke model ini, dari model baru harus meningkat, bahkan jika parameter yang ditambahkan tidak memiliki kekuatan statistik. Akun disesuaikan untuk ini dengan memasukkan jumlah parameter dalam model.R2R2R2R2R2

F-statistic

The F is the ratio of two variances (SSR/SSE), the variance explained by the parameters in the model (sum of squares of regression, SSR) and the residual or unexplained variance (sum of squares of error, SSE). You can see this better if we get the ANOVA table for the model via anova():

> anova(mod)
Analysis of Variance Table

Response: Sepal.Width
             Df  Sum Sq Mean Sq F value    Pr(>F)    
Petal.Width   1  3.7945  3.7945   22.91 4.073e-06 ***
Residuals   148 24.5124  0.1656                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

The Fs are the same in the ANOVA output and the summary(mod) output. The Mean Sq column contains the two variances and 3.7945/0.1656=22.91. We can compute the probability of achieving an F that large under the null hypothesis of no effect, from an F-distribution with 1 and 148 degrees of freedom. This is what is reported in the final column of the ANOVA table. In the simple case of a single, continuous predictor (as per your example), F=tPetal.Width2, which is why the p-values are the same. This equivalence only holds in this simple case.

Gavin Simpson
sumber
5
@Gavin (+1) Great response with nice illustrations!
chl
2
Nice job. One thing you might clarifiy, with regard to calculating t values: sqrt(diag(vcov(mod))) produces the SE of the estimates. These are the same SEs that are output in the model summary. Easier and clearer just to say that t = Estimate/SEestimate. In that sense it is no different that any other t value.
Brett
2
(+1) This is great. The only thing I'd add is that the F value is the same as t2 for the slope (which is why the p values are the same). This - of course - isn't true with multiple explanatory variables.
2
@Jay; thanks. I thought about mentioning that equivalence too. Wasn't sure if it was too much detail or not? I'll ad something on this in a mo.
Gavin Simpson
2
"will not use the standard mathematical equations to compute" What will they use?
SmallChess
0

Ronen Israel and Adrienne Ross (AQR) wrote a very nice paper on this subject: Measuring Factor Exposures: Uses and Abuses.

To summarize (see: p. 8),

  • Generally, the higher the R2 the better the model explains portfolio returns.
  • When the t-statistic is greater than two, we can say with 95% confidence (or a 5% chance we are wrong) that the beta estimate is statistically different than zero. In other words, we can say that a portfolio has significant exposure to a factor.

R's lm() summary calculates the p-value Pr(>|t|). The smaller the p-value is, the more significant the factor is. P-value = 0.05 is a reasonable threshold.

Steve Lihn
sumber
6
The kinds of misstatements in this paper, exemplified by "When the t-statistic is greater than two, we can say (with ... a 5% chance we are wrong) that the beta estimate is statistically different from zero" [at p. 11], are discussed at stats.stackexchange.com/questions/311763 and stats.stackexchange.com/questions/26450.
whuber