Halaman bantuan di R menganggap saya tahu apa arti angka-angka itu, tetapi saya tidak tahu. Saya mencoba untuk benar-benar memahami setiap angka di sini. Saya hanya akan memposting output dan mengomentari apa yang saya temukan. Mungkin ada (akan) kesalahan, karena saya hanya akan menulis apa yang saya asumsikan. Terutama saya ingin tahu apa artinya nilai-t dalam koefisien, dan mengapa mereka mencetak kesalahan standar residual.
Call:
lm(formula = iris$Sepal.Width ~ iris$Petal.Width)
Residuals:
Min 1Q Median 3Q Max
-1.09907 -0.23626 -0.01064 0.23345 1.17532
Ini adalah ringkasan 5-poin dari residu (rata-rata selalu 0, kan?). Angka-angka dapat digunakan (saya kira di sini) untuk dengan cepat melihat apakah ada outlier besar. Anda juga dapat melihatnya di sini jika residu jauh dari terdistribusi normal (seharusnya terdistribusi normal).
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.30843 0.06210 53.278 < 2e-16 ***
iris$Petal.Width -0.20936 0.04374 -4.786 4.07e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Taksir , dihitung dengan regresi kuadrat terkecil. Juga, kesalahan standar adalah . Saya ingin tahu bagaimana ini dihitung. Saya tidak tahu dari mana nilai-t dan nilai-p yang sesuai berasal. Saya tahu harus didistribusikan secara normal, tetapi bagaimana nilai-t dihitung?
Residual standard error: 0.407 on 148 degrees of freedom
, saya kira. Tetapi mengapa kita menghitungnya, dan apa isinya?
Multiple R-squared: 0.134, Adjusted R-squared: 0.1282
, yaitu . Rasio mendekati 1 jika poin terletak pada garis lurus, dan 0 jika mereka acak. Apa yang disesuaikan dengan R-squared?
F-statistic: 22.91 on 1 and 148 DF, p-value: 4.073e-06
F dan p untuk seluruh model, tidak hanya untuk single seperti sebelumnya. Nilai F adalah . Semakin besar ia tumbuh, semakin kecil kemungkinannya bahwa tidak memiliki efek sama sekali.
sumber
Jawaban:
Ringkasan lima poin
ya, idenya adalah untuk memberikan ringkasan distribusi yang cepat. Seharusnya kira-kira simetris tentang rata-rata, median harus mendekati 0, nilai 1Q dan 3Q idealnya kira-kira nilai yang hampir sama.
Koefisien danβi^s
Setiap koefisien dalam model adalah variabel acak Gaussian (Normal). The adalah estimasi mean dari distribusi variabel acak, dan standard error adalah akar kuadrat dari varians dari distribusi itu. Ini adalah ukuran dari ketidakpastian dalam estimasi .βi^ βi^
Anda dapat melihat bagaimana ini dihitung (baik rumus matematika yang digunakan) di Wikipedia . Perhatikan bahwa program statistik apa pun yang menghargai diri sendiri tidak akan menggunakan persamaan matematika standar untuk menghitung karena melakukannya di komputer dapat menyebabkan hilangnya presisi dalam perhitungan.βi^
The statistik adalah perkiraan ( ) dibagi dengan kesalahan standar mereka ( ), misalnya . Dengan asumsi Anda memiliki model yang sama dalam objek dengan Q Anda:t βi^ σi^ ti=βi^σi^
mod
maka nilai laporan R dihitung sebagai:t
Di manaβi^ σi^
coef(mod)
adalah , dan memberikan akar kuadrat dari elemen-elemen diagonal dari matriks kovarians dari parameter model, yang merupakan kesalahan standar dari parameter ( ).sqrt(diag(vcov(mod)))
Nilai-p adalah probabilitas untuk mencapai asebesar atau lebih besar dari nilai t mutlak yang diamati jika hipotesis nol ( ) benar, di mana adalah . Mereka dihitung sebagai (menggunakan dari atas):|t| H0 H0 βi=0
tstats
Jadi kami menghitung probabilitas ekor atas untuk mencapai nilai kami lakukan dari distribusi dengan derajat kebebasan yang sama dengan derajat sisa kebebasan model. Ini merupakan probabilitas mencapai nilai lebih besar dari nilai absolut dari diamati . Ini dikalikan dengan 2, karena tentu saja dapat besar juga ke arah negatif.t t t t t
Kesalahan standar residual
Kesalahan standar residual adalah perkiraan parameter . Asumsi dalam kuadrat terkecil biasa adalah bahwa residu secara individual dijelaskan oleh distribusi Gaussian (normal) dengan rata-rata 0 dan standar deviasi . The berkaitan dengan asumsi varians konstan; setiap residual memiliki varian yang sama dan varian itu sama dengan .σ σ σ σ2
DisesuaikanR2
Adjusted dihitung sebagai:R2
disesuaikan adalah hal yang sama dengan , tetapi disesuaikan untuk kompleksitas (yaitu jumlah parameter) dari model. Diberikan model dengan parameter tunggal, dengan tertentu , jika kita menambahkan parameter lain ke model ini, dari model baru harus meningkat, bahkan jika parameter yang ditambahkan tidak memiliki kekuatan statistik. Akun disesuaikan untuk ini dengan memasukkan jumlah parameter dalam model.R2 R2 R2 R2 R2
TheF is the ratio of two variances (SSR/SSE ), the variance explained by the parameters in the model (sum of squares of regression, SSR) and the residual or unexplained variance (sum of squares of error, SSE). You can see this better if we get the ANOVA table for the model via
anova()
:TheF s are the same in the ANOVA output and the 3.7945/0.1656=22.91 . We can compute the probability of achieving an F that large under the null hypothesis of no effect, from an F -distribution with 1 and 148 degrees of freedom. This is what is reported in the final column of the ANOVA table. In the simple case of a single, continuous predictor (as per your example), F=t2Petal.Width , which is why the p-values are the same. This equivalence only holds in this simple case.
summary(mod)
output. TheMean Sq
column contains the two variances andsumber
Ronen Israel and Adrienne Ross (AQR) wrote a very nice paper on this subject: Measuring Factor Exposures: Uses and Abuses.
To summarize (see: p. 8),
R's
lm()
summary calculates the p-valuePr(>|t|)
. The smaller the p-value is, the more significant the factor is. P-value = 0.05 is a reasonable threshold.sumber