Regresi linier apa yang dikatakan oleh statistik F, kuadrat dan residu standar?

14

Saya benar-benar bingung tentang perbedaan makna mengenai konteks regresi linier dari istilah-istilah berikut:

  • F statistik
  • R kuadrat
  • Kesalahan standar residual

Saya menemukan webstie ini yang memberi saya wawasan luas dalam berbagai istilah yang terlibat dalam regresi linier, namun istilah yang disebutkan di atas terlihat cukup banyak (sejauh yang saya mengerti). Saya akan mengutip apa yang saya baca dan yang membingungkan saya:

Residual Standard Error adalah ukuran kualitas fit regresi linier ....... Residual Standard Error adalah jumlah rata-rata yang respon (dist) akan menyimpang dari garis regresi yang sebenarnya.

1. Dengan demikian sebenarnya jarak rata-rata dari nilai yang diamati dari garis lm?

Statistik R-squared memberikan ukuran seberapa baik model ini cocok dengan data aktual.

2. Sekarang saya semakin bingung karena jika RSE memberi tahu kami seberapa jauh poin yang kami amati menyimpang dari garis regresi, RSE yang rendah sebenarnya memberi tahu kami "model Anda cocok berdasarkan pada titik data yang diamati" -> dengan demikian seberapa baik kami model cocok, jadi apa perbedaan antara R kuadrat dan RSE?

F-statistik adalah indikator yang baik apakah ada hubungan antara prediktor kami dan variabel respon.

3. Apakah benar bahwa kita dapat memiliki nilai F yang menunjukkan hubungan yang kuat yaitu NON LINEAR sehingga RSE kita tinggi dan R kuadrat kita rendah

KingBoomie
sumber
Q 3 Fvalue tidak mengindikasikan hubungan non linear. Ini adalah rasio yang menunjukkan apakah ada hubungan substantif (konstan) antara dua variabel - dependen dan independen.
Subhash C. Davar
Itu tidak memberi tahu kita sifat hubungan - nonlinear atau linear.
Subhash C. Davar

Jawaban:

12

Cara terbaik untuk memahami istilah-istilah ini adalah dengan melakukan perhitungan regresi dengan tangan. Saya menulis dua jawaban yang berkaitan erat (di sini dan di sini ), namun mereka mungkin tidak sepenuhnya membantu Anda memahami kasus khusus Anda. Namun tetap membacanya. Mungkin mereka juga akan membantu Anda membuat konsep istilah-istilah ini lebih baik.

Dalam regresi (atau ANOVA), kami membangun model berdasarkan dataset sampel yang memungkinkan kami untuk memprediksi hasil dari populasi yang menarik. Untuk melakukannya, tiga komponen berikut dihitung dengan regresi linier sederhana dari komponen yang lain dapat dihitung, misalnya mean kuadrat, F-nilai, R2 (juga disesuaikan R2 ), dan standard error residual ( RSE ):

  1. Total jumlah kuadrat ( SStHaitSebuahl )
  2. jumlah sisa kotak ( SSressayadkamuSebuahl )
  3. jumlah model kuadrat ( SSmHaidel )

Masing-masing dari mereka menilai seberapa baik model menggambarkan data dan jumlah dari jarak kuadrat dari titik data ke model pas (digambarkan sebagai garis merah dalam plot di bawah).

The SStHaitSebuahl menilai seberapa baik cocok mean data. Kenapa itu berarti? Karena mean adalah model paling sederhana yang dapat kami muat dan karenanya berfungsi sebagai model yang dibandingkan dengan garis regresi kuadrat-terkecil. Plot ini menggunakan carsdataset menggambarkan bahwa:

masukkan deskripsi gambar di sini

SSressayadkamuSebuahl

masukkan deskripsi gambar di sini

SSmHaidelSStHaitSebuahlSSressayadkamuSebuahl

masukkan deskripsi gambar di sini

Untuk menjawab pertanyaan Anda, pertama mari kita hitung istilah-istilah yang ingin Anda pahami dimulai dengan model dan output sebagai referensi:

# The model and output as reference
m1 <- lm(dist ~ speed, data = cars)
summary(m1)
summary.aov(m1) # To get the sums of squares and mean squares

Jumlah kuadrat adalah jarak kuadrat dari masing-masing titik data ke model:

# Calculate sums of squares (total, residual and model)
y <- cars$dist
ybar <- mean(y)
ss.total <- sum((y-ybar)^2)
ss.total
ss.residual <- sum((y-m1$fitted)^2)
ss.residual
ss.model <- ss.total-ss.residual
ss.model

Kuadrat rata-rata adalah jumlah kuadrat yang dirata-ratakan oleh derajat kebebasan:

# Calculate degrees of freedom (total, residual and model)
n <- length(cars$speed)
k <- length(m1$coef) # k = model parameter: b0, b1
df.total <- n-1
df.residual <- n-k
df.model <- k-1

# Calculate mean squares (note that these are just variances)
ms.residual <- ss.residual/df.residual
ms.residual
ms.model<- ss.model/df.model
ms.model

Jawaban saya untuk pertanyaan Anda:

Q1:

  1. Jadi ini sebenarnya jarak rata-rata nilai yang diamati dari garis lm?

RSEM.SressayadkamuSebuahl

# Calculate residual standard error
res.se <- sqrt(ms.residual)
res.se  

SSressayadkamuSebuahlM.SressayadkamuSebuahl SSressayadkamuSebuahlRSEmewakili jarak rata-rata data yang diamati dari model. Secara intuitif, ini juga masuk akal karena jika jaraknya lebih kecil, model Anda juga lebih baik.

Q2:

  1. Sekarang saya semakin bingung karena jika RSE memberi tahu kami seberapa jauh titik-titik pengamatan kami menyimpang dari garis regresi, maka RSE yang rendah benar-benar memberi tahu kami "model Anda cocok berdasarkan pada titik data yang diamati" -> dengan demikian seberapa baik model kami cocok , jadi apa perbedaan antara R kuadrat dan RSE?

R2SSmHaidelSStHaitSebuahl

# R squared
r.sq <- ss.model/ss.total
r.sq

R2SStHaitSebuahlSSmHaidel

RSER2RSE

R2

Q3:

  1. Benarkah kita dapat memiliki nilai F yang menunjukkan hubungan kuat yaitu NON LINEAR sehingga RSE kita tinggi dan R kuadrat kita rendah

FM.SmHaidelM.SressayadkamuSebuahl

# Calculate F-value
F <- ms.model/ms.residual
F
# Calculate P-value
p.F <- 1-pf(F, df.model, df.residual)
p.F 

F

Pertanyaan ketiga Anda agak sulit untuk dipahami tetapi saya setuju dengan kutipan yang Anda berikan.

Stefan
sumber
3

(2) Anda memahaminya dengan benar, Anda hanya mengalami kesulitan dengan konsep itu.

R2

R2

Chris
sumber
0

Hanya untuk melengkapi apa yang Chris jawab di atas:

Statistik-F adalah pembagian dari kuadrat model rata-rata dan kuadrat residual. Perangkat lunak seperti Stata, setelah memasang model regresi, juga memberikan nilai-p yang terkait dengan F-statistik. Ini memungkinkan Anda untuk menguji hipotesis nol bahwa koefisien model Anda nol. Anda bisa menganggapnya sebagai "signifikansi statistik dari model secara keseluruhan."

YSC
sumber