Interpretasi output regresi linier sederhana

20

Saya telah menjalankan regresi linear sederhana log natural dari 2 variabel untuk menentukan apakah mereka berkorelasi. Output saya adalah ini:

R^2 = 0.0893

slope = 0.851

p < 0.001

Saya bingung. Melihat nilai $R^2$ , saya akan mengatakan bahwa dua variabel tidak berkorelasi, karena sangat dekat dengan $0$ . Namun, kemiringan garis regresi hampir $1$ (meskipun tampak seolah-olah hampir horisontal dalam plot), dan nilai-p menunjukkan bahwa regresi sangat signifikan.

Apakah ini berarti bahwa kedua variabel tersebut sangat berkorelasi? Jika demikian, apa fungsinya $R^2$ ditunjukkan oleh nilai ?

Saya harus menambahkan bahwa statistik Durbin-Watson diuji dalam perangkat lunak saya, dan tidak menolak hipotesis nol (sama dengan $1.357$ ). Saya pikir ini menguji independensi antara $2$ variabel. Dalam hal ini, saya berharap variabel menjadi tergantung, karena mereka adalah $2$ pengukuran seekor burung. Saya melakukan regresi ini sebagai bagian dari metode yang diterbitkan untuk menentukan kondisi tubuh seseorang, jadi saya berasumsi bahwa menggunakan regresi dengan cara ini masuk akal. Namun, mengingat hasil ini, saya berpikir bahwa mungkin untuk burung-burung ini, metode ini tidak cocok. Apakah ini tampaknya kesimpulan yang masuk akal?

regression r-squared Mog
sumber

1

The Durbin-Watson statistik adalah tes untuk korelasi serial: yaitu, untuk melihat apakah hal kesalahan yang berdekatan saling berkorelasi. Ia tidak mengatakan apa-apa tentang korelasi antara X Anda dan Y Anda! Kegagalan tes merupakan indikasi bahwa kemiringan dan nilai-p harus ditafsirkan dengan hati-hati.

whuber

Ah, baiklah. Itu lebih masuk akal daripada apakah kedua variabel itu sendiri berkorelasi ... setelah semua, saya pikir itulah yang saya coba temukan dengan menggunakan regresi. Dan bahwa gagal dalam tes menunjukkan saya harus berhati-hati menafsirkan kemiringan dan nilai p lebih masuk akal dalam kasus ini! Terima kasih @whuber!

Mog

1

Saya hanya ingin menambahkan kemiringan bisa sangat signifikan (p-value <0,001) meskipun hubungannya lemah, terutama dengan ukuran sampel yang besar. Ini diisyaratkan di sebagian besar jawaban sebagai kemiringan (bahkan jika itu signifikan) tidak mengatakan apa pun tentang kekuatan hubungan.

Glen

Anda perlu

untuk menentukan kekuatan hubungan. Lihat juga stats.stackexchange.com/a/265924/99274 .

n

$n$

Carl

22

Nilai perkiraan lereng tidak dengan sendirinya memberi tahu Anda kekuatan hubungan. Kekuatan hubungan tergantung pada ukuran varians kesalahan, dan rentang prediktor. Juga, nilai- signifikan tidak memberi tahu Anda bahwa ada hubungan yang kuat; nilai hanya menguji apakah kemiringan tepat 0. Untuk ukuran sampel yang cukup besar, bahkan keberangkatan kecil dari hipotesis itu (misalnya yang tidak penting secara praktis) akan menghasilkan nilai signifikan . $p$ $p$ $p$

Dari tiga jumlah yang Anda sajikan, , koefisien determinasi , memberikan indikasi terbesar dari kekuatan hubungan. Dalam kasus Anda, , berarti bahwa variasi dalam variabel respons Anda dapat dijelaskan hubungan linier dengan prediktor. Apa yang merupakan "besar" tergantung disiplin. Misalnya, dalam ilmu sosial mungkin "besar" tetapi dalam lingkungan yang terkendali seperti pengaturan pabrik, $R^2$ $R^{2} = .089$ $8.9\%$ $R^2$ $R^2 = .2$ $R^2 > .9$ mungkin diminta untuk mengatakan ada hubungan "kuat". Dalam sebagian besar situasi, adalah sangat kecil , jadi kesimpulan Anda bahwa ada hubungan linier yang lemah mungkin masuk akal. $.089$ $R^2$

Makro
sumber

Makro terima kasih. Jawaban yang sangat membantu. Saya senang Anda memasukkan bagian tentang apa, tepatnya, nilai p sedang diuji. Sangat masuk akal bahwa nilai p akan sangat rendah mengingat seberapa dekat dengan 1 kemiringan itu. Menurut saya, mengingat jawaban Anda dan @jedfrancis ', nilai r ^ 2 menggambarkan bahwa' awan 'titik data di sekitar garis regresi. Luar biasa! Itu jauh lebih jelas sekarang!

Mog

@ Macro (+1), jawaban bagus. Tetapi bagaimana "kekuatan hubungan" tergantung pada "ukuran intersepsi"? AFAIK intersep tidak mengatakan sama sekali tentang korelasi atau "kekuatan" hubungan linear.

whuber

@whuber, Anda benar - intersep tidak relevan dan jelas tidak mengubah korelasinya - saya sedang memikirkan fungsi regresi

vs

dan berpikir entah bagaimana yang kedua adalah hubungan yang lebih kuat ( semuanya dianggap sama), karena jumlah yang lebih besar dari besarnya

disebabkan oleh

dalam kasus terakhir. Tidak masuk akal sekarang karena saya memikirkannya. Saya telah mengedit posting.

y = 10000 + x

$y = 10000 + x$

y = x

$y = x$

y

$y$

x

$x$

Makro

4

@ Macro Jawaban yang sangat baik, tetapi saya akan menekankan (untuk mereka yang baru dalam hal ini) bahwa R ^ 2 bisa sangat rendah bahkan dengan hubungan yang kuat, jika hubungannya nonlinier, dan terutama jika itu nonmonotonic. Contoh favorit saya tentang ini adalah hubungan antara stres dan skor ujian; stres yang sangat rendah dan stres yang sangat tinggi cenderung lebih buruk daripada stres sedang.

Peter Flom - Pasang kembali Monica

1

@ Macro Ya, jawaban Anda baik, tetapi saya telah bekerja dengan orang-orang yang tidak tahu banyak statistik, dan saya telah melihat apa yang terjadi ... kadang-kadang apa yang kita katakan bukanlah apa yang mereka dengar!

Peter Flom - Pasang kembali Monica

14

The memberitahu Anda berapa banyak variasi dari variabel dependen dijelaskan oleh model. Namun, salah satu dapat menafsirkan serta korelasi antara nilai-nilai asli dari variabel dependen dan nilai-nilai dipasang. Penafsiran yang tepat dan derivasi dari koefisien determinasi dapat ditemukan disini $R^{2}$ $R^{2}$ $R^{2}$ .

Bukti bahwa koefisien determinasi adalah setara dengan Koefisien Korelasi Squared Pearson antara nilai-nilai yang diamati dan nilai-nilai pas dapat ditemukan di sini $y_{i}$ $\hat{y}_{i}$ .

The atau koefisien determinasi menunjukkan kekuatan model Anda di menjelaskan variabel dependen. Dalam kasus Anda, . Ini bahwa model Anda dapat menjelaskan 8,9% variasi variabel dependen Anda. Atau, koefisien korelasi antara Anda dan nilai-nilai pas Anda adalah 0,089. Apa yang merupakan $R^{2}$ $R^{2}=0.089$ $y_{i}$ $\hat{y}_{i}$ $R^{2}$ yang baik tergantung pada disiplin.

Akhirnya, ke bagian terakhir dari pertanyaan Anda. Anda tidak bisa mendapatkan tes Durbin-Watson untuk mengatakan sesuatu tentang korelasi antara Anda variabel dependen dan independen. Tes Durbin-Watson menguji korelasi serial. Ini dilakukan untuk memeriksa apakah istilah kesalahan Anda saling terkait.

Lionel Benza
sumber

9

Nilai memberi tahu Anda berapa banyak variasi dalam data yang dijelaskan oleh model pas. $R^2$

Nilai rendah dalam penelitian Anda menunjukkan bahwa data Anda mungkin tersebar luas di sekitar garis regresi, yang berarti bahwa model regresi hanya dapat menjelaskan (sangat sedikit) 8,9% dari variasi dalam data. $R^2$

Sudahkah Anda memeriksa untuk melihat apakah model linear sesuai? Lihatlah distribusi residu Anda, karena Anda dapat menggunakan ini untuk menilai kesesuaian model dengan data Anda. Idealnya, residu Anda tidak boleh menunjukkan hubungan dengan nilai Anda , dan jika ya, Anda mungkin ingin memikirkan untuk mengubah skala variabel Anda dengan cara yang sesuai, atau menyesuaikan model yang lebih tepat. $x$

jedfrancis
sumber

Terima kasih @jed. Ya, saya telah memeriksa normalitas residu, dan semuanya baik-baik saja. Saran Anda bahwa data tersebar luas di sekitar garis regresi tepat - titik data tampak seperti awan di sekitar garis regresi yang diplot oleh perangkat lunak.

Mog

1

Selamat datang di situs kami, @jed, dan terima kasih atas balasan Anda! Harap dicatat bahwa lereng itu sendiri hampir tidak mengatakan apa-apa tentang korelasi, selain dari tandanya, karena korelasi tidak tergantung pada unit di mana X dan Y diukur tetapi lereng tidak.

whuber

1

@whuber mengatakan bahwa nilai dari kemiringan tidak tidak mengatakan apa-apa tentang kekuatan asosiasi kecuali variabel dibakukan. Lihat jawaban shabbychefs.

wolf.rauch

@ wolf.rauch gotcha

jedfrancis

@ Jed Akan lebih baik jika Anda memperbaiki jawaban Anda.

Whuber

7

$R^2$ $y$ $x$ $x$ $y$ $R^2$

Singkatnya, kemiringan bukan indikator yang baik untuk model 'fit' kecuali Anda yakin bahwa skala variabel dependen dan independen harus sama satu sama lain.

shabbychef
sumber

1

Saya suka jawaban yang sudah diberikan, tetapi izinkan saya melengkapi mereka dengan pendekatan yang berbeda (dan lebih banyak bicara).

Misalkan kita mengumpulkan banyak pengamatan dari 1000 orang acak yang berusaha mencari tahu apakah pukulan di wajah terkait dengan sakit kepala:

H e Sebuah d Sebuah c h e s = β_{0} + β_{1} P kamu n c h_saya n_t h e_f Sebuah c e + ε

$Headaches = \beta_0 + \beta_1 Punch\_in\_the\_face + \varepsilon$

$\varepsilon$

$\beta_1$ $R^2$ akan rendah. Mengapa? Bagi sebagian besar penduduk, sakit kepala tidak akan banyak dijelaskan dengan pukulan. Dengan kata lain, sebagian besar variasi dalam data (yaitu apakah orang memiliki sedikit atau banyak sakit kepala) tidak akan dijelaskan jika Anda hanya memasukkan tinju di wajah, tetapi tinju di wajah SANGAT penting untuk sakit kepala.

Secara grafis, ini mungkin terlihat seperti lereng curam tetapi dengan variasi yang sangat besar di sekitar lereng ini.

cd98
sumber

0

@ Macro punya jawaban yang bagus.

Nilai perkiraan lereng tidak dengan sendirinya memberi tahu Anda kekuatan hubungan. Kekuatan hubungan tergantung pada ukuran varians kesalahan, dan rentang prediktor. Juga, nilai pp signifikan tidak memberi tahu Anda bahwa ada hubungan yang kuat; nilai pp hanya menguji apakah kemiringan tepat 0.

Saya hanya ingin menambahkan contoh numerik untuk menunjukkan seperti apa kasus OP yang dijelaskan.

Rendah $R^2$
Signifikan pada nilai-p

Kemiringan dekat dengan $1.0$

set.seed(6)
y=c(runif(100)*50,runif(100)*50+10)
x=c(rep(1,100),rep(10,100))
plot(x,y)

fit=lm(y~x)
summary(fit)
abline(fit)


> summary(lm(y~x))

Call:
lm(formula = y ~ x)

Residuals:
   Min     1Q Median     3Q    Max 
-24.68 -13.46  -0.87  14.21  25.14 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  25.6575     1.7107  14.998  < 2e-16 ***
x             0.9164     0.2407   3.807 0.000188 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 15.32 on 198 degrees of freedom
Multiple R-squared:  0.0682,    Adjusted R-squared:  0.06349 
F-statistic: 14.49 on 1 and 198 DF,  p-value: 0.0001877

Haitao Du
sumber

Interpretasi output regresi linier sederhana

Jawaban: