Apa yang dikatakan oleh r, r kuadrat dan standar deviasi residual tentang hubungan linier?

13

Sedikit latar belakang
saya bekerja pada interpretasi analisis regresi tetapi saya benar-benar bingung tentang arti r, r kuadrat dan standar deviasi residual. Saya tahu definisi:

Penokohan

r mengukur kekuatan dan arah hubungan linear antara dua variabel pada sebar scatter

R-squared adalah ukuran statistik seberapa dekat data dengan garis regresi pas.

Deviasi standar residual adalah istilah statistik yang digunakan untuk menggambarkan deviasi standar dari titik-titik yang terbentuk di sekitar fungsi linear, dan merupakan perkiraan keakuratan variabel dependen yang diukur. ( Tidak tahu apa unitnya, informasi apa pun tentang unit di sini akan sangat membantu )

(sumber: sini )

Pertanyaan
Meskipun saya "memahami" penokohan, saya mengerti bagaimana istilah-istilah ini dapat menarik kesimpulan tentang dataset. Saya akan memasukkan sedikit contoh di sini, mungkin ini dapat berfungsi sebagai panduan untuk menjawab pertanyaan saya ( jangan ragu untuk menggunakan contoh Anda sendiri!)

Contoh
Ini bukan pertanyaan kerjaan, namun saya mencari di buku saya untuk mendapatkan contoh sederhana (dataset saat ini yang saya analisis terlalu rumit dan besar untuk ditampilkan di sini)

Dua puluh plot, masing-masing 10 x 4 meter, dipilih secara acak di ladang jagung yang luas. Untuk setiap plot, kepadatan tanaman (jumlah tanaman di plot) dan berat rata-rata tongkol (gram biji per tongkol) diamati. Hasilnya diberikan dalam tabel berikut:
(sumber: Statistik untuk ilmu kehidupan )

╔═══════════════╦════════════╦══╗
 Platn density  Cob weight   
╠═══════════════╬════════════╬══╣
           137         212   
           107         241   
           132         215   
           135         225   
           115         250   
           103         241   
           102         237   
            65         282   
           149         206   
            85         246   
           173         194   
           124         241   
           157         196   
           184         193   
           112         224   
            80         257   
           165         200   
           160         190   
           157         208   
           119         224   
╚═══════════════╩════════════╩══╝

Pertama saya akan membuat sebar untuk memvisualisasikan data: Jadi saya dapat menghitung r, R 2 dan standar deviasi residual. pertama uji korelasi:
masukkan deskripsi gambar di sini

    Pearson's product-moment correlation

data:  X and Y
t = -11.885, df = 18, p-value = 5.889e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.9770972 -0.8560421
sample estimates:
       cor 
-0.9417954 

dan kedua ringkasan garis regresi:

Residuals:
    Min      1Q  Median      3Q     Max 
-11.666  -6.346  -1.439   5.049  16.496 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 316.37619    7.99950   39.55  < 2e-16 ***
X            -0.72063    0.06063  -11.88 5.89e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 8.619 on 18 degrees of freedom
Multiple R-squared:  0.887, Adjusted R-squared:  0.8807 
F-statistic: 141.3 on 1 and 18 DF,  p-value: 5.889e-10

Jadi berdasarkan tes ini: r = -0.9417954, R-squared: 0.887dan Residual standard error: 8.619 Apa yang nilai-nilai ini katakan kepada kita tentang dataset? (lihat Pertanyaan )

KingBoomie
sumber
3
Mungkin perlu dicatat bahwa apa yang Anda sebut "definisi" hanyalah penokohan biasa, dan karenanya dapat menyesatkan, tergantung pada bagaimana penafsiran dan penerapannya. Definisi aktualnya kuantitatif dan tepat.
whuber
Terima kasih telah menunjukkan bahwa saya, sumber yang saya gunakan menyebut definisi ini, namun tanpa konteks "karakterisasi" mungkin akan lebih baik, saya akan mengubahnya!
KingBoomie
Potongan: R-squared biasanya dijelaskan sebagai proporsi varian dijelaskan oleh prediktor, jadi mendekati 1 adalah baik. Unit deviasi standar residual harus menjadi unit residu Anda, yang merupakan unit dari variabel respons Anda.
alistaire
Terima kasih! @alistaire sebenarnya ini masuk akal hahah karena kami membandingkan nilai y dari poin Asli dengan nilai y dari poin yang diprediksi
KingBoomie
Anda harus merencanakan residu terhadap prediksi seperti yang disarankan oleh David dalam jawabannya.
HelloWorld

Jawaban:

5

Statistik tersebut dapat memberi tahu Anda apakah ada komponen linier untuk hubungan tersebut tetapi tidak banyak tentang apakah hubungan tersebut benar-benar linier. Hubungan dengan komponen kuadratik kecil dapat memiliki r ^ 2 dari 0,99. Sebidang residu sebagai fungsi prediksi dapat diungkapkan. Dalam percobaan Galileo di sini https://ww2.amstat.org/publications/jse/v3n1/datasets.dickey.html korelasinya sangat tinggi tetapi hubungannya jelas nonlinier.

David Lane
sumber
5

Inilah upaya kedua untuk mendapat jawaban setelah mendapat umpan balik tentang masalah dengan jawaban pertama saya.

r|r||r|dengan nilai-nilai yang diamati.

R2r2R2 kadang-kadang dihitung berbeda, misalnya dengan membandingkan residual (selisih antara nilai-nilai diprediksi dan diamati dari variabel respon) dalam model pas untuk residual ketika variabel respon diprediksi diatur untuk konstan.

rR2rrR2rR2

Residual Standard Error adalah standar deviasi untuk distribusi normal, berpusat pada garis regresi yang diprediksi, mewakili distribusi nilai yang sebenarnya diamati. Dengan kata lain, jika kita hanya mengukur kepadatan tanaman untuk plot baru, kita dapat memprediksi bobot tongkol menggunakan koefisien model pas, ini adalah rata-rata dari distribusi itu. RSE adalah standar deviasi dari distribusi itu dan dengan demikian mengukur seberapa besar kita berharap bobot tongkol yang diamati benar-benar menyimpang dari nilai yang diprediksi oleh model. RSE ~ 8 dalam hal ini harus dibandingkan dengan standar deviasi sampel berat tongkol tetapi RSE lebih kecil dibandingkan dengan sampel SD yang lebih prediktif, atau memadai, modelnya.

Johan Falkenjack
sumber
@whuber Belum ada jawaban lain untuk pertanyaan ini jadi saya memutuskan untuk mencobanya lagi. Alih-alih menghapus jawaban lama, dengan semua bawaannya, saya memutuskan untuk menulis yang baru (kecuali untuk paragraf RSE yang saya salin). Jika Anda punya waktu, saya akan sangat berterima kasih atas umpan balik pada upaya kedua ini. Pendekatan saya yang biasa untuk evaluasi model adalah cross-validation dan set hold-out, karena tujuannya biasanya prediksi, tetapi saya benar-benar ingin memahami metrik ini dan mereka cukup umum.
Johan Falkenjack
2
|r|rρ