Sedikit latar belakang
saya bekerja pada interpretasi analisis regresi tetapi saya benar-benar bingung tentang arti r, r kuadrat dan standar deviasi residual. Saya tahu definisi:
Penokohan
r mengukur kekuatan dan arah hubungan linear antara dua variabel pada sebar scatter
R-squared adalah ukuran statistik seberapa dekat data dengan garis regresi pas.
Deviasi standar residual adalah istilah statistik yang digunakan untuk menggambarkan deviasi standar dari titik-titik yang terbentuk di sekitar fungsi linear, dan merupakan perkiraan keakuratan variabel dependen yang diukur. ( Tidak tahu apa unitnya, informasi apa pun tentang unit di sini akan sangat membantu )
(sumber: sini )
Pertanyaan
Meskipun saya "memahami" penokohan, saya mengerti bagaimana istilah-istilah ini dapat menarik kesimpulan tentang dataset. Saya akan memasukkan sedikit contoh di sini, mungkin ini dapat berfungsi sebagai panduan untuk menjawab pertanyaan saya ( jangan ragu untuk menggunakan contoh Anda sendiri!)
Contoh
Ini bukan pertanyaan kerjaan, namun saya mencari di buku saya untuk mendapatkan contoh sederhana (dataset saat ini yang saya analisis terlalu rumit dan besar untuk ditampilkan di sini)
Dua puluh plot, masing-masing 10 x 4 meter, dipilih secara acak di ladang jagung yang luas. Untuk setiap plot, kepadatan tanaman (jumlah tanaman di plot) dan berat rata-rata tongkol (gram biji per tongkol) diamati. Hasilnya diberikan dalam tabel berikut:
(sumber: Statistik untuk ilmu kehidupan )
╔═══════════════╦════════════╦══╗
║ Platn density ║ Cob weight ║ ║
╠═══════════════╬════════════╬══╣
║ 137 ║ 212 ║ ║
║ 107 ║ 241 ║ ║
║ 132 ║ 215 ║ ║
║ 135 ║ 225 ║ ║
║ 115 ║ 250 ║ ║
║ 103 ║ 241 ║ ║
║ 102 ║ 237 ║ ║
║ 65 ║ 282 ║ ║
║ 149 ║ 206 ║ ║
║ 85 ║ 246 ║ ║
║ 173 ║ 194 ║ ║
║ 124 ║ 241 ║ ║
║ 157 ║ 196 ║ ║
║ 184 ║ 193 ║ ║
║ 112 ║ 224 ║ ║
║ 80 ║ 257 ║ ║
║ 165 ║ 200 ║ ║
║ 160 ║ 190 ║ ║
║ 157 ║ 208 ║ ║
║ 119 ║ 224 ║ ║
╚═══════════════╩════════════╩══╝
Pertama saya akan membuat sebar untuk memvisualisasikan data:
Jadi saya dapat menghitung r, R 2 dan standar deviasi residual.
pertama uji korelasi:
Pearson's product-moment correlation
data: X and Y
t = -11.885, df = 18, p-value = 5.889e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.9770972 -0.8560421
sample estimates:
cor
-0.9417954
dan kedua ringkasan garis regresi:
Residuals:
Min 1Q Median 3Q Max
-11.666 -6.346 -1.439 5.049 16.496
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 316.37619 7.99950 39.55 < 2e-16 ***
X -0.72063 0.06063 -11.88 5.89e-10 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.619 on 18 degrees of freedom
Multiple R-squared: 0.887, Adjusted R-squared: 0.8807
F-statistic: 141.3 on 1 and 18 DF, p-value: 5.889e-10
Jadi berdasarkan tes ini: r = -0.9417954
, R-squared: 0.887
dan Residual standard error: 8.619
Apa yang nilai-nilai ini katakan kepada kita tentang dataset? (lihat Pertanyaan )
sumber
Jawaban:
Statistik tersebut dapat memberi tahu Anda apakah ada komponen linier untuk hubungan tersebut tetapi tidak banyak tentang apakah hubungan tersebut benar-benar linier. Hubungan dengan komponen kuadratik kecil dapat memiliki r ^ 2 dari 0,99. Sebidang residu sebagai fungsi prediksi dapat diungkapkan. Dalam percobaan Galileo di sini https://ww2.amstat.org/publications/jse/v3n1/datasets.dickey.html korelasinya sangat tinggi tetapi hubungannya jelas nonlinier.
sumber
Inilah upaya kedua untuk mendapat jawaban setelah mendapat umpan balik tentang masalah dengan jawaban pertama saya.
Residual Standard Error adalah standar deviasi untuk distribusi normal, berpusat pada garis regresi yang diprediksi, mewakili distribusi nilai yang sebenarnya diamati. Dengan kata lain, jika kita hanya mengukur kepadatan tanaman untuk plot baru, kita dapat memprediksi bobot tongkol menggunakan koefisien model pas, ini adalah rata-rata dari distribusi itu. RSE adalah standar deviasi dari distribusi itu dan dengan demikian mengukur seberapa besar kita berharap bobot tongkol yang diamati benar-benar menyimpang dari nilai yang diprediksi oleh model. RSE ~ 8 dalam hal ini harus dibandingkan dengan standar deviasi sampel berat tongkol tetapi RSE lebih kecil dibandingkan dengan sampel SD yang lebih prediktif, atau memadai, modelnya.
sumber