Dalam model linier sederhana dengan variabel penjelas tunggal,
Saya menemukan bahwa menghapus istilah intersepsi sangat meningkatkan kecocokan (nilai berubah dari 0,3 menjadi 0,9). Namun, istilah intersepsi tampaknya signifikan secara statistik.
Dengan mencegat:
Call: lm(formula = alpha ~ delta, data = cf) Residuals: Min 1Q Median 3Q Max -0.72138 -0.15619 -0.03744 0.14189 0.70305 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.48408 0.05397 8.97 <2e-16 *** delta 0.46112 0.04595 10.04 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.2435 on 218 degrees of freedom Multiple R-squared: 0.316, Adjusted R-squared: 0.3129 F-statistic: 100.7 on 1 and 218 DF, p-value: < 2.2e-16
Tanpa memotong:
Call: lm(formula = alpha ~ 0 + delta, data = cf) Residuals: Min 1Q Median 3Q Max -0.92474 -0.15021 0.05114 0.21078 0.85480 Coefficients: Estimate Std. Error t value Pr(>|t|) delta 0.85374 0.01632 52.33 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.2842 on 219 degrees of freedom Multiple R-squared: 0.9259, Adjusted R-squared: 0.9256 F-statistic: 2738 on 1 and 219 DF, p-value: < 2.2e-16
Bagaimana Anda menafsirkan hasil ini? Haruskah istilah intersepsi dimasukkan dalam model atau tidak?
Sunting
Berikut ini jumlah residu kuadrat:
RSS(with intercept) = 12.92305
RSS(without intercept) = 17.69277
r
linear-model
interpretation
r-squared
intercept
Ernest A
sumber
sumber
Jawaban:
Pertama-tama, kita harus memahami apa yang dilakukanR2
Kesetaraan pertamahanyaterjadi karena dimasukkannya intersep dalam modelmeskipunini mungkin lebih populer dari dua cara penulisan itu. Thekeduakesetaraan benar-benar menyediakan interpretasi yang lebih umum! Poin ini juga dibahas dalampertanyaan terkait ini.
R
perangkat lunak ketika tidak ada intersep yang termasuk dalam model. Ingat bahwa perhitungan biasa ketika intercept hadir adalah R 2 = Σ i ( y i - ˉ y ) 2Tapi, apa yang terjadi jika tidak ada intersep dalam model?
R
Tetapi, bagaimana mereka berbeda, dan kapan?
Kita dapat menulis ulang ekspresi untuk dan sebagai dan masing-masing.R2 R20
Sekarang, karena , maka jika dan hanya jika∥ y ∥22= ∥ y - y¯1 ∥22+ n y¯2 R20> R2
Sisi kiri lebih besar dari satu karena model yang sesuai dengan bersarang di dalam . Istilah kedua di sisi kanan adalah rata-rata kuadrat dari tanggapan dibagi dengan kesalahan kuadrat rata-rata dari model intercept-only. Jadi, semakin besar rata-rata respons relatif terhadap variasi lain, semakin banyak "kelonggaran" yang kita miliki dan peluang lebih besar mendominasi .y R 2 0 R2y~ y^ R20 R2
Perhatikan bahwa semua hal yang bergantung pada model ada di sisi kiri dan hal yang tidak tergantung model ada di sebelah kanan.
Ok, jadi bagaimana kita membuat rasio di sisi kiri kecil?
Ingat bahwa dan mana dan adalah matriks proyeksi yang berhubungan dengan ruang bagian dan sehingga .y~= P0y y^= P1y P0 P1 S0 S1 S0⊂ S1
Jadi, agar rasio menjadi dekat dengan salah satu, kita membutuhkan ruang bagian dan sangat mirip. Sekarang dan hanya berbeda oleh apakah adalah dasar vektor atau tidak, sehingga berarti bahwa telah lebih baik adalah ruang bagian yang sudah berada sangat dekat dengan .S0 S1 S0 S1 1 S0 1
Pada dasarnya, itu berarti prediktor kita sebaiknya memiliki offset rata-rata yang kuat dan bahwa offset rata-rata ini harus mendominasi variasi prediktor.
Sebuah contoh
Di sini kami mencoba untuk menghasilkan contoh dengan intersep secara eksplisit dalam model dan yang berperilaku dekat dengan kasus dalam pertanyaan. Di bawah ini adalah beberapa
R
kode sederhana untuk ditunjukkan.Ini menghasilkan output sebagai berikut. Kami mulai dengan model dengan mencegat.
Lalu, lihat apa yang terjadi ketika kita mengecualikan intersep.
Di bawah ini adalah plot data dengan model-dengan-intersep dalam warna merah dan model-tanpa-intersep dalam warna biru.
sumber
Saya akan mendasarkan keputusan saya pada kriteria informasi seperti kriteria Akaike atau Bayes-Schwarz daripada R ^ 2; bahkan saat itu saya tidak akan melihat ini sebagai absolut.
Jika Anda memiliki proses di mana kemiringan mendekati nol dan semua data jauh dari asal, R ^ 2 Anda yang benar harus rendah karena sebagian besar variasi dalam data akan disebabkan oleh noise. Jika Anda mencoba menyesuaikan data seperti itu dengan model tanpa intersep, Anda akan menghasilkan istilah slope yang besar dan salah dan kemungkinan besar akan terlihat lebih baik jika versi intersep gratis digunakan.
Grafik berikut menunjukkan apa yang terjadi dalam kasus ekstrem ini. Di sini proses menghasilkan adalah bahwa x = 100.100,1, .... dan y hanya 100 + noise acak dengan rata-rata 0 dan standar deviasi .1. Poinnya adalah lingkaran hitam, pas tanpa intersep adalah garis biru dan pas dengan intersep (zeroing out the slope) adalah garis merah:
[Maaf itu tidak akan membiarkan saya memposting grafik; jalankan R-code di bawah ini untuk menghasilkannya. Ini menunjukkan asal di sudut kiri bawah, sekelompok titik di sudut kanan atas. Fit no-intercept yang buruk beralih dari kiri bawah ke kanan atas dan fit yang benar adalah garis yang sejajar dengan sumbu x]
Model yang benar untuk ini harus memiliki R ^ 2 nol --- menjadi konstan plus noise acak. R akan memberi Anda dan R ^ 2 dari 0,99 untuk cocok tanpa intersep. Ini tidak akan menjadi masalah banyak jika Anda hanya menggunakan model untuk prediksi dengan nilai-x dalam rentang data pelatihan, tetapi akan gagal total jika x pergi di luar kisaran sempit rangkaian pelatihan atau Anda mencoba untuk mendapatkan wawasan sejati melampaui prediksi.
AIC dengan benar menunjukkan bahwa model dengan intersep lebih disukai. Kode R untuk ini adalah:
Output AIC adalah
Perhatikan bahwa AIC masih mendapatkan model yang salah dalam kasus ini, karena model sebenarnya adalah model konstan; tetapi angka acak lainnya akan menghasilkan data yang AIC terendah untuk model konstan. Perhatikan bahwa jika Anda membuang kemiringan, Anda harus memasang kembali model tanpanya, jangan mencoba menggunakan intersep dari model dan mengabaikan kemiringan.
sumber